谢集,浙江大学竺可桢学院大四学生,于加州大学伯克利分校(BAIR)进行访问,研究方向为统一多模态理解生成大模型。第二作者为加州大学伯克利分校的 Trevor Darrell,第三作者为华盛顿大学的 Luke Zettlemoyer,通讯作者是 XuDong Wang, Meta GenAl Research Scientist,博士毕业于加州大学伯克利分校(BAIR 实验室),这篇工作为他在博士期间完成。
背景:统一多模态理解与生成模型的挑战
统一多模态模型(Unified Multimodal Models, UMMs)旨在将视觉理解和生成统一于单一模型架构。UMM 继承了多模态大语言模型 (Multimodal Large Language Models, MLLMs) 可以很轻松地辨别物体的左右、颜色、种类。但是很多生成模型连「一只黑色的猫和白色的狗」,「黄色西兰花」都无法生成。这体现了当前统一多模态模型在视觉理解和生成能力上的不平衡:它们往往在理解图像内容方面表现出色,但在根据文本描述生成图像时却力不从心。这是为什么呢?
实际上,图片是一个「稠密」的模态,文字是一个「稀疏」的模态,从一个稠密的信息里提取稀疏的信息(VQA,Image Captioning)是相对轻松的,但是要从稀疏的信息去构建稠密的信息则更为困难。传统的文生图训练依赖大规模的图像 - 文本对数据,这些文本描述 (text caption) 无法完整的表述图片里的所有信息。比如物体位置关系、几何结构,物体的纹理和风格等。这可能导致图像生成模型学到不完整甚至有偏差的视觉概念(例如,将「西兰花」与「绿色」联系在一起,导致模型无法生成「黄色西兰花」)。我们称这种文本监督为「稀疏监督」(sparse supervision)。
方法:重建对齐 (Reconstruction Alignment, RecA)
有没有「稠密监督」(Dense Supervision),可以让模型学到更完整的视觉概念呢?答案是有的。图片本身正是最好的信息载体。UMM 提供了一个将图片作为「提示词」(prompt) 输入的机会。现在的 UMM 的视觉理解编码器 (Visual Understanding Encoder),如 CLIP, SigLIP,已经可以把图片映射到了 LLM 的语义空间 (language-aligned semantic space)。
以此为动机,我们提出了一种简单而有效的后训练方法 —— 重建对齐(Reconstruction Alignment, RecA)。RecA 并非对模型架构本身做出改动,而是在模型常规训练完成后,额外进行一阶段自监督的后训练。
具体来说,在 RecA 训练过程中,模型首先利用其视觉理解编码器从输入图像提取出语义嵌入特征(例如采用预训练的 CLIP、DINO 等模型获取图像的高维语义表示),与一个模板文本嵌入相融合,再送入统一多模态模型,使其以此为条件试图重建出原始输入图像。根据生成的图像与原图像之间的差异计算自监督重建损失,RecA 将视觉理解分支中蕴含的细节知识有效对齐到生成分支。
值得一提的是,RecA 的训练不需要任何的图像 - 文本对,只需未标注的图像即可完成训练。训练完成后,模型在推理时并不需要额外输入这些视觉嵌入,仍然像普通生成模型一样,仅通过文本提示即可工作;换言之,RecA 是一种纯训练阶段的对齐策略,不会增加推理阶段的开销或改变使用方式。
实验结果
通用性(Generality)
为了验证 RecA 的有效性,我们在四种代表性的统一多模态模型上进行了实验。1. Show-o (AR), Harmon (AR+MAR), OpenUni (AR+Diffusion, Metaqueries 开源版), BAGEL (AR+Diffusion) 等模型,涵盖了当前的主流架构。可以发现,RecA 在所有模型上均带来了显著的性能提升,显示出其方法的通用性和稳健性。
SOTA 结果(State-of-the-art Results)
我们使用 RecA 后训练得到的 Harmon-1.5B 模型展现出了极强的提高,在不使用 GPT-4o-Image 蒸馏数据和 RLHF 的情况下,在 GenEval 和 DPGBench 上达到了 0.86 和 87.21 的成绩。如果使用 GPT-4o-Image 蒸馏数据 BLIP3o-60k,通过两阶段策略(先进行有监督微调 SFT,再进行 RecA 无监督训练),Harmon 模型的性能进一步提升到 GenEval 0.90,DPGBench 88.15,全面刷新了现有记录。
对于 BAGEL,我们发现其在图像编辑任务上也取得了显著提升。在 ImgEdit 基准上的评分从 3.38 提升至 3.75,GEdit 评分从 6.94 上升到 7.25。经过 RecA 的 BAGEL 模型在某些编辑能力上超越最新的 SOTA 模型,如 Black Forest Labs 推出的 12 亿参数图像编辑模型 FLUX.1 Kontext。
可视化效果
生成能力展示:
编辑能力展示:
训练前后的生成能力对比:
训练前后的编辑结果对比:
下一篇:“广西制造”AI眼镜火出圈