理解帮助生成?RecA自监督训练让统一多模态模型直升SOTA
创始人
2025-09-19 13:21:43
0

谢集,浙江大学竺可桢学院大四学生,于加州大学伯克利分校(BAIR)进行访问,研究方向为统一多模态理解生成大模型。第二作者为加州大学伯克利分校的 Trevor Darrell,第三作者为华盛顿大学的 Luke Zettlemoyer,通讯作者是 XuDong Wang, Meta GenAl Research Scientist,博士毕业于加州大学伯克利分校(BAIR 实验室),这篇工作为他在博士期间完成。

背景:统一多模态理解与生成模型的挑战

统一多模态模型(Unified Multimodal Models, UMMs)旨在将视觉理解和生成统一于单一模型架构。UMM 继承了多模态大语言模型 (Multimodal Large Language Models, MLLMs) 可以很轻松地辨别物体的左右、颜色、种类。但是很多生成模型连「一只黑色的猫和白色的狗」,「黄色西兰花」都无法生成。这体现了当前统一多模态模型在视觉理解和生成能力上的不平衡:它们往往在理解图像内容方面表现出色,但在根据文本描述生成图像时却力不从心。这是为什么呢?

实际上,图片是一个「稠密」的模态,文字是一个「稀疏」的模态,从一个稠密的信息里提取稀疏的信息(VQA,Image Captioning)是相对轻松的,但是要从稀疏的信息去构建稠密的信息则更为困难。传统的文生图训练依赖大规模的图像 - 文本对数据,这些文本描述 (text caption) 无法完整的表述图片里的所有信息。比如物体位置关系、几何结构,物体的纹理和风格等。这可能导致图像生成模型学到不完整甚至有偏差的视觉概念(例如,将「西兰花」与「绿色」联系在一起,导致模型无法生成「黄色西兰花」)。我们称这种文本监督为「稀疏监督」(sparse supervision)。

方法:重建对齐 (Reconstruction Alignment, RecA)

有没有「稠密监督」(Dense Supervision),可以让模型学到更完整的视觉概念呢?答案是有的。图片本身正是最好的信息载体。UMM 提供了一个将图片作为「提示词」(prompt) 输入的机会。现在的 UMM 的视觉理解编码器 (Visual Understanding Encoder),如 CLIP, SigLIP,已经可以把图片映射到了 LLM 的语义空间 (language-aligned semantic space)。

以此为动机,我们提出了一种简单而有效的后训练方法 —— 重建对齐(Reconstruction Alignment, RecA)。RecA 并非对模型架构本身做出改动,而是在模型常规训练完成后,额外进行一阶段自监督的后训练。

  • Arxiv:https://alphaxiv.org/abs/2509.07295
  • 代码:https://github.com/HorizonWind2004/reconstruction-alignment
  • 项目主页:https://reconstruction-alignment.github.io/

具体来说,在 RecA 训练过程中,模型首先利用其视觉理解编码器从输入图像提取出语义嵌入特征(例如采用预训练的 CLIP、DINO 等模型获取图像的高维语义表示),与一个模板文本嵌入相融合,再送入统一多模态模型,使其以此为条件试图重建出原始输入图像。根据生成的图像与原图像之间的差异计算自监督重建损失,RecA 将视觉理解分支中蕴含的细节知识有效对齐到生成分支

值得一提的是,RecA 的训练不需要任何的图像 - 文本对,只需未标注的图像即可完成训练。训练完成后,模型在推理时并不需要额外输入这些视觉嵌入,仍然像普通生成模型一样,仅通过文本提示即可工作;换言之,RecA 是一种纯训练阶段的对齐策略,不会增加推理阶段的开销或改变使用方式。

实验结果

通用性(Generality)

为了验证 RecA 的有效性,我们在四种代表性的统一多模态模型上进行了实验。1. Show-o (AR), Harmon (AR+MAR), OpenUni (AR+Diffusion, Metaqueries 开源版), BAGEL (AR+Diffusion) 等模型,涵盖了当前的主流架构。可以发现,RecA 在所有模型上均带来了显著的性能提升,显示出其方法的通用性和稳健性。

SOTA 结果(State-of-the-art Results)

我们使用 RecA 后训练得到的 Harmon-1.5B 模型展现出了极强的提高,在不使用 GPT-4o-Image 蒸馏数据和 RLHF 的情况下,在 GenEval 和 DPGBench 上达到了 0.86 和 87.21 的成绩。如果使用 GPT-4o-Image 蒸馏数据 BLIP3o-60k,通过两阶段策略(先进行有监督微调 SFT,再进行 RecA 无监督训练),Harmon 模型的性能进一步提升到 GenEval 0.90,DPGBench 88.15,全面刷新了现有记录。

对于 BAGEL,我们发现其在图像编辑任务上也取得了显著提升。在 ImgEdit 基准上的评分从 3.38 提升至 3.75,GEdit 评分从 6.94 上升到 7.25。经过 RecA 的 BAGEL 模型在某些编辑能力上超越最新的 SOTA 模型,如 Black Forest Labs 推出的 12 亿参数图像编辑模型 FLUX.1 Kontext。

可视化效果

生成能力展示:

编辑能力展示:

训练前后的生成能力对比:

训练前后的编辑结果对比:

相关内容

热门资讯

原创 苹... 有不少朋友疑惑苹果iPhone 16 Pro和16 Pro Max有什么区别?该选择哪一款更好?各自...
2025年值得入手的2款智能手... 在科技飞速发展的今天,智能手表已成为我们生活中不可或缺的伙伴。无论是健康监测、信息提醒,还是时尚搭配...
原创 2... 从去年华为用上了麒麟芯片开始,华为的市场份额就蹭蹭的往上涨,当时抢购的人特别多,一时间还买不到现货,...
第五轮学科评估对比:西安交大突... 在之前的文章中,我们已经提及西安交通大学第五轮学科评估的表现可圈可点,新晋的3个A+学科:机械工程、...
2024年OPPO手机全攻略:... 手机已不仅仅是通讯工具,它更是我们记录生活、享受娱乐、提升工作效率的重要伙伴。随着科技的飞速发展,O...
vivo手机5g开关在哪里打开 vivo手机5G开关的打开方式可能因手机型号、系统版本及运营商网络支持情况的不同而有所差异。但总体来...
解决FaceTime无法使用的... FaceTime是苹果公司推出的一款视频通话应用,广泛应用于iPhone、iPad和Mac等设备上。...
steam官网无法访问?这个办... 对于广大游戏爱好者而言,Steam平台无疑是获取最新游戏资讯、购买游戏、与全球玩家互动的重要阵地。然...
原创 麒... 为了普及原生鸿蒙(鸿蒙5.0),抢占更多的中端手机市场份额,华为nova系列今年开始计划一年两更,n...
原创 最... 近日,有关华为nova 13系列手机的消息开始多了起来,之前透露的消息暴露,华为nova 13 Pr...