理解帮助生成？RecA自监督训练让统一多模态模型直升SOTA_科技动态

理解帮助生成？RecA自监督训练让统一多模态模型直升SOTA

创始人

2025-09-19 13:21:43

0次

谢集，浙江大学竺可桢学院大四学生，于加州大学伯克利分校（BAIR）进行访问，研究方向为统一多模态理解生成大模型。第二作者为加州大学伯克利分校的 Trevor Darrell，第三作者为华盛顿大学的 Luke Zettlemoyer，通讯作者是 XuDong Wang, Meta GenAl Research Scientist，博士毕业于加州大学伯克利分校（BAIR 实验室），这篇工作为他在博士期间完成。

背景：统一多模态理解与生成模型的挑战

统一多模态模型（Unified Multimodal Models, UMMs）旨在将视觉理解和生成统一于单一模型架构。UMM 继承了多模态大语言模型 (Multimodal Large Language Models, MLLMs) 可以很轻松地辨别物体的左右、颜色、种类。但是很多生成模型连「一只黑色的猫和白色的狗」，「黄色西兰花」都无法生成。这体现了当前统一多模态模型在视觉理解和生成能力上的不平衡：它们往往在理解图像内容方面表现出色，但在根据文本描述生成图像时却力不从心。这是为什么呢？

实际上，图片是一个「稠密」的模态，文字是一个「稀疏」的模态，从一个稠密的信息里提取稀疏的信息（VQA，Image Captioning）是相对轻松的，但是要从稀疏的信息去构建稠密的信息则更为困难。传统的文生图训练依赖大规模的图像 - 文本对数据，这些文本描述 (text caption) 无法完整的表述图片里的所有信息。比如物体位置关系、几何结构，物体的纹理和风格等。这可能导致图像生成模型学到不完整甚至有偏差的视觉概念（例如，将「西兰花」与「绿色」联系在一起，导致模型无法生成「黄色西兰花」）。我们称这种文本监督为「稀疏监督」(sparse supervision)。

方法：重建对齐 (Reconstruction Alignment, RecA)

有没有「稠密监督」(Dense Supervision)，可以让模型学到更完整的视觉概念呢？答案是有的。图片本身正是最好的信息载体。UMM 提供了一个将图片作为「提示词」(prompt) 输入的机会。现在的 UMM 的视觉理解编码器 (Visual Understanding Encoder)，如 CLIP, SigLIP，已经可以把图片映射到了 LLM 的语义空间 (language-aligned semantic space)。

以此为动机，我们提出了一种简单而有效的后训练方法 —— 重建对齐（Reconstruction Alignment, RecA）。RecA 并非对模型架构本身做出改动，而是在模型常规训练完成后，额外进行一阶段自监督的后训练。

Arxiv：https://alphaxiv.org/abs/2509.07295
代码：https://github.com/HorizonWind2004/reconstruction-alignment
项目主页：https://reconstruction-alignment.github.io/

具体来说，在 RecA 训练过程中，模型首先利用其视觉理解编码器从输入图像提取出语义嵌入特征（例如采用预训练的 CLIP、DINO 等模型获取图像的高维语义表示），与一个模板文本嵌入相融合，再送入统一多模态模型，使其以此为条件试图重建出原始输入图像。根据生成的图像与原图像之间的差异计算自监督重建损失，RecA 将视觉理解分支中蕴含的细节知识有效对齐到生成分支。

值得一提的是，RecA 的训练不需要任何的图像 - 文本对，只需未标注的图像即可完成训练。训练完成后，模型在推理时并不需要额外输入这些视觉嵌入，仍然像普通生成模型一样，仅通过文本提示即可工作；换言之，RecA 是一种纯训练阶段的对齐策略，不会增加推理阶段的开销或改变使用方式。

实验结果

通用性（Generality）

为了验证 RecA 的有效性，我们在四种代表性的统一多模态模型上进行了实验。1. Show-o (AR), Harmon (AR+MAR), OpenUni (AR+Diffusion, Metaqueries 开源版), BAGEL (AR+Diffusion) 等模型，涵盖了当前的主流架构。可以发现，RecA 在所有模型上均带来了显著的性能提升，显示出其方法的通用性和稳健性。

SOTA 结果（State-of-the-art Results）

我们使用 RecA 后训练得到的 Harmon-1.5B 模型展现出了极强的提高，在不使用 GPT-4o-Image 蒸馏数据和 RLHF 的情况下，在 GenEval 和 DPGBench 上达到了 0.86 和 87.21 的成绩。如果使用 GPT-4o-Image 蒸馏数据 BLIP3o-60k，通过两阶段策略（先进行有监督微调 SFT，再进行 RecA 无监督训练），Harmon 模型的性能进一步提升到 GenEval 0.90，DPGBench 88.15，全面刷新了现有记录。

对于 BAGEL，我们发现其在图像编辑任务上也取得了显著提升。在 ImgEdit 基准上的评分从 3.38 提升至 3.75，GEdit 评分从 6.94 上升到 7.25。经过 RecA 的 BAGEL 模型在某些编辑能力上超越最新的 SOTA 模型，如 Black Forest Labs 推出的 12 亿参数图像编辑模型 FLUX.1 Kontext。

可视化效果

生成能力展示：

编辑能力展示：

训练前后的生成能力对比：

训练前后的编辑结果对比：

上一篇：中国科学家研发首例氢负离子原型电池

下一篇：“广西制造”AI眼镜火出圈

理解帮助生成？RecA自监督训练让统一多模态模型直升SOTA

相关内容

热门资讯