大模型被确诊「视觉文盲」!多校联合提出MILO,为它植入空间想象力
创始人
2025-12-05 03:20:26
0

MILO团队 投稿

量子位 | 公众号 QbitAI

大模型总是无法理解空间,就像我们难以想象四维世界。

空间推理是人类理解三维世界结构的核心认知能力,也是多模态大语言模型(MLLMs)在实际应用中面临的关键挑战之一。

当前大多数方法采用“语言描述式调优”,即通过文本符号让模型学习空间概念,却从未真正“看见”这些概念在视觉上的表现,导致模型出现“视觉文盲”现象——即无法在生成回答时关注到正确的视觉区域。

如图,基线模型在回答关于“木椅”的问题时,其视觉注意力并未集中在目标区域,而是分散在无关区域。这反映出当前MLLMs在空间语义与视觉感知之间缺乏跨模态对齐,无法像人类那样通过心理想象来支撑空间推理。

MILO:为模型植入“空间想象力”

为解决上述问题,由多高校、机构组成的研究团队提出了MILOMplicit spat Ia Lw Orld modeling) ,一种隐式空间世界建模范式,通过引入视觉生成反馈,将符号推理与感知经验隐式地结合起来。

1. 从“看到”到“想到”

MILO在传统语言调优的基础上,引入视觉生成调优,形成一个包含两个阶段的训练流程:

  • 视觉生成调优阶段:

    模型接收几何变换指令(如“向右转”),并调用视频扩散模型生成对应的新视角图像,从而学习空间变换在视觉上的表现;

  • 语言调优阶段:

    在视觉生成调优之后,继续使用空间指令数据对模型进行语言层面的微调。

通过这种方式,MILO使MLLMs能够内化几何变换的视觉表现,建立起类人的隐式空间世界模型。

2. 摆脱绝对坐标,学会相对感知

为了进一步增强模型的几何感知能力,团队提出了RePE(Relative Positional Encoding,相对位置编码),一种基于相对相机位姿变换的位置编码方案。

与传统的绝对坐标系编码不同,RePE不依赖于全局坐标系,而是捕捉相邻帧之间的相对变换,从而具备更好的泛化性与跨数据集适应性。

构建几何世界的“教科书”

研究团队构建了GeoGen数据集,一个包含约2,241个视频和26.7万个“观测-动作-结果”三元组的大规模几何感知生成数据集。

GeoGen涵盖两类核心任务:

  • 新视角合成:

    根据指令生成相机移动后的新视图;

  • 轨迹生成:

    根据起点和终点生成相机运动路径,要求模型理解场景的整体几何结构。

数据来源包括扫描的3D场景(如ScanNet、ScanNet++)和互联网视频(如RoomTour3D),确保了数据的多样性和真实性。

五大任务全面验证

研究团队在多个基线模型(Video-3D LLM、VG-LLM、RoboRefer)和五大类空间理解任务上验证了MILO的有效性:

  • 3D场景理解任务:

    在ScanRefer、Multi3DRefer、Scan2Cap、ScanQA、SQA3D等基准上,MILO均取得最优性能,尤其在ScanRefer上Acc@0.25提升3.2%;

  • 空间推理任务:

    在VSI-Bench上平均准确率达61.7%,超越基线VG-LLM 2.2%;

  • 具身任务:

    在RefSpatial-Bench的三个子集上全面领先,尤其在未见组合关系任务上提升1.3%。

作者:Meng Cao, Haokun Lin, Haoyuan Li, Haoran Tang, Rongtao Xu, Dong An, Xue Liu, Ian Reid, Xiaodan Liang

单位:Mohamed bin Zayed University of Artificial Intelligence;Sun Yat-sen University; Peking University; Spatial-Temporal AI

论文:http://arxiv.org/pdf/2512.01821

相关内容

热门资讯

原创 苹... 有不少朋友疑惑苹果iPhone 16 Pro和16 Pro Max有什么区别?该选择哪一款更好?各自...
2024年OPPO手机全攻略:... 手机已不仅仅是通讯工具,它更是我们记录生活、享受娱乐、提升工作效率的重要伙伴。随着科技的飞速发展,O...
2025年值得入手的2款智能手... 在科技飞速发展的今天,智能手表已成为我们生活中不可或缺的伙伴。无论是健康监测、信息提醒,还是时尚搭配...
原创 2... 从去年华为用上了麒麟芯片开始,华为的市场份额就蹭蹭的往上涨,当时抢购的人特别多,一时间还买不到现货,...
第五轮学科评估对比:西安交大突... 在之前的文章中,我们已经提及西安交通大学第五轮学科评估的表现可圈可点,新晋的3个A+学科:机械工程、...
vivo手机5g开关在哪里打开 vivo手机5G开关的打开方式可能因手机型号、系统版本及运营商网络支持情况的不同而有所差异。但总体来...
解决FaceTime无法使用的... FaceTime是苹果公司推出的一款视频通话应用,广泛应用于iPhone、iPad和Mac等设备上。...
steam官网无法访问?这个办... 对于广大游戏爱好者而言,Steam平台无疑是获取最新游戏资讯、购买游戏、与全球玩家互动的重要阵地。然...
原创 直... #热点周际赛# 随着科技的进步,儿童智能穿戴设备逐渐成为了家庭中的新宠。华为作为智能穿戴领域的领军者...
原创 麒... 为了普及原生鸿蒙(鸿蒙5.0),抢占更多的中端手机市场份额,华为nova系列今年开始计划一年两更,n...