机器人会想象了!国产新技术让机器人预判路径,成功率碾压现有方案
创始人
2026-03-25 15:25:21
0

近日,复旦大学、上海创智学院付彦伟教授团队为机器人打造了一种薛定谔的导航器,名字取自量子力学里那只既死又活的猫。

图 | 付彦伟(来源:资料图)

研究中,他们把机器人在办公室、教室、休息室里的导航过程拍成了视频。

视频里,机器人犹豫几秒之后果断绕过一张桌子,后面露出一只玩具猫,它没看见猫,但猜到了猫在那。这个动作人类做起来很自然,但是机器做起来却需要一整套想象的能力。

他们让机器人在行动前,先想象出几种可能的未来场景,每种场景对应一条不同的路线。想象里藏着目标,就走那条路;想象里藏着危险,就避开它。

这套系统在真实的四足机器人 Go2 上进行了测试,在找静态物体、追动态物体、躲避突发障碍三个场景里,成功率都远超现有最强方案。

付彦伟告诉 DeepTech:“有了这套框架,人形机器人或者四足狗就可以在一个全新的环境里直接导航,比如让它去抓住一只移动的猫,或者去拿一个会动的玩偶。这些以前很难做到的事,以后可能就变得很容易了。”

(来源:https://arxiv.org/pdf/2512.21201)

研究中,付彦伟等人首次使用想象的方式来导航,这在以前几乎没人做过。以前的方法处理不了动态物体或者严重遮挡的场景,而他们给出了一个全新的框架。

他们还首次在真实四足机器人上验证了这套系统,在找动态物体和应对突发障碍这两个场景里,效果明显比现有方法好。

(来源:https://arxiv.org/pdf/2512.21201)

看不见的地方,靠想象填满

这一方案想解决的问题是:假如你走进一个房间,目标是一只猫。你面前有张桌子,猫可能在后面,也可能不在。你该往左绕还是往右绕?如果桌后藏着危险的障碍物怎么办?如果猫正在移动呢?

普通机器人会怎么做?它只能看到眼前的东西,被桌子挡住的部分,它完全看不见。它要么随机选一边,要么花很长时间先把桌子周围探一遍,不仅效率低,还容易出错。

普通导航系统的弱点在于,它们只处理眼前能看见的信息。但真实世界里,大量信息藏在障碍物后面。机器人只能看见桌子的正面,看不见桌后是否有猫。

薛定谔的导航器用一个轨迹条件 3D 世界模型来解决这个问题。每次决策前,机器人先用一个程序生成三条候选路线:从左绕、从右绕、从上绕。

然后它把当前看到的画面和这三条路线一起喂给一个叫 FlashWorld 的模型。这个模型能在几秒内生成每条路线对应的未来 3D 场景,所使用的是 3D 高斯泼溅技术,也就是用大量小圆点堆出立体画面。

所生成的未来场景要跟真实世界对齐。具体来说,机器人用深度相机测出当前画面里每个点的真实距离,再和生成场景里的距离对比,算出缩放比例,把想象出的场景缩放到真实尺寸。

然后,它把想象出的场景里的物体贴上语义标签,比如哪些点是猫、哪些点是桌子。而这些想象出来的信息会被融合进一个未来感知价值地图里。

(来源:https://arxiv.org/pdf/2512.21201)

在 Go2 四足机器上验证:找得最准最重要

研究中,付彦伟等人在真实的 Go2 四足机器人上做了三组实验。

第一组是找静态物体,比如办公室里的椅子、教室里的绿植、休息室里的垃圾桶。每条路线重复五次,结果显示,薛定谔的导航器成功 23 次,对比方法成功 22 次,两者差不多。

第二组是找动态物体。目标物在场景里移动,机器人必须实时追踪。结果显示,薛定谔的导航器成功 16 次,对比方法只有 10 次。差距开始显现。

第三组是突发障碍。机器人正沿着一条路走,突然一个物体出现在路中间挡住去路。结果显示,薛定谔的导航器成功 19 次,对比方法只有 12 次。这个结果很关键,因为它证明系统不仅能想象静态场景,还能实时应对环境变化。

在模拟环境里的测试更全面。HM3D 数据集包含 36 个室内场景,1,000 个导航任务,六类目标物体。薛定谔的导航器在到目标距离指标上排第一,意味着它最终停下的位置离目标最近。而这恰恰是这套方法的设计目标:跑得最快是其次,找得最准最重要。

薛定谔的导航器最巧妙的地方在于,它把想象和决策连在了一起。而对比方法用的是同样的底层硬件和语言模型,区别只在于决策逻辑。

对比方法只看到了当前画面,想象不到桌后面的事。薛定谔的导航器多了一步:在行动前先想象。这一步听起来简单,但在机器人身上实现很复杂。

因为要让生成的 3D 场景和真实世界对齐,就要给每个小圆点贴上正确的语义标签,要保证计算速度够快不耽误实时决策。

(来源:https://arxiv.org/pdf/2512.21201)

“让他们去挖一个新坑,他们一开始是犹豫的”

这套方法的应用范围很广。比如,家用机器人找遥控器、扫地机器人绕开突然出现的拖鞋、搜救机器人在废墟里寻找幸存者,都需要在看不见的地方做推理。

付彦伟告诉 DeepTech:“研究期间我花了两三周时间,努力让学生的研究思路转变过来。我们中国的学生都很踏实,做事认真,但比较小心谨慎。你突然提出一个全新的东西,让他们去挖一个新坑,他们一开始是犹豫的。”

他继续说道:“我花了很大力气去说服他们,让他们理解:不能只是跟着别人的经典框架走,要自己去创造一个新框架。这种跨越,其实对博士生来说挺难的。但现在论文做完了,学生自己也觉得这种经历很宝贵,他们现在的研究思路也比以前更开阔了。”

(来源:https://arxiv.org/pdf/2512.21201)

目前系统只生成了三条固定路线(左、右、上),未来可以增加更多样化的路径。谈及后续计划他表示:“后续计划有不少。其中一个方向是多机器人共享同一个 3D 世界。”

如果有好几台异构的机器人,它们可以共享同一个想象空间,通过这个空间去规划每个机器人的路线。“那样的话,机器人在导航这件事上可能比人还厉害,因为我们可以很容易地构造很多机器人,让它们协同工作。”他说。

关于本次导航器的落地,他们可能会找企业合作,也可能做成开源工具包,让各种机器人平台都能调用。目前已经在和一些公司接触。

参考资料:

相关论文:https://arxiv.org/pdf/2512.21201

运营/排版:何晨龙

相关内容

热门资讯

原创 苹... 有不少朋友疑惑苹果iPhone 16 Pro和16 Pro Max有什么区别?该选择哪一款更好?各自...
2024年OPPO手机全攻略:... 手机已不仅仅是通讯工具,它更是我们记录生活、享受娱乐、提升工作效率的重要伙伴。随着科技的飞速发展,O...
2025年值得入手的2款智能手... 在科技飞速发展的今天,智能手表已成为我们生活中不可或缺的伙伴。无论是健康监测、信息提醒,还是时尚搭配...
原创 2... 从去年华为用上了麒麟芯片开始,华为的市场份额就蹭蹭的往上涨,当时抢购的人特别多,一时间还买不到现货,...
第五轮学科评估对比:西安交大突... 在之前的文章中,我们已经提及西安交通大学第五轮学科评估的表现可圈可点,新晋的3个A+学科:机械工程、...
vivo手机5g开关在哪里打开 vivo手机5G开关的打开方式可能因手机型号、系统版本及运营商网络支持情况的不同而有所差异。但总体来...
原创 麒... 为了普及原生鸿蒙(鸿蒙5.0),抢占更多的中端手机市场份额,华为nova系列今年开始计划一年两更,n...
解决FaceTime无法使用的... FaceTime是苹果公司推出的一款视频通话应用,广泛应用于iPhone、iPad和Mac等设备上。...
steam官网无法访问?这个办... 对于广大游戏爱好者而言,Steam平台无疑是获取最新游戏资讯、购买游戏、与全球玩家互动的重要阵地。然...
原创 直... #热点周际赛# 随着科技的进步,儿童智能穿戴设备逐渐成为了家庭中的新宠。华为作为智能穿戴领域的领军者...