具身智能奠基者之一苏昊入职复旦首度开讲:AI的下一个里程碑是理解物理世界
创始人
2026-05-28 07:42:57
0

就在上个月,此前任教于美国加州大学圣地亚哥分校的苏昊正式加入复旦,在人工智能学界引发关注。

5月27日,这位新加盟的复旦大学浩清特聘教授、通用物理智能研究院首任院长,在复旦大学校庆科学报告会上,首次面向全校师生作科学报告。苏昊作为ImageNet(注:全球超大规模图像数据集,是深度学习与计算机视觉发展的关键基石)的核心贡献者之一、具身智能领域的共同奠基人,其论文目前被引约15万次,在具身智能领域位居全球学者最前列,华人学者中排名第一。这场以“物理智能:从感知到交互”为主题的报告,是这位领军科学家回国后首次公开完整阐述他的学术蓝图。

【“物理智能”极其稀有】

“过去30年,科学界投入了大量精力让机器看和读得更明白——识别人脸、理解文字、生成图像,但它真的理解这个世界吗?推一下桌上的杯子,它知道会发生什么吗?如果用两倍的力再推一次,大模型能预判杯子的运动轨迹有何不同吗?”报告伊始,苏昊用一个朴素的问题引发观众思考。

他回顾了自己从2008年出国至今的研究历程,“18年间只做了一件事——让机器理解物理世界。”从早期的2D图像感知,转向3D形状理解,再到开发可交互的物理仿真平台,他逐渐认识到,要走向通用人工智能,必须把“看”和“做”统一在同一个框架、同一个闭环里。为此,他与多所大学和企业的前沿实验室一道,推动了具身智能的学科定义与社区凝聚。

正是基于这些探索,一条规律浮出水面:机器人实现简单的物体操作技能时,瓶颈在于视觉感知;而复杂操作技能的真正卡点,在于物理理解。

究竟什么是物理理解?苏昊用了一个人人都经历过的场景来解释——搬纸箱。伸手之前,你的大脑已经开始判断:这个箱子有多重?箱子结实吗?这些判断在零点几秒内就完成了,你甚至没有意识到。

“这种能力不是从书本上学到的,而是在无数次触碰、抓握、跌打中打磨出来的。”苏昊说,即使是目前最先进的AI面对同样的场景还是做不到,它可以识别出纸箱,却无法知道拿起来是什么感觉,“物理理解的本质不是看到了什么,而是给定一个动作,预测它将带来的物理后果。”

他借用认知科学的框架,将智能分为四个层级:感知智能(看懂图像)、空间智能(理解三维几何结构)、物理智能(理解物理交互和因果)、行为智能(做出决策和规划)。

一个值得注意的事实是,在自然界中,除了人类之外,第三层“物理智能”极其稀有,目前已知只有鸦科和类人猿等少数动物才具备。乌鸦往瓶子里投石子喝水、灵长类动物使用工具——这不是感知的简单升级,而是一次认知的质变。

【AI的下一里程碑】

“我认为,AI的下一个里程碑不是更会说话,而是理解物理世界,从而学会操作。”苏昊直言。

过去两年最流行的世界模型有两类,几何世界模型擅长空间理解,视频世界模型擅长视觉生成,但它们本质上都没有实现“物理理解”,也无法“预测行动后果”。

“真正需要的是第三类——物理交互世界模型,它既理解空间,又理解物理规律,能预测行动带来的后果。”苏昊说,这种模型目前仍处于较早期发展阶段,“不同技术路线都在同一个地方碰壁——物理智能层。而瓶颈的另一面就是机遇,谁能率先补上物理智能,谁就有可能定义下一代人工智能的范式。”

这正是苏昊领衔建设的复旦大学通用物理智能研究院要做的两件大事。第一,推动物理智能的最终实现。构建物理交互世界模型,让机器真正理解“推一下桌上的杯子会怎样”;第二,培养下一个十年的AI领军人才。

“我们看中两点:高品位的科研眼光,能判断什么问题值得去做;还有长周期的探索耐心,能在一个方向上坚持足够久。”苏昊强调,“我们不要只做论文的搬运工,而要做问题的提出者和解决者。”论文不是目标,而是副产品。真正的标尺,是能否在真实世界中实现智能体的有效行动与自主决策。

他给出三个关键词:交叉、交互、验证,并进一步阐释道,物理智能是多学科交叉问题,涉及数学、物理、计算机、人机交互、脑机接口等,因此通用物理智能研究院不设学科边界,而是围绕要解决的问题来汇聚人才。

关于交互,他指出交互数据是物理智能的“石油”。看1万个小时别人骑自行车,自己还是不会骑,必须通过主动交互获得物理经验。通用物理智能研究院将推动仿真平台和真实数据采集双线并行。

关于验证,他强调真实世界表现才是终审。仿真跑得再好,到了真实世界失败就不算数。从仿真到真实,是不可省略的一步。

复旦大学有数学和物理的根基,有新工科的决心,还背靠上海的产业生态,这些是做物理智能最需要的“土壤”。

【中国有机会主导这一方向】

对于物理智能,苏昊的态度是“谨慎的乐观”。

在他看来,大语言模型的竞争中,中国是追赶者;但物理智能不一样,全世界都还在同一条起跑线上,核心问题还没有被解决。中国具备产业链等优势,眼前正是一个有机会主导方向、定义范式的窗口期。

与此同时需要谨慎看待的是,很多demo(注:演示样例)非常精彩,比如机器人叠衣服、做饭、整理房间,但这些demo与真正的通用能力之间仍然存在着关键断层。“因为缺乏深度的物理理解,短期内达到大语言模型那种泛化程度还不现实,但在更长的时间尺度上,方向是清晰的。”苏昊说,具身智能将进入制造业、服务业、养老行业等,我们正通往人机共存时代,而这座“桥梁”,则建立在今天对物理智能的扎实探索之上。

“没有理解就没有泛化,没有交互就没有理解。”苏昊说,这是他多年人工智能研究最深切的体会。

他引用复旦校训“博学而笃志,切问而近思”解释物理智能的研究哲学:“切问,是从切身处发问;近思,是从实践中思考。这和物理智能的方法论有一种天然的契合——不是只坐在那里想,而是伸出手去碰,在碰撞中获得对世界的理解。这正是我们在复旦要践行的研究哲学。”

相关内容

热门资讯

原创 苹... 有不少朋友疑惑苹果iPhone 16 Pro和16 Pro Max有什么区别?该选择哪一款更好?各自...
2024年OPPO手机全攻略:... 手机已不仅仅是通讯工具,它更是我们记录生活、享受娱乐、提升工作效率的重要伙伴。随着科技的飞速发展,O...
2025年值得入手的2款智能手... 在科技飞速发展的今天,智能手表已成为我们生活中不可或缺的伙伴。无论是健康监测、信息提醒,还是时尚搭配...
原创 2... 从去年华为用上了麒麟芯片开始,华为的市场份额就蹭蹭的往上涨,当时抢购的人特别多,一时间还买不到现货,...
第五轮学科评估对比:西安交大突... 在之前的文章中,我们已经提及西安交通大学第五轮学科评估的表现可圈可点,新晋的3个A+学科:机械工程、...
vivo手机5g开关在哪里打开 vivo手机5G开关的打开方式可能因手机型号、系统版本及运营商网络支持情况的不同而有所差异。但总体来...
原创 麒... 为了普及原生鸿蒙(鸿蒙5.0),抢占更多的中端手机市场份额,华为nova系列今年开始计划一年两更,n...
解决FaceTime无法使用的... FaceTime是苹果公司推出的一款视频通话应用,广泛应用于iPhone、iPad和Mac等设备上。...
steam官网无法访问?这个办... 对于广大游戏爱好者而言,Steam平台无疑是获取最新游戏资讯、购买游戏、与全球玩家互动的重要阵地。然...
原创 直... #热点周际赛# 随着科技的进步,儿童智能穿戴设备逐渐成为了家庭中的新宠。华为作为智能穿戴领域的领军者...