在深耕大语言模型(LLM)研究八年后,计算机科学家路易斯·卡斯特里卡托感到自己撞上了一堵无形的墙。“我们基本上已经超越了真正的基础LLM研究阶段,现在主要是应用层面的工作。”他坦言。
随后,卡斯特里卡托放弃了布朗大学的博士学位,创立了一家名为Overworld的新公司。其雄心壮志体现在名称之中:打造能够理解并导航真实世界、而不仅仅是处理文字的人工智能。
尽管从AI聊天机器人中获利依然可观——投资者正将数万亿美元投入Anthropic和OpenAI等头部开发商——但越来越多的AI创业者致力于他们眼中的下一个前沿领域:“世界模型”。这一技术旨在教会AI系统,有时甚至是机器人,如何在物理环境中做出反应。
这一领域汇聚了一些最著名的科学家。被称为“AI教母”的李飞飞将世界模型描述为“当今AI领域最重要且被过度使用的术语之一”。
从文本统计到时空结构
世界模型研究的核心思想在于:如果AI只能阅读书籍,它就不可能真正具备智能。它还需要学会“察言观色”,读懂周围的环境。
旧金山初创公司World Labs的创始人李飞飞在本月发表的一篇文章中指出:“语言模型学习的是文本的统计结构,而世界模型学习的是时空的统计结构:光线如何落在表面上、从相机未曾捕捉的角度看花园是什么样、物体如何对力做出反应并遵循物理定律。”
另一位支持者、AI先驱杨立昆去年辞去了Meta首席AI科学家的职务,在巴黎创办了Advanced Machine Intelligence Labs。他在最近一期《无监督学习》播客中表示,世界模型正迅速成为一个流行词,这是一种使AI代理能够“预测自身行为后果”的技术。
世界模型有多种定义方式,通常基于人们希望用它构建的技术——无论是机器人还是更具互动性的电子游戏。
填补生成式AI的物理认知空白
正如AI语言模型所做的那样,通过训练涵盖全人类的书籍、新闻文章和视觉媒体,AI助手正在改变办公室工作和某些创意领域的性质。但一些支持者认为,通过反复预测下一个单词或像素来生成新对话、图像或代码行的生成式AI模型存在局限性。
卡内基梅隆大学计算机科学学院院长马蒂亚斯·赫伯特指出,聊天机器人无法拿起咖啡杯。“这里涉及世界的几何结构、我移动手时的动态过程、以及与杯子接触时的物理相互作用,”赫伯特说,“这比仅仅预测句子中的下一个单词要复杂得多。”
对于像赫伯特这样从事机器人研究四十多年的科学家来说,世界模型最有用的应用是作为通往“物理AI”这一科技行业流行语的更快、更便宜的途径。
“有些人可能有不同的定义,但物理AI和具身AI可以说是我们过去所称的机器人的进化形式,”赫伯特在接受采访时表示。他指出,使聊天机器人如此有用的某些AI进步也可以应用于构建具有足够环境意识的AI,使其能像机器人的大脑一样工作。
他比喻道:“在你的身体和脊髓中,有一个关于如何平衡、如何行走的通用模型,你可以适应早晨膝盖疼痛的情况,从而稍微改变走路姿势。你不需要思考这一点。你的神经系统和大脑中有一个通用模型,允许你的身体非常快速地适应变化。”
资本涌入与概念厘清
更聪明的机器人并不是世界模型的唯一终局。卡斯特里卡托于去年创立的Overworld,这家位于罗德岛的小型初创公司目前正在构建视频游戏世界,其中的场景(例如阴森的森林)可以根据虚拟角色的移动及其与场景中物体的互动而进行调整。
“没有其他世界模型能让你直接穿过门,或以这种细节程度与环境互动,”他在采访中说,“我们将交互性置于首位进行优化。”
虽然近期应用不如AI编码工具那样显而易见,但世界模型制造者正吸引着风险投资人的关注。Kindred Ventures联合创始人兼管理合伙人史蒂夫·姜表示,该基金正在投资Overworld及其他专注于世界模型的公司,包括用于天气预测的AI模型开发商Causal Labs,以及为适配世界模型而构建专用计算机芯片的Extropic。
“我认为未来将是多种不同类型、拥有不同哲学和架构的模型共存,”姜表示,“我不认为会由一个庞大而密集的模型统治一切。”
在她最近的文章中,李飞飞试图建立一套“世界模型分类法”,以帮助理清相互竞争愿景带来的困惑。“一个产生美丽但物理上不可能存在的火焰的视频模型,一个即兴创作可玩游戏的语言模型,以及一个忠实模拟燃烧过程的物理引擎,都使用着同一个名称,”她写道。
她将世界模型分为三类。目前最具商业可行性的是“渲染器”,它们优先考虑所创建虚拟世界的视觉保真度,但不能指望它们教会机器人太多东西。其次是“模拟器”,它们创建忠实地代表世界物理结构的虚拟训练场;以及“规划器”,试图预测AI代理或机器人在非结构化世界中应该做什么。
“一个能够规划的机器人就是一个能工作的机器人,整个行业都在竞相成为第一个实现这一目标的企业,”她写道。
【星途科讯 图文丨Patrick 首发于ZAKER科技,转载请注明出处】