【环球网科技报道 记者 秦耳】年之过半,进入六月。对于AI大模型而言,随着年初GPT-o3发布,以及4月GPT-4o带动起全球热议的“吉卜力画风”。虽然期待已久的GPT-5依然迟迟未能上线,o3与4o的能力已经让业界意识到大模型已经从单纯的文本训练,进入了真正“多模态”。
在多模态大模型技术支撑下,今年市场上各类Agent产品创新也如“雨后春笋”,今年年初在网络上爆火的由蝴蝶效应公司发布的Manus就是一款多用途的Agent。在五月OpenAI收购知名硬件设计公司io进军AI硬件,以及宇树科技CEO王兴兴近期在接受采访中讲出“人形机器人更需要智力”的论断。可以说,今年对业界而言是真正的“Agent元年”。
为了进一步了解大模型技术发展与应用,在2025北京智源大会之际,记者采访到智源研究院院长王仲远,阐释了他对于大模型技术以产品化的看法。值得一提的是,在去年2024北京智源大会上,王仲远院长预测到2025年我国大模型整体能力将达到GPT-4的水平,同时2025年将开启产品化。从现在这个时间点看,这个预测得到了证实。
对于大模型的发展,王仲远认为,过去一年大模型整体的发展方向在于强化学习以达到训练和推理上的提升。包括GPT-o3、DeepSeek R1等都是这方面的代表。现在大模型Scaling Law依然成立,目前已经实现利用多模态数据,如果进一步实现人工智能合成的数据、生成的数据质量能够达到人类创造的数据质量,那意味着人工智能有可能实现自我学习和进步。
即便在当前大模型能力的推动下,宏观层面,大模型与硬件结合,通过具身智能的发展解决实际生产生活问题已经成为可能。
“大模型发展到一定程度,达到可用状态之后,Agent是产业界可以开始发力的领域。基础大模型达到可用状态时,像水、电、操作系统一样,意味着可以基于这个操作系统开发很多相当于移动互联网的APP的Agent。”王仲远认为。
他认为,Agent是技术和产业发展趋势之一,随着基础大模型技术进一步发展以及Agent产品化不断成熟,大模型或可在Agent上出现“杀手级”应用。
不过,王仲远同时表示,基础大模型一定会收敛,现在可以看到行业内剩下少数几个玩家在坚持基础大模型。侧面上也传递出,创业公司在进入Agent领域一定要进入专业领域,而不是通用领域。
今后,在Agent上会出现一人创业公司或者少数几个人组成的创业公司,如果对领域非常了解,对领域的用户需求非常了解,就有机会创造出这个领域独特的基于大模型的产品和体验,进入到一个新的阶段。
基于对大模型发展的判断,在今年智源大会上,智源正式推出“悟界”,围绕物理AGI所做的大模型最新科研成果和布局构成了“悟界”系列大模型。“悟界”系列大模型目前包含四个模型:原生多模态世界模型Emu3、全球首个脑科学多模态通用基础模型见微Brainμ、具身大脑RoboBrain 2.0以及全原子微观生命模型OpenComplex2。
其中,RoboBrain 2.0 作为开源具身大脑大模型,在任务规划上基于多本体 - 环境动态建模实现多机协同规划,准确率较 1.0 提升 74%;空间智能性能提升 17% 并新增空间推理能力;还具备闭环反馈与深度思考能力,可实时调整策略、分解复杂任务;其与 RoboOS 2.0 已全面开源核心资源,助力产业发展,目前智源研究院已携手 20 多家具身智能企业共建协同生态 。
面对人工智能已经进入产业爆发期的“拐点”时刻,作为研究院,王仲远认为包括政府等职能部门,需要对产业发展包容审慎,看到技术快速发展的阶段和落地的现实情况。要辩证看待产业发展中的风险,产业发展中的问题可以规范化。而不是“因噎废食”,因为问题而不发展产业;同时,给企业创造好的环境,让大企业或者小企业有很好的创新创业环境,也给科研机构和高校更多的支持和探索空间。新型研发机构、高校和企业,大家各自做好各自的事情,社会的创新体系自然而然就会爆发。