9月22日,OpenAI 旗下首款具备“推理”能力的模型o1和o1-mini正式向企业版(Enterprise)和教育版(Edu)用户开放访问权限,用户每周最多可输入50条消息。
OpenAI o1系列模型被业界认为是AGI(通用人工智能)的一大进程,不仅解决了“13.11与13.8比谁大”的数学问题,还能解决科学、编程方面的问题,比此前的模型能处理更为复杂的任务。
在近期举行的云栖大会上,针对包括“OpenAI o1带来了哪些影响”“目前大模型的发展是加速还是减速”“目前AI 给产业带来了哪些影响”等议题,对中国AI影响颇大、被誉为“AI六小龙”的几位大模型公司掌舵者——阶跃星辰创始人姜大昕、月之暗面 Kimi 创始人杨植麟以及清华大学人工智能研究院副院长、生数科技首席科学家朱军,展开了精彩的分享。
更像人的o1发布,带来新的创业机会
OpenAI o1大模型的面世,再次引起了人们的关注。不过,OpenAI o1的发布在业界引起了不同的声音。
在阶跃星辰创始人、首席执行官姜大昕看来,OpenAI o1第一次证明了语言模型其实也可以有人脑的慢思考——即一种被称为“系统2”的能力。“系统1”是一种直线思维,拥有“系统1”能力的GPT4能把一个复杂问题拆解成很多步,再分步去解决,但它还是直线性思维的。而“系统2”的能力则能探索不同的路径、自我反思和纠错,不断试错直到找到一个正确路径。而OpenAI o1正是将以前的模仿学习和强化学习结合了起来,使得一个模型同时有了人脑“系统1”和“系统2”的能力。
此外,姜大昕表示,OpenAI o1在试图回答“强化学习”究竟该怎么泛化的问题。“以前强化学习的场景都是为特定场景去设计的,比如AlphaGo只能下围棋,AlphaFold只能去预测蛋白质的结构。但OpenAI o1的出现使得强化学习通用性和泛化性上了一个大台阶,并且目前OpenAI o1并没有到很成熟的阶段,还是一个开端。这恰恰让人觉得非常兴奋,这就等于OpenAI跟我们说,我找到了一条上限很高的道路,而且你仔细去思考它背后的方法,你会相信这条路能走得下去。”
目前,学术界与产业界对AGI(通用人工智能)做了L1-L5的分级。L1相当于聊天机器人,类似ChatGPT;L2是推理者,可以做复杂问题深度思考的推理;L3为智能体,可以改变和做交互,从数字世界走向物理世界;L4是创新者,能去发现、创造一些新的东西,或者发现一些新的知识;L5是组织者,可以去协同或者以某种组织方式更高效来运转。每一级都有狭义和广义的区分。清华大学人工智能研究院副院长、生数科技首席科学家朱军认为,从这个意义上来看,OpenAI o1已经在L2的某些特定任务下实现了人类达到高阶的智能水平。从分级角度来看它确实代表着整个行业巨大的进步。
无独有偶,月之暗面Kimi创始人杨植麟也提到,OpenAI o1提高了AI的上限,即人类可能只能用AI提升5%、10%的生产力,OpenAI o1面世后人类可能可以用AI提升10倍的生产力。
在杨植麟看来,这也会对产业格局或创业公司产生变化。“比如我觉得这里很关键的一个点,是你的训练和推理算力占比会发生很大的变化,这个变化我不是说训练的算力会下降,而是推理的算力提升也会更快,那这个比例的变化本质上会产生很多新的机会,这里面可能有新的创业公司的机会。一方面,如果你达到一定的算力门槛,它可以在这里做很多算法的基础创新,那你可以在基础的模型上取得突破。对于算力相对小一点的公司,它也可以通过后训练的方式,在一些领域上做到一些效果,这里也会产生更多的产品和技术机会,所以我觉得整体也是打开了创业相关的想象空间。”
此前面壁智能CEO李大海也曾提到,OpenAI o1模型再次表明,原始和基础创新是人工智能发展的核心驱动,通过这次技术变革,大模型的算力重心可能逐渐从训练阶段转向推理阶段,大模型的研究中心也可能逐渐由自监督预训练范式转向强化学习范式和对齐阶段。
AI发展加速,云设施、算力都准备好了
从ChatGPT面世引发整个世界开始关注AGI,发展到现在已经过去了18个月,大模型发展的技术是在加速还是在减速?AGI(人工智能发展到通用阶段)发展到了哪个阶段?
姜大昕提到,过去18个月大模型不仅在加速发展,而且发展速度还非常快。从“量”的角度来看,每个月都有新模型、新产品、新应用涌现。“比如单从模型来看,OpenAI过年的时候发了一个sora,把大家轰炸了一下。5月份出了一个GPT-4o,上周又出了o1。OpenAI的老对手Anthropic它有Claude3到Claude3.5的系列,再加上谷歌Gemini系列、Claude系列、LLaMA的系列等。过去我们的感觉是OpenAI一家独大,遥遥领先。今年就变成了一个群雄并起、你追我赶的局面,感觉各家发展都在提速。”
另外,从“质”的角度,姜大昕提到过去18个月发生了不少标志性事件。比如GPT-4o的发布让多模态融合上了一个台阶,将视觉理解、声音、视频生成等原本孤立的模型融合在了一起。而多模态的重要之处在于,物理世界本身就是多模态的世界,多模融合有助于模型更好地模拟物理世界。
此外,特斯拉发布了端到端大模型FSD V12也被姜大昕认为是一大标志性事件。“智能驾驶是一个从数字世界走向物理世界的真实应用场景,FSD V12的意义不仅在于智驾本身,这套方法论可以为将来智能设备如何和大模型相结合、如何更好地去探索物理世界指明了一个方向。”
对于当下大模型的发展状态,杨植麟则表示,从纵向维度看,模型的智商一直在提升,在数学能力、编程能力和能理解的上下文长度方面都有所体现。“比如竞赛数学的能力,去年是完全不及格,到今年已经能做到90多分;像代码基本上也能够击败很多专业的编程选手了,因此也产生了很多新的应用机会;另外我们去看很多具体的技术指标,现在的语言模型能支持的上下文的长度,在去年这个时间点大部分的模型都只能支持4K-8K的,今天你会发现4K-8K已经是非常低的数了,128K是一个标配,很多模型甚至可以支持1M甚至10M的长文本的长度,这个其实也是模型智商不断提升的一个很重要的基础。”
从横向维度看,模型的各种模态也在发展,这就让模型能具备更多技能、完成更多任务。“横向上也产生了很多新的突破,当然Sora可能是影响力最大的,在这里面完成了这个视频生成。包括最近有特别多新产品和技术出来,现在你已经可以通过一个论文直接生成基本上你看不出来是真是假的双人对话。类似这样的不同模态之间的转化、交互和生成会变的越来越成熟。”杨植麟称。
朱军也表示,整体进展在加快,大家都在解决新问题,解决新问题的速度也同时在加快。“原来如果你看语言模型,最早从2018年去做,走了五六年的路才有产出。但从去年开始,上半年大家还在关注语言模型,下半年就讨论多模态了。我们再回过头看的话,比如说图像或者视频,其实视频最明显,从今年的2月份sora震惊了很多人,因为它没有公开数据,所有人会想说怎么去突破?但现在这个行业大概用了半年的时间,已经做到了可以去用视频模型,而且达到了很好的效果。“
朱军认为,加速的核心原因,是大家对路线的认知和准备已经达到一定程度,物理上云设施、算力资源也准备得比较好了,不再像ChatGPT刚出来时得不知所措。“当然不同的能力它再辐射到实际用户也有一些行业之分,但从技术来说,其实这个进展曲线是越来越陡,未来向更高阶的AGI发展可能会看到比之前更快的速度去实现了。”
AI进一步改变物理世界、产品形态
“过去22个月,AI发展的速度超过任何历史时期,但我们依然还处于AGI变革的早期。生成式AI最大的想象力,绝不是在手机屏幕上做一两个新的超级APP,而是接管数字世界,改变物理世界。”云栖大会上,阿里巴巴集团CEO、阿里云智能集团董事长兼CEO吴泳铭提到,生成式AI让世界有了统一的语言——Token,AI模型可以通过对物理世界数据的Token化,理解真实世界。吴泳铭还重点提到了汽车与机器人两大行业,并断言未来所有能移动的物体都会变成智能机器人。
朱军也提到,目前AI所有的进展最后指向的方向有两个,一是让消费者看到的数字内容更好看、自然。另一个方向则指向实体和物理世界,一个较好的结合点是机器人。
“现在已经有很多案例,比如用预训练范式让机器人的能力具有通用性;比如我们自己实验室做多的例子,像四足机器人,过去大家在不同场地上,你要让它跑起来都需要用很多的人工调参。但现在你在一个仿真环境里面,或者用一些AI的方式来生成一些合成数据,让它在里面大规模地训练,训练出来的策略可以灌到机器人上,它相当于换了一副大脑,可以让它的四肢更好地协同起来,同样一套策略可以做各种场地的适应。其实这还是一个初步的例子,现在大家也在关注更复杂的控制决策,就像空间智能、具身智能。”朱军称。
朱军同时提到,等到AGI发展到上文提到的L3智能体阶段时,机器人能更好地做推理规划,更好更高效地和环境做交互,更好地完成人类的复杂任务。“未来,我们很快可以看到机器人可以接受复杂的指令、完成复杂的任务,通过它内嵌的思维链或者过程的学习方式,能够完成复杂任务。所以到那个时候,智能能力又有一个很巨大的提升。”
杨植麟也提到,目前的AI进展会使聊天产品的形态一定会发生变化。“以后的AI可能不光是像现在这样,思考个20秒、40秒,它可能已经要调用各种工具,执行分钟级别、小时级别甚至天级别的任务,产品形态上可能会更接近一个人,更接近‘助理’的概念,帮你完成异步的任务(一个过程中并发执行的任务)。这里面的产品形态设计可能也会发生很大的变化,新的想象空间蛮大的。”
采写:南都记者 林文琪