新智元报道
编辑:桃子 好困
【新智元导读】Gemini 3 Deep Think用2.5倍的暴力性能把GPT-5.1踩在脚下,OpenAI若再不发新模型,这「推理之王」的宝座今天就正式换人了!
太劲爆了!
不过半月,谷歌DeepMind终于放出了IMO最强金牌模型——Gemini 3 Deep Think。
今年夏天,Gemini 2.5 Deep Think分别在IMO、ICPC国际大赛中,拿下了金牌的战绩。
这一次,谷歌为其注入了全新的血液——Gemini 3。
凭借着「并行思考」能力,Gemini 3 Deep Think可以搞定超高难度的数学、科学难题!
在基准测试中,Deep Think全面碾压Gemini 3 Pro,尤其是在HLE上,未用工具拿下了41%高分。
同时在ARC-AGI-2上,以45.1%成绩领跑全球。
下面实例中,同一个指令,让Gemini 3 Pro和Deep Think版基于一张博物馆展馆屋顶的草图,创建一个精确的交互式3D场景。
显然,后者在还原度上,与原图几乎是1:1复刻,并在交互上,光影变化符合物理逻辑。
今天,Gemini 3 Deep Think已在Gemini App上线,所有Ultra用户即可体验。
最强IMO金牌模型来了
Gemini 3 Deep Think正式开启了「深度思考」新纪元,让智能的边界再次拓展。
Gemini 3 Deep Think基于上一代Gemini 2.5 Deep Think迭代而来,在推理能力上实现了质的飞跃。
它专门用于攻克那些连当今最顶尖模型,都感到棘手的复杂数学、科学和逻辑难题。
在多项基准测试中,Gemini 3 Deep Think都拿下了行业领先成绩。
在Humanity’s Last Exam(无工具辅助)上刷爆41%,并在ARC-AGI-2(配合代码执行),创下45.1%新纪录。
在ARC-AGI-1和ARC-AGI-2上,Gemini 3 Deep Think实力堪称无「模」能敌。
左右
之所以这么强,是因为Deep Think采用了「并行推理」来同时思考,能够同时探索多种假设。
在谷歌DeepMind放出的更多demo中,可以看出Gemini 3 Deep Think强大之处。
如下,让它打造一款3D版多米诺骨牌游戏。在关卡设置中,Deep Think兼具创意与惊喜,而且还模拟出了真实的碰撞物理效果。
这个例子,是要求Gemini 3 Pro和Deep Think分别在单个HTML文件中创建程序化生成的地球类行星。
左右对比一眼即可看出,Deep Think更加有创造力。
另有开发者实测惊叹道,Gemini 3 Deep Think具备惊人的能力。
上传一张玻璃瓶的照片,让它生成一个软橡胶同款掉在地上的3D动画。
有网友激动地表示,按照这个速度,我们将在2026年真正实现AGI!
华人科学家领衔,AGI王牌队冲刺
同在今天,谷歌DeepMind官宣,将在新加坡组建一支全新的精英团队。
它将由华人科学家Yi Tay率队,专攻高级推理、LLM/RL,以及推进Gemini、Gemini Deep Think等最前沿SOTA模型的发展。
Yi Tay将向位于山景城由Quoc Le(谷歌Fellow级大佬)领导的团队汇报。
恰好,这一团队正是Gemini Deep Think在国际竞赛中夺下金牌的核心力量之一,同时也在Gemini上取得重要进展。
上下
Yi Tay表示,我们会从一支人不多但超强的小团队开始。
因为在大模型的时代,「人才密度」比什么都关键。
关键是,这个团队还能与AI领域传奇大神联动研究,其中就包括「推理之王」Denny Zhou、「香蕉」背后的男人Mostafa Dehghani、AI界的「GOAT」Noam Shazeer。
同时,还有很多「神仙队友」一起加入研究,包括生成式检索的发明人Vinh Q. Tran、IMO金牌项目总负责人Thang Luong、思维链开创者Xuezhi、日本顶尖AI大神Shane Gu等人。
过去几个月,谷歌DeepMind便开始秘密招募全球顶尖人才。
这一项目得到了Demis Hassabis、Jeff Dean等内部高层的大力支持。
如今,他们继续发出英雄招募帖,有机会站上通往AGI的关键赛道。
用不了多久,这支新加坡团队很快就会成为一支战斗力爆表的队伍。
Gemini 3爆冲15%流量
随着Gemini 3 Pro的强势发布,其网页端的市占率再创新高,突破15%大关。
与此同时,Grok也凭借着4.1版本的发布持续增长。
ChatGPT在流量上依然断崖式领先,但份额却在持续下降。
Gemini延续增长势头,访问量达到13.51亿次,较10月增长14.3%。ChatGPT跌破60亿次大关,网站访问量降至58.44亿次。
这是继7月之后,ChatGPT 在 2025 年出现的第二次环比下滑。
尽管在11月18日(Cloudflare宕机当天),ChatGPT创下了单日2.33亿次访问的历史纪录,但这并未扭转整体流量的跌势。
此外,Grok网站访问量达到2.344亿次,创下历史新高,较10月增长14.7%。
这也是该网站自启用当前域名以来,首次实现连续两个月的流量增长。
左右
参考资料:
秒追ASI