推理能力翻倍，Google这次不是在凑数_科技动态

创始人

2026-02-21 18:01:29

0次

《推理能力翻倍，Google这次不是在凑数》

——当得分从31.1%跳到77.1%，这已不是升级，而是换脑

AI发布会听多了，大家早就免疫了。但这次的数据，让人不自觉坐直。

在第三方逻辑基准上，Gemini 3.1 Pro拿到77.1%，上一代只有31.1%。横向看，Claude Opus 4.6约68.8%，GPT-5.2约52.9%。这不是“领先一点”，而是直接冲到第一梯队。问题来了：它到底做对了什么。

关键不在分数，而在机制。过去模型更像“背题家”，靠海量语料匹配答案；这次跃迁出现在“未见题”测试——也就是刻意屏蔽训练数据后的逻辑难题。换句话说，它不只是记住套路，而是形成了可迁移的推理骨架。长链思考被拆解成分段验证，像工程师在草稿纸上逐步排错，而不是一次性豪赌输出。这叫泛化，而不是刷题。

我见过一个场景：凌晨两点，开发者把一段复杂函数丢进去，本来准备自己熬夜重写，结果模型先给出思路分解，再附上改进版本。那一刻，他犹豫的不是“好不好用”，而是“要不要全面迁移”。

更“杀人诛心”的是——价格没涨。性能翻倍，定价持平。这相当于高配处理器按旧款卖。对开发者来说，性价比就是投票权。生态迁移，从来不靠口号，靠算账。

很多人还在比参数规模，但趋势已经很清晰：AI竞争正在从“谁更大”转向“谁更会想”。

可带走的判断只有一句：推理能力，正在成为大模型时代真正的硬通货。

（唐加文，笔名金观平；本文成稿后，经AI审阅校对）