新智元报道
【新智元导读】 GLM-5.2全量开放!1M上下文真能用,长任务不忘事。
昨晚,Claude Fable 5被美国政府一封信直接全球下架。
上线才72小时,说没就没。连Anthropic自家外籍员工都不许碰。数亿用户一觉醒来,直接懵了。
老外自己先坐不住了,梗图满天飞——Anthropic那边说「我们的模型太危险了」,美国政府回一句「那我禁了」。
就在刚刚,国产模型回应来了:GLM-5.2,全量用,最高权限开源。
GLM Coding Plan 全量用户开放,Lite、Pro、Max、团队版,今晚全部能用!
下周API上线,MIT协议开源,权重随便拿。
一边在关门,一边在开门。
从GLM-5到5.1再到今晚的5.2,智谱在Coding这条路上死磕了整整一年。
5.1刚把开源模型推到8小时长程任务,社区反馈还很热,5.2就直接把上下文怼到了1M——而且是那种真能用的1M!
这次GLM-5.2有两个关键词:真1M上下文,Coding国产之光。
到底怎么样?全网都在等Bench
在Anthropic这一通操作的背景之下,5.2模型刚一宣布要开源,海外社区就炸了。
国外知名博主AICodeKing在内测完给出的评价相当直接:这个模型品位出色,代码始终非常干净。我让它微调一个完整的本地模型,30分钟就搞定了。全方位都表现优异。
目前已公布的开发者实测Bench来看,性能基本对标Opus 4.8——实打实的国产之光。
智谱其实在前两天就开通了coding plan用户的一波内测(在最近的AI圈发模型中也是常规操作了)
而我们潜水的内测社群里,体感反馈也一致得吓人。
有网友表示,「这是国内第一款在我工作流上达到Opus级的模型」。
另一位内测用户更直白——「用过5.2回不去5.1了,在大项目里面有种4.7到5的跨越式进步。上头的感觉。」
知乎上甚至有人说:「从下周开始,通过中转站用Opus的人必须面对一个问题——你用的Opus如果是GLM-5.2冒充的,你可能分辨不出来,甚至表现更好。」
官方Bench还没出全,全网都在等。但就目前开发者自己跑出来的数据和体感来看,Coding国产第一这个位置,GLM-5.2坐得稳。
第一时间拿到内测资格后,我们也迫不及待地上手实测了下。果然和之前的模型不一样。
一口气写完,三种寻路算法全跑对了
让GLM-5.2写一个寻路算法可视化器。它给你一次搞定。
A*、Dijkstra、BFS——三种算法各有各的套路,一个都没搞混。
连优先队列都是自己写的,不是拿现成的库糊弄。
最狠的是分屏对比:两种算法同时跑,各走各的路、各算各的数,画面上五颜六色地铺开——这等于一个文件里同时管两套独立的搜索过程,状态一串就全乱。它没串。
六套逻辑塞在一个文件里,从头到尾都不打架——算法、动画、交互、对比、统计、迷宫生成,全记着,全对着。
Coding跟长上下文的真功夫,就体现在这种地方。
长任务,不忘事
GLM-5.1已经能连续自主工作8小时,但想再往前推,绕不开一个坎:上下文。
一个连续干几小时活的智能体,要经历数千次工具调用、读写几万行代码、攒下一大堆中间状态。
窗口不够长,它就得不停压缩、丢弃。很多长任务翻车,不是模型不够聪明,是它忘了。
所以1M上下文的意义,不是参数表上一个更大的数字,而是让模型能把整个项目一口气吃进去——代码、决策、约束全记着,从头干到尾不丢东西。
现在标称1M的模型不少,但用过的人都有体感:喂进去是喂进去了,记不太住。
很多模型过了25万token就开始「失忆」;而且上下文越长,算力和显存烧得越猛——不是不能跑,是跑起来又慢又贵,没人敢这么用。
从结构下手,用一套注意力层面的创新组合拳,把1M长度下的效果衰减和推理成本一起压了下来。
在长文基准上,GLM-5.21M长度的衰减明显小于同类模型。
连续干了4小时,搓出一整个合成器工作站
这个case最能说明「长任务,不忘事」到底意味着什么。
一句话需求扔过去——做一个专业级的HTML音乐合成器工作站,WebAudio,零依赖。
然后它就开始干了。不是干几分钟,是整整4个小时,一口气,中间没人插手。
4个小时里它自己写代码、自己组了29个review智能体从4个维度对着自己的代码挑毛病、揪出18个bug全部修掉、还跑了Headless Chrome自动化测试验证完整音频链路。
最狠的是,自动测试还抓到了一个review都没发现的致命bug,它自己修了。
最终交付:177,000个token的工作量,一个回合完成。
这就是1M上下文的意义。
4小时、17万token、几十个模块的状态全攥在手里不丢——这是「记性好」。
而记性好,恰恰是长任务能不能交付的生死线。
74万多条日志喂进去,它没忘开头
我们直接把一整月、几十万token的服务器日志全塞给GLM-5.2,让它揪出一个月前埋下的雪崩苗头。
5月28日的雪崩谁都看得见,但GLM-5.2把根因一路倒推回了5月3日那条藏在第661行的连接池等待警告。
那条WARN当时还自愈着、淹没在几千条正常日志里,毫不起眼。
月末爆发时,它还能精确引用到月初的原始行号和时间戳,把「连接池满载 → 慢性积累 → 彻底耗尽 → 级联503」串成一条完整的因果链。
短上下文模型跑到日志尾段,开头那条火种早就被压缩、丢弃了——它只能告诉你「5月28日崩了」,给不出为什么会崩。
能从结尾想起开头,长上下文才真正变成了推理能力。
上千行代码,三种玩法各有各的物理规则
让GLM-5.2跑一个 2D 粒子物理模拟器。
自由模式里粒子互相吸引、碰撞了还会合并成更大的——质量加在一起、速度按比例分配。
物理课本上那套动量守恒它能老老实实玩明白了。
切到轨道模式,规则整个换了一套:只有中间那颗大星球吸引别人,小粒子之间不合并,不然轨道全乱。
再切烟花模式,引力又变成往下掉的重力,粒子还会慢慢变暗消失。
三种模式共用一套画面循环,但「力怎么算、撞了怎么办、要不要消失」全按模式分开处理,干净利落。
一千多行代码从头写到尾,前面定的规矩后面全记着,没一处自相矛盾。
4份合同一起喂,跨文档揪出隐藏矛盾
4份合同、几万字,一次性全喂进去,它没看花眼。
最见功力的是:合同3说「打官司」,合同1却说「走仲裁」,它一眼看穿这俩凑一块儿会「打架」,还顺藤摸瓜把两份合同串了起来。
这种活,得同时把4份合同攥在脑子里才做得出来。
长上下文在这儿不是「塞得下」,是「记得住、对得上、能交叉」。
前沿智能,不该说没就没
回到开头那件事。
Fable 5上线3天就被强制下架,全球开发者发现自己赖以工作的模型说没就没了。依赖Fable 5构建产品的团队,服务直接挂掉。
你永远不知道自己手里的工具什么时候会被一封信收走。
在海外闭源前沿模型访问不确定性上升的背景下,国产开源模型的含金量还在提升。