Fable 5突遭下架,GLM-5.2全量开放!
创始人
2026-06-14 00:37:11
0

新智元报道

【新智元导读】 GLM-5.2全量开放!1M上下文真能用,长任务不忘事。

昨晚,Claude Fable 5被美国政府一封信直接全球下架。

上线才72小时,说没就没。连Anthropic自家外籍员工都不许碰。数亿用户一觉醒来,直接懵了。

老外自己先坐不住了,梗图满天飞——Anthropic那边说「我们的模型太危险了」,美国政府回一句「那我禁了」。

就在刚刚,国产模型回应来了:GLM-5.2,全量用,最高权限开源。

GLM Coding Plan 全量用户开放,Lite、Pro、Max、团队版,今晚全部能用!

下周API上线,MIT协议开源,权重随便拿。

一边在关门,一边在开门。

从GLM-5到5.1再到今晚的5.2,智谱在Coding这条路上死磕了整整一年。

5.1刚把开源模型推到8小时长程任务,社区反馈还很热,5.2就直接把上下文怼到了1M——而且是那种真能用的1M!

这次GLM-5.2有两个关键词:真1M上下文,Coding国产之光。

到底怎么样?全网都在等Bench

在Anthropic这一通操作的背景之下,5.2模型刚一宣布要开源,海外社区就炸了。

国外知名博主AICodeKing在内测完给出的评价相当直接:这个模型品位出色,代码始终非常干净。我让它微调一个完整的本地模型,30分钟就搞定了。全方位都表现优异。

目前已公布的开发者实测Bench来看,性能基本对标Opus 4.8——实打实的国产之光。

智谱其实在前两天就开通了coding plan用户的一波内测(在最近的AI圈发模型中也是常规操作了)

而我们潜水的内测社群里,体感反馈也一致得吓人。

有网友表示,「这是国内第一款在我工作流上达到Opus级的模型」。

另一位内测用户更直白——「用过5.2回不去5.1了,在大项目里面有种4.7到5的跨越式进步。上头的感觉。」

知乎上甚至有人说:「从下周开始,通过中转站用Opus的人必须面对一个问题——你用的Opus如果是GLM-5.2冒充的,你可能分辨不出来,甚至表现更好。」

官方Bench还没出全,全网都在等。但就目前开发者自己跑出来的数据和体感来看,Coding国产第一这个位置,GLM-5.2坐得稳。

第一时间拿到内测资格后,我们也迫不及待地上手实测了下。果然和之前的模型不一样。

一口气写完,三种寻路算法全跑对了

让GLM-5.2写一个寻路算法可视化器。它给你一次搞定。

A*、Dijkstra、BFS——三种算法各有各的套路,一个都没搞混。

连优先队列都是自己写的,不是拿现成的库糊弄。

最狠的是分屏对比:两种算法同时跑,各走各的路、各算各的数,画面上五颜六色地铺开——这等于一个文件里同时管两套独立的搜索过程,状态一串就全乱。它没串。

六套逻辑塞在一个文件里,从头到尾都不打架——算法、动画、交互、对比、统计、迷宫生成,全记着,全对着。

Coding跟长上下文的真功夫,就体现在这种地方。

长任务,不忘事

GLM-5.1已经能连续自主工作8小时,但想再往前推,绕不开一个坎:上下文。

一个连续干几小时活的智能体,要经历数千次工具调用、读写几万行代码、攒下一大堆中间状态。

窗口不够长,它就得不停压缩、丢弃。很多长任务翻车,不是模型不够聪明,是它忘了。

所以1M上下文的意义,不是参数表上一个更大的数字,而是让模型能把整个项目一口气吃进去——代码、决策、约束全记着,从头干到尾不丢东西。

现在标称1M的模型不少,但用过的人都有体感:喂进去是喂进去了,记不太住。

很多模型过了25万token就开始「失忆」;而且上下文越长,算力和显存烧得越猛——不是不能跑,是跑起来又慢又贵,没人敢这么用。

从结构下手,用一套注意力层面的创新组合拳,把1M长度下的效果衰减和推理成本一起压了下来。

在长文基准上,GLM-5.21M长度的衰减明显小于同类模型。

连续干了4小时,搓出一整个合成器工作站

这个case最能说明「长任务,不忘事」到底意味着什么。

一句话需求扔过去——做一个专业级的HTML音乐合成器工作站,WebAudio,零依赖。

然后它就开始干了。不是干几分钟,是整整4个小时,一口气,中间没人插手。

4个小时里它自己写代码、自己组了29个review智能体从4个维度对着自己的代码挑毛病、揪出18个bug全部修掉、还跑了Headless Chrome自动化测试验证完整音频链路

最狠的是,自动测试还抓到了一个review都没发现的致命bug,它自己修了。

最终交付:177,000个token的工作量,一个回合完成。

这就是1M上下文的意义。

4小时、17万token、几十个模块的状态全攥在手里不丢——这是「记性好」。

而记性好,恰恰是长任务能不能交付的生死线。

74万多条日志喂进去,它没忘开头

我们直接把一整月、几十万token的服务器日志全塞给GLM-5.2,让它揪出一个月前埋下的雪崩苗头。

5月28日的雪崩谁都看得见,但GLM-5.2把根因一路倒推回了5月3日那条藏在第661行的连接池等待警告。

那条WARN当时还自愈着、淹没在几千条正常日志里,毫不起眼。

月末爆发时,它还能精确引用到月初的原始行号和时间戳,把「连接池满载 → 慢性积累 → 彻底耗尽 → 级联503」串成一条完整的因果链。

短上下文模型跑到日志尾段,开头那条火种早就被压缩、丢弃了——它只能告诉你「5月28日崩了」,给不出为什么会崩。

能从结尾想起开头,长上下文才真正变成了推理能力。

上千行代码,三种玩法各有各的物理规则

让GLM-5.2跑一个 2D 粒子物理模拟器。

自由模式里粒子互相吸引、碰撞了还会合并成更大的——质量加在一起、速度按比例分配。

物理课本上那套动量守恒它能老老实实玩明白了。

切到轨道模式,规则整个换了一套:只有中间那颗大星球吸引别人,小粒子之间不合并,不然轨道全乱。

再切烟花模式,引力又变成往下掉的重力,粒子还会慢慢变暗消失。

三种模式共用一套画面循环,但「力怎么算、撞了怎么办、要不要消失」全按模式分开处理,干净利落。

一千多行代码从头写到尾,前面定的规矩后面全记着,没一处自相矛盾。

4份合同一起喂,跨文档揪出隐藏矛盾

4份合同、几万字,一次性全喂进去,它没看花眼。

最见功力的是:合同3说「打官司」,合同1却说「走仲裁」,它一眼看穿这俩凑一块儿会「打架」,还顺藤摸瓜把两份合同串了起来。

这种活,得同时把4份合同攥在脑子里才做得出来。

长上下文在这儿不是「塞得下」,是「记得住、对得上、能交叉」。

前沿智能,不该说没就没

回到开头那件事。

Fable 5上线3天就被强制下架,全球开发者发现自己赖以工作的模型说没就没了。依赖Fable 5构建产品的团队,服务直接挂掉。

你永远不知道自己手里的工具什么时候会被一封信收走。

在海外闭源前沿模型访问不确定性上升的背景下,国产开源模型的含金量还在提升。

相关内容

热门资讯

原创 苹... 有不少朋友疑惑苹果iPhone 16 Pro和16 Pro Max有什么区别?该选择哪一款更好?各自...
2024年OPPO手机全攻略:... 手机已不仅仅是通讯工具,它更是我们记录生活、享受娱乐、提升工作效率的重要伙伴。随着科技的飞速发展,O...
2025年值得入手的2款智能手... 在科技飞速发展的今天,智能手表已成为我们生活中不可或缺的伙伴。无论是健康监测、信息提醒,还是时尚搭配...
原创 2... 从去年华为用上了麒麟芯片开始,华为的市场份额就蹭蹭的往上涨,当时抢购的人特别多,一时间还买不到现货,...
第五轮学科评估对比:西安交大突... 在之前的文章中,我们已经提及西安交通大学第五轮学科评估的表现可圈可点,新晋的3个A+学科:机械工程、...
vivo手机5g开关在哪里打开 vivo手机5G开关的打开方式可能因手机型号、系统版本及运营商网络支持情况的不同而有所差异。但总体来...
原创 麒... 为了普及原生鸿蒙(鸿蒙5.0),抢占更多的中端手机市场份额,华为nova系列今年开始计划一年两更,n...
解决FaceTime无法使用的... FaceTime是苹果公司推出的一款视频通话应用,广泛应用于iPhone、iPad和Mac等设备上。...
steam官网无法访问?这个办... 对于广大游戏爱好者而言,Steam平台无疑是获取最新游戏资讯、购买游戏、与全球玩家互动的重要阵地。然...
原创 直... #热点周际赛# 随着科技的进步,儿童智能穿戴设备逐渐成为了家庭中的新宠。华为作为智能穿戴领域的领军者...