对话华为肖德刚:存储成Token经营关键,CMS助力运营商跑出加速度
创始人
2026-06-26 16:34:15
0

C114讯 6月26日专稿(蒋均牧)进入2026年,对于信息通信业而言最显著的变化之一就是Token经营时代来了。继在年报中写入“Token经营”后不久,国内三大运营商几乎在同一时间段密集推出Token套餐,将AI大模型的调用能力打包成商品推向市场,定价区间覆盖了从尝鲜到重度使用的各个层级。

不过,“卖Token”和“卖流量”的逻辑完全不同,同时在市场上还面临着大模型厂商、OTT企业等对手的竞争。如何助力运营商实现Token经营的规模化落地与可持续发展,已然成为产业界共同面对的课题,在2026年世界移动通信大会·上海(MWCSH 2026)期间亦被反复讨论。

对此,华为数据存储产品线副总裁肖德刚接受C114专访时给出了清晰的判断:运营商作为Token提供商,提供高质量Token是第一要务,要又快又准、高性价比,还要高可靠。而华为推出的业界首个支持异构算力的上下文记忆存储方案CMS(Context Memory Storage),正是面向这个目标设计的系统级答案。

最终用户Token服务需求解读

传统的流量经营模式触顶,Token承载着运营商接力增长的期望。中国移动将Token定义为连接算力、模型、应用与用户的“通用货币”,中国电信直言“智能云体系就是Token经营体系”,中国联通则提出“Agent+Token+AI云”范式。肖德刚强调,运营商在规模化算力资源、海量客户基础与良好品牌口碑等方面积累深厚,具备运营 Token 服务的天然优势。

Token经营有很多指标,但站在最终用户角度,无论个人终端用户、政企行业客户,还是自主运行的Agent智能体,他们对Token服务的需求存在着几点共性:

首先,上下文要足够长,才能处理复杂任务。肖德刚指出,简短对话场景仅能实现基础问答和轻量化辅助办公,完整业务流程、行业知识库检索、智能体多步骤自主任务全都依赖长上下文完成完整信息载入。因此,长上下文处理能力是进入生产系统最核心的指标。当下,对上下文长度的需求正急剧扩张,现阶段商用模型普遍支持64K至128K序列窗口,头部大模型已实现百万级上下文处理能力,中长期产业需求将触及千万级上下文区间。

同时,客户不关注过程,服务交付的直观感受主要集中在输出结果与响应速度——输出要足够准,这是可用性的底线;首Token时延和平均时延要足够低,体验才跟得上。此外,使用成本要足够省,商业模式才跑得通;服务还要足够稳,不能掉链子。

这五个“足够”,表面上是模型能力,实则都与存储息息相关:例如超长上下文意味着KV Cache数据量指数级增长,低时延要求更高的缓存数据吞吐效率,高可靠则依赖存储介质持久耐用。Fortune Business Insights的报告指出,2025年全球AI存储市场规模为359亿美元,预计市场将从2026年的449.4亿美元增长到2034年的2713.2亿美元,预测期内复合年增长率为25.20%。这也折射出Token经济起势下,对存储基础设施的刚性需求正在快速释放。

华为CMS:助力运营商加速迈向Token经营

Token经营要形成商业闭环,首先得把承载Token的基础设施打磨到位,华为CMS的意义正在于此。实测数据显示,该方案可将每Token成本降低约30%,首Token时延缩短90%。

超长上下文需求的本质是超大的KV数据量。如何容纳这些数据,驱动了架构的必然演变——从传统的“高带宽内存+DRAM+本地盘”,走向“高带宽内存+DRAM+外置共享存储”。肖德刚介绍说,CMS基于这一逻辑,在原有G1到G4层(高带宽内存-DRAM-SSD-共享文件/对象)之间新增了一个G3.5层,提供更大容量和带宽,支持KV语义级直通,并可扩展为PB级共享KV缓存池。利用外置存储解决KV Cache瓶颈已成为行业共识,英伟达在今年3月提出的CMX方案也指向同一方向。

针对输出效率,华为在CMS中采用了KV语义硬化和NDS直通技术,摒弃传统多级数据转发模式,实现数据一跳直达NPU的片上内存,将数据访问时延降低50%,有效解决了NPU算力闲置、等待数据加载的行业性难题。

在输出准确性方面,业界通常通过构建知识库来导入行业知识、更新外部信息,并借助记忆库沉淀用户交互历史。肖德刚表示,华为存储可以向客户提供对应模组,这一做法在其他行业已有实践,未来值得与运营商进一步加强合作,深入探讨。

在成本方面,相比基于服务器本地盘的方案,华为CMS存储方案在同等KV Cache容量需求下可减少两倍的存储节点配置,从而降低节点采购费用,以及机架空间租赁和水电等运营成本;此外,其节能领先2.35倍,显著降低了整体TCO及推理成本。

在可靠性方面,针对KV Cache读写频繁、对SSD擦写次数要求更高的情况,华为CMS支持1到50的动态DWPD,可根据实时业务负载调整擦写配额;采用双模介质动态分层技术,高速介质承载低时延核心缓存数据,大容量介质存储低频复用历史上下文,两类介质弹性配比,保证Token高质量输出同时兼具性价比。

面向未来,肖德刚表示,除了持续推进现有 AI 能力建设外,华为数据存储还将探索Physical AI 领域,并研究其在具身智能、智能工厂等场景中落地的可能性。

从流量到Token,运营商的商业模式正在经历深刻重构。在这场重构中,存储不再是被动承载数据的“仓库“,而成为了主动参与推理、优化成本、保障体验的关键变量。华为CMS作为一个实例,通过持续的创新突破,帮助运营商在Token经营的新赛道上,跑出更快、更准、更经济,更稳的加速度。

相关内容

热门资讯

原创 苹... 有不少朋友疑惑苹果iPhone 16 Pro和16 Pro Max有什么区别?该选择哪一款更好?各自...
2024年OPPO手机全攻略:... 手机已不仅仅是通讯工具,它更是我们记录生活、享受娱乐、提升工作效率的重要伙伴。随着科技的飞速发展,O...
2025年值得入手的2款智能手... 在科技飞速发展的今天,智能手表已成为我们生活中不可或缺的伙伴。无论是健康监测、信息提醒,还是时尚搭配...
原创 2... 从去年华为用上了麒麟芯片开始,华为的市场份额就蹭蹭的往上涨,当时抢购的人特别多,一时间还买不到现货,...
第五轮学科评估对比:西安交大突... 在之前的文章中,我们已经提及西安交通大学第五轮学科评估的表现可圈可点,新晋的3个A+学科:机械工程、...
vivo手机5g开关在哪里打开 vivo手机5G开关的打开方式可能因手机型号、系统版本及运营商网络支持情况的不同而有所差异。但总体来...
原创 麒... 为了普及原生鸿蒙(鸿蒙5.0),抢占更多的中端手机市场份额,华为nova系列今年开始计划一年两更,n...
解决FaceTime无法使用的... FaceTime是苹果公司推出的一款视频通话应用,广泛应用于iPhone、iPad和Mac等设备上。...
steam官网无法访问?这个办... 对于广大游戏爱好者而言,Steam平台无疑是获取最新游戏资讯、购买游戏、与全球玩家互动的重要阵地。然...
原创 直... #热点周际赛# 随着科技的进步,儿童智能穿戴设备逐渐成为了家庭中的新宠。华为作为智能穿戴领域的领军者...