【现象】人工智能浪潮席卷全球,人工智能大模型成为人们工作与生活的重要帮手。在这场浪潮中,有个概念的曝光度很高——Token,即通常所说的词元,它是处理文本的最小数据单元。国家数据局披露了这样一组数据:2024年初,我国日均词元的消耗量为1000亿,而截至2025年9月底,这一数字已突破40万亿,1年多时间增长了400多倍。指数级增长的数字,见证我国人工智能产业的迅猛发展、应用规模的快速扩大。
【点评】
怎么理解词元?简单来说,词元是人工智能大模型为了高效处理数据,把数据进行拆分后的“最小信息载体”,可以理解为“字/词片段/符号”等。比如“我爱中国!”,可拆分成“我”“爱”“中国”“!”4个词元。
如果说互联网时代信息传输的核心度量是“流量”,那么人工智能时代,这一关键指标正变为词元——用户输入的每一个字,模型生成的每一段话、识别的每一幅图像,都在消耗词元。
看似很抽象,实际上,每一次词元消耗都对应着真实的场景交互——可能是银行智能客服作出的一笔贷款咨询,是汽车智能座舱处理的一句语音指令,或是编程助手输出的数行复杂代码。词元消耗量爆发式增长,意味着越来越多人工智能应用落地,越来越多个人用户、企业客户在使用智能工具解决问题、提高效率。词元消耗增长与应用落地强绑定的特性,使其成为衡量人工智能产业景气度的重要晴雨表。
以长远视角观之,随着我国人工智能产业创新活力的不断释放,词元消耗量的增长不仅具有短期爆发力,还有长期持续性。
在政策层面,去年印发的《关于深入实施“人工智能+”行动的意见》强调,“推动人工智能与经济社会各行业各领域广泛深度融合”。比如,人工智能为教育行业提供“长文本知识梳理”,为电商行业提供“多轮智能导购服务”。这些都将为词元调用、消耗提供更丰富、更复杂的场景。
在技术层面,加快“从0到1”的创新突破、“从1到N”的技术落地,更智能的人工智能体加速涌现,不仅能拓展发展空间,还将助力重塑人类生产生活范式,促进生产力革命性跃迁。
向更深层次探求,词元消耗量增长离不开我国在技术、数据供给等方面的扎实投入,有力印证“创新是第一动力”。
不少人记得,10多年前流量贵且网速慢,“提速降费”不仅让群众享受到实打实的民生福祉,也为互联网发展、数字经济繁荣奠定了基础。从此前单轮对话几十词元的“精打细算”,到如今企业级应用单轮亿万词元的“从容调度”,借由技术进步带来的成本下降,企业得以大规模地将人工智能应用于更复杂、更耗能的场景,不断突破词元消耗量的增长瓶颈。
加力技术创新,推动技术普惠、成果共享,让更多新技术从书架走向货架、从“奢侈品”变成“日用品”,更好驱动实体经济高质量发展、添彩日常生活,这是技术向善的题中应有之义。
高质量的数据供给是词元消耗爆发的“能量源泉”。没有高质量的数据,词元就成了“无源之水”,模型训练和推理会因数据失真、残缺而输出错误结果,这是产生人工智能幻觉的重要原因。这也启示我们,推动人工智能技术创新应用,一方面要“固本培元”,持续深耕关键技术、加快普及推广,另一方面需“正本清源”,拧紧新技术发展的“安全阀”,加强关键要素供给能力,筑牢安全底座。
本固枝荣,源清流洁。从最小数据单元中,我们可以感悟原始创新的重要性,体会技术应用的广泛性,看到新技术、新业态拔节生长、突飞猛进的浩荡之势。
作者:王云杉
来源:人民日报