阿里新版推理模型性能和效率显著提升
创始人
2026-01-28 09:21:15
0

本报记者 袁传玺

1月26日,阿里巴巴集团控股有限公司(以下简称“阿里”)正式发布千问旗舰推理模型Qwen3-Max-Thinking。该模型总参数量超万亿(1T),预训练数据量高达36T Tokens,是目前阿里规模最大、能力最强的推理大模型。

阿里方面表示,千问新模型通过总参数、强化学习、推理计算的极致规模扩展,实现了性能的大幅飞跃,在多项关键性能基准测试中刷新纪录。同时,该模型采用全新测试时扩展(Test-time Scaling)机制,实现推理性能提升同时更为经济,并大幅增强原生Agent(智能体)能力,模型对话时可自主调用工具。

推理机制革新

具体来看,在关键的模型推理能力提升中,千问新模型采用了一种全新的测试时扩展机制,这一新机制,可对此前推理的结果进行“经验提取”式的提炼,并据此进行多轮自我迭代,在相同的上下文中实现更高效的推理计算,获得更智能的推理结果。

基于这一推理技术创新,千问的推理性能和推理效率显著提升,比如,在启用工具的“人类最后的测试”HLE中,千问得分58.3,大幅超过GPT-5.2-Thinking的45.5、Gemini 3 Pro的45.8,获得当前所有模型的最高分。

值得关注的是,Qwen3-Max-Thinking还大幅增强了自主调用工具的原生Agent能力。具体而言,在完成初步的工具使用微调后,通义团队对模型进一步在大量多样化任务上进行了基于规则奖励与模型奖励的联合强化学习训练,使得Qwen3-Max-Thinking拥有更智能结合工具进行思考的能力。

这种自适应的工具调用能力可在QwenChat上体验,模型自主选用搜索、个性化记忆和代码解释器三个核心的Agent工具功能,模型幻觉也有所降低。

据了解,AI开源社区Hugging Face最新数据显示,阿里千问衍生模型数突破20万个,同时,千问系列模型下载量突破10亿次,平均每天被下载110万次,已完全超越美国Llama。

一位不愿具名的行业分析师对《证券日报》记者表示,在AI从“炫技”走向“办事”的拐点之年,阿里凭借其独特的生态优势与技术积累,或将成为中国AI商业化落地最有力的推动者之一。而Qwen3-Max-Thinking的发布,不仅是一次技术发布,更是阿里向全球AI产业发出的一张“中国方案”名片。

AI生态加速整合

值得关注的是,此次发布并非孤立的技术秀,而是阿里“AI办事时代”战略的关键一环。

2025年12月31日,搭载千问AI助手的夸克AI眼镜迎来首次OTA(空中下载技术),AI能力进一步增强。新增录音纪要、图文备忘录、大模型多意图理解和执行、蓝环支付、社区服务五项新功能,并对翻译、行程查询、音乐播放等功能场景进行优化。

1月15日,阿里旗下千问App宣布完成新一轮功能升级,正式从“聊天对话”工具迈入“办事时代”。此次更新的核心在于千问App全面接入淘宝、支付宝、淘宝闪购、飞猪、高德等阿里生态业务,上线生活、政务、工作、教育四大场景多项办事功能,使其成为能够独立完成真实世界任务的AI助手。

值得关注的是,阿里已于2025年12月初正式成立千问C端事业群,由阿里副总裁吴嘉牵头,整合智能信息、智能互联、千问App、夸克及AI硬件等多条C端产品线,明确将千问App打造为面向用户的“超级App”与AI时代的第一入口。未来,优酷、大麦、菜鸟驿站、阿里健康、1688、盒马等更多阿里生态业务也将陆续接入,进一步拓展场景覆盖与服务深度。

国海证券发布的研报表示,千问的生态整合模式对国内AI应用产业的核心影响在于重新定义了“入口”价值逻辑,促使行业竞争从单一模型能力转向全维度比较。阿里、字节等头部玩家生态化竞争下,中小型AI应用有望加速接入头部生态换取流量,或聚焦垂直领域开拓新空间。

广州艾媒数聚信息咨询股份有限公司CEO张毅在接受《证券日报》记者采访时表示,阿里AI生态已从“单点模型突破”迈向“全栈协同落地”。依托通义千问大模型、阿里云算力底座与电商、物流、本地生活等高频场景,阿里构建了“训练—部署—应用—反馈”的闭环飞轮。其独特优势在于真实业务数据反哺模型迭代,形成技术与商业的正向循环,具备强大的可持续竞争力。

相关内容

热门资讯

原创 苹... 有不少朋友疑惑苹果iPhone 16 Pro和16 Pro Max有什么区别?该选择哪一款更好?各自...
2024年OPPO手机全攻略:... 手机已不仅仅是通讯工具,它更是我们记录生活、享受娱乐、提升工作效率的重要伙伴。随着科技的飞速发展,O...
2025年值得入手的2款智能手... 在科技飞速发展的今天,智能手表已成为我们生活中不可或缺的伙伴。无论是健康监测、信息提醒,还是时尚搭配...
原创 2... 从去年华为用上了麒麟芯片开始,华为的市场份额就蹭蹭的往上涨,当时抢购的人特别多,一时间还买不到现货,...
第五轮学科评估对比:西安交大突... 在之前的文章中,我们已经提及西安交通大学第五轮学科评估的表现可圈可点,新晋的3个A+学科:机械工程、...
vivo手机5g开关在哪里打开 vivo手机5G开关的打开方式可能因手机型号、系统版本及运营商网络支持情况的不同而有所差异。但总体来...
解决FaceTime无法使用的... FaceTime是苹果公司推出的一款视频通话应用,广泛应用于iPhone、iPad和Mac等设备上。...
原创 麒... 为了普及原生鸿蒙(鸿蒙5.0),抢占更多的中端手机市场份额,华为nova系列今年开始计划一年两更,n...
steam官网无法访问?这个办... 对于广大游戏爱好者而言,Steam平台无疑是获取最新游戏资讯、购买游戏、与全球玩家互动的重要阵地。然...
原创 直... #热点周际赛# 随着科技的进步,儿童智能穿戴设备逐渐成为了家庭中的新宠。华为作为智能穿戴领域的领军者...