耗资460万美元赶超GPT5?Kimi团队回应一切
创始人
2025-11-11 21:20:32
0

上周,Kimi K2 Thinking 发布后,凭借其在智能体、代码和写作能力上的显著进步,引发了广泛关注。11 月 11 日,Kimi 团队在 Reddit 上举办了一场 AMA 活动,创始人杨植麟也参与其中,透露了诸多信息。

关于下一代模型 K3 的发布时间,Kimi 团队幽默地表示,这取决于奥特曼的万亿美元数据中心何时建成。这一回答既体现了幽默,也暗示了 Kimi 在资源利用上的独特方式。团队还透露,K3 将继续沿用当前效果显著的 KDA 注意力机制。此外,Kimi 团队强调,他们专注于模型训练,能力的体现将通过大模型助手来完成,而非像 OpenAI 那样发布 AI 浏览器。

在训练成本方面,Kimi 澄清了 460 万美元的传闻并不准确,指出大部分资金用于研究和实验,难以具体量化。硬件方面,Kimi 使用的是 H800 GPU 和 Infiniband,虽然不如美国顶级 GPU,但团队充分利用了每一张卡。

Kimi K2 Instruct 的风格被用户称赞为“比较少的谄媚,有洞察力且独特”,这得益于“预训练 + 后训练”的方式。然而,也有用户指出 Kimi K2 Thinking 的写作风格过于积极正面,AI 味过重。对此,Kimi 团队承认这是大语言模型的常见问题,并表示现阶段的强化学习会刻意放大这种风格。

在技术方面,Kimi 在 AMA 中分享了 KDA 注意力机制的细节,这种机制在长序列强化学习场景中展现了性能提升,未来可能会应用于 K3。此外,Kimi K2 Thinking 的超长推理链得益于训练方式和 INT4 量化训练技术,这使得推理速度提升且逻辑不会因压缩量化而崩溃。

关于视觉语言能力,Kimi 表示目前正在完成这项工作,但由于数据获取和训练需要大量时间,团队优先选择了纯文本模型。对于开发者关心的成本问题,Kimi 解释了 API 定价方式,并表示会考虑更好的计算方法。团队还强调了开源的重要性,认为通用人工智能应是团结而非分裂的追求。

相关内容

热门资讯

原创 苹... 有不少朋友疑惑苹果iPhone 16 Pro和16 Pro Max有什么区别?该选择哪一款更好?各自...
2025年值得入手的2款智能手... 在科技飞速发展的今天,智能手表已成为我们生活中不可或缺的伙伴。无论是健康监测、信息提醒,还是时尚搭配...
2024年OPPO手机全攻略:... 手机已不仅仅是通讯工具,它更是我们记录生活、享受娱乐、提升工作效率的重要伙伴。随着科技的飞速发展,O...
原创 2... 从去年华为用上了麒麟芯片开始,华为的市场份额就蹭蹭的往上涨,当时抢购的人特别多,一时间还买不到现货,...
第五轮学科评估对比:西安交大突... 在之前的文章中,我们已经提及西安交通大学第五轮学科评估的表现可圈可点,新晋的3个A+学科:机械工程、...
vivo手机5g开关在哪里打开 vivo手机5G开关的打开方式可能因手机型号、系统版本及运营商网络支持情况的不同而有所差异。但总体来...
解决FaceTime无法使用的... FaceTime是苹果公司推出的一款视频通话应用,广泛应用于iPhone、iPad和Mac等设备上。...
steam官网无法访问?这个办... 对于广大游戏爱好者而言,Steam平台无疑是获取最新游戏资讯、购买游戏、与全球玩家互动的重要阵地。然...
原创 直... #热点周际赛# 随着科技的进步,儿童智能穿戴设备逐渐成为了家庭中的新宠。华为作为智能穿戴领域的领军者...
原创 麒... 为了普及原生鸿蒙(鸿蒙5.0),抢占更多的中端手机市场份额,华为nova系列今年开始计划一年两更,n...