Kimi 发布视觉思考模型 k1:试题拍照给出答题思考全过程
创始人
2024-12-16 11:00:40
0

IT之家 12 月 16 日消息,月之暗面 Kimi 今日发布视觉思考模型 k1。该模型基于强化学习技术打造,原生支持端到端图像理解和思维链技术,并将能力扩展到数学之外的更多基础科学领域。

月之暗面官方表示,在数学、物理、化学等基础科学学科的基准能力测试中,初代 k1 模型的表现超过了 OpenAI o1、GPT-4o 以及 Claude 3.5 Sonnet。

IT之家从月之暗面官方获悉,Kimi 新模型发布即上线。k1 视觉思考模型已陆续上线最新版「Kimi 智能助手」的 Android 和 iPhone 手机 App 以及网页版 kimi.com在最新版手机 App 或网页版 Kimi+ 页面找到「Kimi 视觉思考版」,即可拍照或传图体验。

「Kimi 视觉思考版」会完整呈现推理思维链 CoT,让用户不只看到答题结果,也能完整看到模型思索答案的全过程

从模型训练的角度看,k1 视觉思考模型的训练分为两个阶段,先通过预训练得到基础模型,再在基础模型上进行强化学习后训练k1 的基础模型重点优化了字符识别能力,在 OCRBench 上得到 903 分的(state-of-the-art)结果,在 MathVista-testmini、MMMU-val 和 DocVQA 基准测试集上分数分别为 69.1、66.7 和 96.9。

月之暗面表示,k1 的强化学习后训练在数据质量和学习效率方面做了进一步优化,在强化学习的规模化(scaling)上取得了新的突破。

此外,科学的模型能力基准测试方案是大模型行业面临的重要挑战之一。由于市面上缺乏针对基础科学学科的图形测试集,Kimi 模型研发团队自主构建了一个标准化的测试集 Science Vista,涵盖不同难度的数理化图片题目,且从分布上与实际用户需求较为匹配。该测试集将开放给全行业,用户可申请在许可范围内使用

在内部测试中,月之暗面也发现了一些 k1 视觉思考模型存在的局限性,例如在分布外(out-of-distribution)的泛化、在更复杂问题上的成功率、在更多噪声场景的准确率、多轮问答效果等方面,有很大提升空间。在一些场景和泛化能力上,k1 模型与 OpenAI 的 o1 系列模型相比仍有差距

相关内容

热门资讯

原创 苹... 有不少朋友疑惑苹果iPhone 16 Pro和16 Pro Max有什么区别?该选择哪一款更好?各自...
2025年值得入手的2款智能手... 在科技飞速发展的今天,智能手表已成为我们生活中不可或缺的伙伴。无论是健康监测、信息提醒,还是时尚搭配...
第五轮学科评估对比:西安交大突... 在之前的文章中,我们已经提及西安交通大学第五轮学科评估的表现可圈可点,新晋的3个A+学科:机械工程、...
原创 2... 从去年华为用上了麒麟芯片开始,华为的市场份额就蹭蹭的往上涨,当时抢购的人特别多,一时间还买不到现货,...
steam官网无法访问?这个办... 对于广大游戏爱好者而言,Steam平台无疑是获取最新游戏资讯、购买游戏、与全球玩家互动的重要阵地。然...
解决FaceTime无法使用的... FaceTime是苹果公司推出的一款视频通话应用,广泛应用于iPhone、iPad和Mac等设备上。...
vivo手机5g开关在哪里打开 vivo手机5G开关的打开方式可能因手机型号、系统版本及运营商网络支持情况的不同而有所差异。但总体来...
2024年OPPO手机全攻略:... 手机已不仅仅是通讯工具,它更是我们记录生活、享受娱乐、提升工作效率的重要伙伴。随着科技的飞速发展,O...
原创 最... 近日,有关华为nova 13系列手机的消息开始多了起来,之前透露的消息暴露,华为nova 13 Pr...
2024信号“最可靠”的四款手... 大家好!今天我要和大家聊聊2024年信号“最可靠”的四款手机,它们分别是华为Pura 70 Pro+...