中国自研AI实现历史性突破 云从科技超越谷歌OpenAI登顶多模态榜首
创始人
2025-05-29 20:21:24
0

近日,云从科技自主研发的从容大模型在国际权威评测平台OpenCompass最新全球多模态榜单中,以80.7分的综合成绩登顶榜首。

这一成绩不仅刷新了国内AI模型在国际多模态测评中的最高得分纪录,更超越谷歌、OpenAI等全球顶尖团队,与商汤科技SenseNova(80.4分)、上海AI LAB InternVL(79.1分)占据前10名的半壁江山,展现了中国在通用人工智能领域的突破性进展。

此次评测中,从容大模型展现了全方位技术优势。面对涵盖视觉感知、认知理解与跨领域应用的8大核心数据集,该模型在医学健康、数理逻辑、艺术设计等十余个专业领域表现突出。

尤其在MMBench中文测试、高难度学科综合评测(MMMU)及高阶推理榜单(MMStar)中均拔得头筹,并在复杂场景文本识别(ocrbench)、开放域问答(MMVet)等关键场景中稳居全球前列,其综合能力较国际头部模型GPT-4.1领先近5分。

技术突破源于云从科技在多模态核心领域的持续深耕。从容大模型聚焦通用视觉语言理解与推理任务,通过三大核心领域(多模态对齐、高阶推理、长上下文建模)的突破性优化,构建起全球领先的技术壁垒:

1.多模态对齐:

自建面向强化指令对齐的高质量基准数据集,覆盖了图文问答、多模态理解、多轮交互等任务场景,提升多模态理解与任务指令遵循的推理表现。

2.决策类人化:

首创融合DPO(直接偏好优化)与GRPO(生成式奖励优化)的双重对齐技术,无需依赖奖励模型即可实现类人化推理决策,通过优化模型学习机制,从容大模型实现了更贴近人类思维的决策方式,在复杂问答与多轮交互中展现出更强的智能行为选择能力;

3.高效工程优化:

重点攻克了4K高分辨率图像问答场景,面向多模态文档理解(OCR)对模型的图像编码器进行了结构优化,可处理高分辨率图像与文档(如合同、发票表格等),支持多模态文档的智能审查、智能解析、智能问答等任务。

面对跨页文档分析、多轮对话等长文本场景,可精准追踪超过3万字的上下文逻辑;

4.原生多模态推理

模型全面升级,面向多图、跨图场景的图文交错模式和原生视频模式,提供原生的多模态文档理解和多模态视频理解,可以实现跨图比较、图文组合推理、多图问答等复杂多模态任务,进而提升大模型大模型的模型理解深度与广度。

从容大模型多模态能力示例

目前,该模型已在金融、制造、政务等多个领域通过AI智能体实现规模化落地。

某银行基于该模型与云从合作打造风控合规案防智能平台,构建风控AI智能体,实现风险识别自动化和问责标准化,投诉数量压降50%以上;在电商领域,云从科技为正浩创新部署的智能客服平台,通过多模态对齐与知识库精准匹配,将问答准确率提升至95%,客服月均效率提高24%。

“技术创新最终要服务于社会价值。”云从科技联合创始人姚志强表示,团队将持续探索多模态技术的安全落地模式,以自主创新的AI基础设施,为全球智能化转型提供更高效、更包容的技术支撑。

随着从容大模型的持续进化,中国人工智能正以扎实的技术根基,开启赋能实体经济的新篇章。

相关内容

热门资讯

vivo钱包遭用户投诉贷款利率... 文:WEMONEY研究室 随着移动互联网时代到来,智能手机已经成为了生活的必需品。目前,很多手机如...
gta5加载慢怎么办 gta5... 许多玩家在GTA5游戏过程中都会遇到加载速度慢的问题,那么gta5加载慢怎么办?今天加游加速器就来告...
原创 苹... 有不少朋友疑惑苹果iPhone 16 Pro和16 Pro Max有什么区别?该选择哪一款更好?各自...
iPhone 16系列手机网速... 在智能手机的世界里,网速往往是衡量一部手机性能的重要指标之一。 尤其是随着5G时代的到来,用户对于高...
舒福德智能床S300 Pro面... 8月13日,以“一键入眠 世界领先”为主题的舒福德智能床新品发布会在浙江嘉兴举行。中国睡谷的首次对外...
第五轮学科评估对比:西安交大突... 在之前的文章中,我们已经提及西安交通大学第五轮学科评估的表现可圈可点,新晋的3个A+学科:机械工程、...
小米怎么去除抖音水印保存?分享... 随着抖音的普及,越来越多的人喜欢在抖音上分享和观看短视频。当我们想要保存一些喜欢的视频时,往往会被视...
小米14T Pro海外定档9月... 【ITBEAR】9月23日消息,小米今日在X平台上宣布,旗下新款手机小米14T Pro定于9月26日...
邓宏魁、张涛、李亚栋、孙斌勇获... 出品 | 搜狐科技 作者 | 周锦童 8月16日上午10时,2024未来科学大奖新闻发布会在北京、香...