大模型可信应用新思路:不止有“电机”,还得有“电控”?
创始人
2025-07-27 19:42:37
0

大模型在高可靠性要求场景如何实现产业落地?

文|徐鑫

编|任晓渔

大模型浪潮席卷大众生活已经两年多,当下,这一领域大众预期和产业落地之间正呈现出微妙落差。

大众感知层面,模型的能力以周为单位快速更新迭代,各种评测指标及榜单上模型能力正在各类任务上超越人类。但到产业端却是另一番图景。在工业制造、医疗健康、金融等诸多场景,许多业界人士都提到,大模型还在单点应用阶段,大规模铺开仍有距离,ToB大爆款应用更是稀缺。

落差的根源在于,专业场景对大模型可靠性要求极高,远超通用模型当下能力表现。有人将这个情形解释为,学通识教育的优秀本科生当不了临床医生。

为了确保专业领域的准确性,业界已有不少动作如微调、检索增强、知识库等,但产业界仍普遍感觉大模型可信应用有待破局。

7月27日在WAIC“从通用智力到专业生产力:高阶程序引领的AI应用新范式”论坛上,蚂蚁集团旗下蚂蚁密算提出了一个新的解决思路——基于高阶程序(High-Order Program)的大模型可信应用技术框架,汲取人类智能来解决高可靠要求场景的经验,用专家经验、领域知识和多重核验,从工程化层面来确保执行准确性。

论坛上蚂蚁密算还宣布正式将这一技术框架对外开源,推动大模型在行业的可信应用进程。

蚂蚁集团副总裁、蚂蚁密算董事长韦韬用新能源车来比喻今天的大模型产业应用。大模型相当于新能源车的电机系统,是通用的智力引擎。而整个可靠性保障其实要靠电控部分。

“之前不可靠大家怪发动机。我们觉得高阶程序是很好的控制体系,能有效承担行业AI应用电控部分的智能。电池部分是数据。未来行业AI应用,核心就是数据、智能模型和高阶程序,支撑起整个行业AI变革。”

01

大模型产业级应用,卡在“最后一公里”

玩过图片生成类应用的人,肯定见过AI闹出的乌龙。生成的画面看起来像模像样,但仔细一看,总会出现诸如人物左手手指多了一根,右手关节不自然扭曲,图片里的文字和字母总像鬼画符等问题。

过去两年模型持续迭代下,这些问题已经有了极大改善。比如生成字母和文字,现在模型表现已经基本能做到不出太大问题。但偶尔AI生成的图片还是会冷不丁冒出些瑕疵。

内容生成领域同样是重灾区。输入提示词让AI帮忙生成一篇文章,有时候AI给出的结果洋洋洒洒上千字,仔细一看参考文献和关键数据却都是AI编的。

大众通用场景的问题容错率较高,上述问题尚且无伤大雅。在工业制造、医疗、金融等关乎生命安全以及涉及到真金白银资金安全的场景,产业界对AI的准确度有更高期待,模型的可靠性不足问题可能正成为产业应用的拦路虎。

IDC在一份报告中就提到,基于300余家企业的问卷显示,87%的企业认为现有模型精度无法满足业务落地要求,无法衡量具体效果。具体表现在涉及用户信息、面向生产和决策的任务中,对模型的逻辑推理、任务执行要求更高。

一位工业AI服务商则告诉数智前线,工业生产控制场景对模型的安全性、精准性、时效性、泛化能力有极高要求。比如化工行业,锅炉或者反应池经常有高温、高压、易燃、易爆特性,同时反应过程复杂,流程环节多,一旦AI的结果不准确,可能就会干扰和影响工业领域的正常生产运转,严重的情况还会引发安全事故。

这位AI服务商提到,这也使得行业里AI落地进展相比许多通用领域要来得更为滞后。

而医疗领域也是同样,由于大语言模型的推理过程是算法“黑盒”,医疗大模型在实际应用中通常面临可解释性和可靠性等问题。

业界认为,大模型应用遭遇的可靠性不足,可能有两个层面原因。

一方面,它与大模型固有的幻觉有关。当信息不完整或者存在矛盾时,大模型会通过“补全逻辑”生成看似合理的解释。同时,目前前沿研究显示,幻觉问题并未随着模型规模的扩大和技术的迭代进步而彻底根治。今年4月OpenAI就在一份报告中指出,在需要总结关于人物的事实时,o3和o4-mini模型分别有33%和48%的时间产生错误信息,而其早期o1模型的幻觉率只有16%。

另外,模型对用户输入指令的遵循存在一定不确定性,尤其在复杂任务、多步骤推理或约束严格的业务场景下,模型出现指令误解、覆盖、遗漏等情况问题更为突出。今年6月苹果在其机器学习研究网站上发表的研究就显示,推理模型会在任务超过临界阈值时,推理完全崩溃。

在WAIC“从通用智力到专业生产力:高阶程序引领的AI应用新范式”论坛上,一众专家和与会行业人士探讨大模型在产业端可信应用的解法时认为,解决的路径可能不只在模型端。

浙江大学教授、区块链与数据安全全国重点实验室主任陈纯就认为,幻觉并非要被“赶尽杀绝”的负面元素,这与大众认知存在一定出入。

陈纯称,模型的幻觉,恰恰是人工智能系统智能水平发展到一定高度的产物。若消除所有幻觉,大模型将退化为机械的检索工具。韦韬则以元素周期表和苯环结构发现为例,认为人类智能里非逻辑性跳跃的思维方式与幻觉类似,但它曾经显著推进了人类文明的进程。

如果幻觉不应成为产业端应用的问题,大模型在高准确度场景里规模应用解法在哪?陈纯认为,可靠性的突破不在于消灭“智力特征”,而在于构建工程化保障框架。

韦韬也指出,“现在有一些不太好的思潮,把智能化和工程化对立了,任务解决问题的思路没有放在模型端,就显得没那么智能。”韦韬认为,应该借鉴人类智能的经验,以智能化叠加工程化,确保在高可靠性要求场景里的大模型可信应用。

02

HOP,用工程化确保大模型可信应用

在大模型可信应用应采取智能化和工程化叠加的理念驱动下,蚂蚁密算也展开了大模型可信应用的系列探索。

在WAIC上,蚂蚁密算公布并开源了正在探索的方向——HOP大模型可信应用技术框架,这是确保大模型在高可靠性要求场景落地应用一种新思路。

韦韬介绍,人类在处理复杂任务时也会犯错,而很多专业领域对正确性有严格的要求,比如民航、医院、建筑公司、生产线等场景都对故障都有着极低的容忍度。

为了解决可靠性问题,人们在这些场景里的典型做法是采取标准作业程序(SOP),将生产或工作中的操作流程、作业方法、工具使用、时间安排等要素进行系统化、规范化,形成一套可重复、可量化、可优化的操作标准,并通过核验和测试检验来确保最终执行的准确可靠。

这种方案能让每个人都以标准方式行动,最大程度地减小错误风险和增加错误检测几率。而HOP也汲取了这一思路,用分解、核验和实测三步,从工程化层面来确保模型执行结果的可靠性

WAIC蚂蚁密算展台。

所谓的HOP,高阶程序语言(High-Order Program),是编程语言和自然语言的融合,集两者之长,又规避了两种语言的缺陷。比如,自然语言有丰富的词汇和多样的语法结构,但它的开放性可能带来了歧义和模糊性。而编程语言是形式化的、精确的语言但使用门槛高。

HOP在处理逻辑部分用编程语言来表达,在涉及知识、语义的模糊、动态匹配时,则靠自然语言完成。“本质上,HOP是把大模型当成CPU来执行编程语言,相比传统编程语言,因为大模型智能度很高,它又可以处理概念性工作。”韦韬告诉数智前线。

具体来说,基于HOP到大模型可信应用框架,主要依靠三个核心组件来完成可靠性保障。

第一环节是业务逻辑的程序化表达,可以类比为人类处理复杂需求时的任务分拆。

这个过程像SOP一样将领域内的最佳实践拆解,并进行程序化构建。程序化语言可避免自然语言带来的歧义与模糊性,同时复杂业务逻辑被分拆到可核验的颗粒度,能支撑后继的高效核验。同时这种程序化语言也像编程语言类似,有大规模可扩展能力,能为未来应用变动留下灵活空间。

第二个环节是构建场景知识图谱。目前行业内已有共识,要确保大模型能在垂直领域有99%以上的可靠性,需要的不止是通用语料和行业语料集,还有场景内的专家专业知识沉淀。而领域知识图谱成了相关领域各类最佳实践的载体。

在这个环节,自然语言的角色也会加入进来,与领域知识图谱一起,支持HOP执行时大模型所需的模糊概念的匹配推导。

第三环节,是受控工具链。就像人类通过反复检查核验来防止出错一样,在大模型去执行行业场景任务时,HOP执行框架也有核验的过程。

同时,由于在任务拆解环节已经确保了颗粒度,执行应用时可以把需要检查的维度内嵌进去,这使得整个流程里核验机制贯穿始终。而经过HOP核验之后,就能确保大模型在专业场景应用的可靠性。

韦韬介绍,一个完整的形式化的核验框架,对大模型的能力表现提升至关重要。比如现在大模型在解数学题上的表现特别好,本质是因为数学家们已经完成很好的形式化核验框架。“只要大模型的证明能通过核验,就能保证结果是对的。那大模型可以不断换方向去试,总能试对”。

上述三个环节,使得HOP既能承载垂直领域的关键知识和实践,又能通过标准作业程序(SOP)和检查清单等机制确保大模型实现专业应用的可靠性,还能基于知识概念匹配完成专业知识与场景应用时的适配

韦韬告诉数智前线,高阶程序与大模型有很强的互补性。HOP是行业SOP的沉淀,是行业正确性和可靠性的保障,可以优化迭代再验证后使用。同时,大模型的更新又对HOP有帮助,能让HOP迭代优化的成本显著降低,以前需要人去作业的任务,随着模型智能程度提升,带来巨大的成本优化。

03

推进大模型行业应用变革

过去两年,围绕着大模型可靠性和可落地性,行业应用方展开过一系列探索,包括但不限于提示词工程、微调以及基于知识库的RAG等。

比如微调,此前就被视作行业落地时必要的一步,用来完成场景内的模型能力适配。“之前但凡一个模型在行业应用有问题时,大家就会想到微调”,一位行业人士称。

但经过一两年落地探索,业界也观察到微调存在不少局限。比如它需要准备语料集基于语料集去训练,但这可能会导致没训练的部分劣化,出现推理能力退化。另外,一个模型微调后就分裂为两个模型,它可能导致未来部署应用成本的显著上升和管理难度的增加。

领域内知识积累和专家经验的沉淀,过去两年一直被视作大模型落地的重要Know-how。一些企业在分享自身应用在垂直场景应用经验时也通常会提到这一点。

不过,资深人士指出,这些企业的探索多是单家企业的摸索,每一家都从头开始。从产业界整体现状看,缺乏有效的沉淀机制,让领域内专家知识和经验的积累沉淀能以比较有效的机制去规模化复制。

今年WAIC人潮如织,火爆异常。

韦韬提到,此次蚂蚁密算推出HOP框架,也是业界里比较系统地从工程化层面来思考大模型应用可靠性问题,并将可靠性提高如此高度的企做法。它具有成本低、可灵活迭代、更具稳定性以及更能规模化应用等多个特征,有利于大模型可信应用在产业界的推进

以成本为例,韦韬介绍,相比传统的微调方案,以前需要更大算力支撑来训练,但HOP框架则并不需要如此高投入。

而在灵活迭代上,只要大模型执行时正确率和完成率指标达不到要求,应用方可以基于HOP框架可以去进行优化。

比如把操作流程进一步分拆,核验进一步进行优化。另外,行业应用时表现不佳还可能与场景知识不全,对场景化术语理解错误以及知识图谱的不足有关。这时候也可以对应通过提供更好的数据,再做好分拆核验流程,也有望提升模型在场景内的表现。

韦韬认为,高阶程序出来之前,工程化很麻烦,因为没有很好的载体在workflow工作流层面来做这件事,要交付比较麻烦。有了高阶程序之后,交付起来非常容易。同时,因为HOP有极高的业务价值,基于蚂蚁密算的密算能力来做,可以对整个应用流程进行保护。另外,每个通过验证的HOP应用,都能够比较可信可靠去调用。

据了解,目前,高阶程技术框架已经在金融风控全链路、网络入侵检测、医疗重复计费等多行业场景中初步应用,在可靠性和时效性上有显著提升。

蚂蚁密算相关人士介绍,以金融联合风控场景为例,在传统金融风控体系下,从数据探查、处理到模型构建与调优的全链路操作,高度依赖人工干预,导致流程冗长、响应缓慢,并且容易受人员主观因素影响,制约了金融风控联合建模的效率与一致性。

在应用HOP技术框架后,将复杂的SOP转化为可执行的流程与代码,实现风控全链路的智能化编排与自动化执行。相较于传统建模人员手动进行数据分析和代码开发,大模型结合HOP能够在确保高精度的同时缩短建模周期,并显著减少了重复性数据处理和流程执行等繁琐的基础工作。这不但能降低处理成本,还能够缓解专业人才紧缺的局面。

但韦韬也指出,基于HOP可能也并非一劳永逸,靠一个应用并不能把所有行业问题都解决。它更多像是提供了一个技术框架,每个具体场景可以通过这个技术框架解决问题。

同时,智能跟工程的融合,智能跟专家知识的融合,都是行业性的命题,需要在不同的领域与各行业的行业专家来共同构建生态,才能推进大模型的可信落地。

“高阶程序的可行性框架是来服务整个生态的,我们想通过开源这种形式来跟行业更紧密合作,解决大模型在专业应用中的可靠性困境,推动大模型在专业领域中规模化应用”,韦韬说。

相关内容

热门资讯

原创 苹... 有不少朋友疑惑苹果iPhone 16 Pro和16 Pro Max有什么区别?该选择哪一款更好?各自...
第五轮学科评估对比:西安交大突... 在之前的文章中,我们已经提及西安交通大学第五轮学科评估的表现可圈可点,新晋的3个A+学科:机械工程、...
2025年值得入手的2款智能手... 在科技飞速发展的今天,智能手表已成为我们生活中不可或缺的伙伴。无论是健康监测、信息提醒,还是时尚搭配...
原创 2... 从去年华为用上了麒麟芯片开始,华为的市场份额就蹭蹭的往上涨,当时抢购的人特别多,一时间还买不到现货,...
2024年OPPO手机全攻略:... 手机已不仅仅是通讯工具,它更是我们记录生活、享受娱乐、提升工作效率的重要伙伴。随着科技的飞速发展,O...
vivo手机5g开关在哪里打开 vivo手机5G开关的打开方式可能因手机型号、系统版本及运营商网络支持情况的不同而有所差异。但总体来...
steam官网无法访问?这个办... 对于广大游戏爱好者而言,Steam平台无疑是获取最新游戏资讯、购买游戏、与全球玩家互动的重要阵地。然...
2024信号“最可靠”的四款手... 大家好!今天我要和大家聊聊2024年信号“最可靠”的四款手机,它们分别是华为Pura 70 Pro+...
虚拟资料变现还值得做吗?闲鱼卖... 大家好,今天给大家带来的是咸鱼虚拟资料类项目分享,这个项目其实出来很久了,有些人觉得虚拟资料没水准,...
解决FaceTime无法使用的... FaceTime是苹果公司推出的一款视频通话应用,广泛应用于iPhone、iPad和Mac等设备上。...