原创 别让“反幻觉”杀死AI创造力,最新实证研究来了!
创始人
2025-12-23 00:00:38
0

大语言模型(LLM)普遍存在幻觉问题,即生成与客观事实不符的内容。针对这一问题,已有多种抑制幻觉的技术被提出。

在科研活动中,创造力是提出科学假设与构建科学构想的关键要素。随着 LLM 日益深入科研辅助工作中,这种依赖非常规联想的创造性思维在表现形式上往往与模型幻觉相似。

然而,抑制幻觉的技术是否会削弱模型的创造力,业内仍缺乏系统性认知

基于此,南洋理工大学研究团队运用两个创造力测评基准,对抑制幻觉方法与模型创造力之间的关系进行了研究,为科学应用场景中如何选择合适的抑制幻觉技术提供了重要参考

论文链接:https://arxiv.org/pdf/2512.11509

他们选取了两个创造力评测基准。

  • NeoCoder,通过逐步增加约束条件的编程任务来评估模型的创造力,其高度规则化的任务环境可类比于在固定自然规律约束下开展的科学实验。
  • CS4,聚焦于开放式故事生成,更强调发散性联想与想象能力,贴近科学假设生成所需的创造性思维过程。

在两个基准测试上,他们对三种抑制幻觉技术进行系统评估,包括:验证链(CoVe)对比层解码(DoLa)检索增强生成(RAG)

图|实验框架示意图

CoVe提升发散性创造力

实验结果显示,CoVe 能显著提升大模型的发散性创造力,也就是让模型在思考问题时产生更多新颖、多样的答案。

在不同模型与基准上的实验中,CoVe 整体表现稳定,尤其在某些小模型上提升更为明显。

这说明,CoVe 通过引入“验证—质询”式的解码过程,引导模型探索更多潜在推理路径,而不是沿着单一方向快速得出结论。

CoVe 的效果不仅体现在性能指标上,也体现出类人的发散思维训练的价值,通过持续发问与多方向思考,有助于打破思维定势,刺激“头脑风暴式”的创意思考

图|解码方法对发散性创造力的影响(NeoCoder)

RAG对发散性创造力影响有限

另一边,RAG 对模型的发散性创造力基本没有实质影响。无论是在不同模型规模还是不同基准上,RAG 的结果都仅呈现出轻微且随机的波动,整体围绕基线上下浮动。

但研究团队也解释了潜在可能,如果检索系统能提供模型训练之外的策略或新鲜知识,RAG 可能在创造性上发挥积极作用。例如,高质量检索内容可帮助模型提升事实性判断,这一能力与创造力趋同,同时还可能通过引入新视角来激发新思路,提高发散性创造力

图|解码方法对发散创造力的影响(CS4)

DoLa抑制发散性创造力

与上述两种技术相反,DoLa 会系统性降低模型的发散性创造力。在两个基准上,基于 DoLa 的大多数模型的表现均略低于基线,这表明,创造力下降来自 DoLa 本身,而非模型结构差异。

研究团队推测,DoLa 削弱了负责创造力的层级结构。DoLa 的机制是通过将早期层预测从后期层预测中相减以提升事实性,如果早期层包含更多探索性与发散性特征,那么对其进行对比运算时,就可能抹除创造生成所需的信息。

进一步实验显示,通过在解码时增强与创造力相关的层级、抑制负相关层级,可以在不损害趋同创造力的前提下提升发散性创造力。这说明两类创造力可能是可分离的,未来可针对性地提升发散性创造潜力。

图|通过增强与创造力正相关的层级并抑制与创造力负相关的层级来提升发散创造力

局限性

当然,这项研究也存在一定的局限性。

第一,创造力评估具有局限性。实验只能间接衡量科学假设生成能力,并不等同真实科研中的创造力表现,所以结果的外推性有限。

第二,CoVe 机制解释不足。虽然 CoVe 能提升发散创造力,但没做消融实验,也没有揭示具体机制,因此无法确定其发挥作用的因果路径。

第三,RAG 结论不够稳固。关于 RAG 对创造力影响弱的解释,缺乏对检索质量和不同检索策略的测量,因此结论需要更系统验证。

随着 LLM 变得越来越聪明,释放它们在科学发现方面的潜力变得越来越重要。展望未来,研究人员希望 LLM 不仅是被动的工具,更能成为科研工作中的积极协作者。

相关内容

热门资讯

原创 苹... 有不少朋友疑惑苹果iPhone 16 Pro和16 Pro Max有什么区别?该选择哪一款更好?各自...
2024年OPPO手机全攻略:... 手机已不仅仅是通讯工具,它更是我们记录生活、享受娱乐、提升工作效率的重要伙伴。随着科技的飞速发展,O...
2025年值得入手的2款智能手... 在科技飞速发展的今天,智能手表已成为我们生活中不可或缺的伙伴。无论是健康监测、信息提醒,还是时尚搭配...
原创 2... 从去年华为用上了麒麟芯片开始,华为的市场份额就蹭蹭的往上涨,当时抢购的人特别多,一时间还买不到现货,...
第五轮学科评估对比:西安交大突... 在之前的文章中,我们已经提及西安交通大学第五轮学科评估的表现可圈可点,新晋的3个A+学科:机械工程、...
vivo手机5g开关在哪里打开 vivo手机5G开关的打开方式可能因手机型号、系统版本及运营商网络支持情况的不同而有所差异。但总体来...
解决FaceTime无法使用的... FaceTime是苹果公司推出的一款视频通话应用,广泛应用于iPhone、iPad和Mac等设备上。...
steam官网无法访问?这个办... 对于广大游戏爱好者而言,Steam平台无疑是获取最新游戏资讯、购买游戏、与全球玩家互动的重要阵地。然...
原创 直... #热点周际赛# 随着科技的进步,儿童智能穿戴设备逐渐成为了家庭中的新宠。华为作为智能穿戴领域的领军者...
原创 麒... 为了普及原生鸿蒙(鸿蒙5.0),抢占更多的中端手机市场份额,华为nova系列今年开始计划一年两更,n...