大语言模型(LLM)普遍存在幻觉问题,即生成与客观事实不符的内容。针对这一问题,已有多种抑制幻觉的技术被提出。
在科研活动中,创造力是提出科学假设与构建科学构想的关键要素。随着 LLM 日益深入科研辅助工作中,这种依赖非常规联想的创造性思维在表现形式上往往与模型幻觉相似。
然而,抑制幻觉的技术是否会削弱模型的创造力,业内仍缺乏系统性认知。
基于此,南洋理工大学研究团队运用两个创造力测评基准,对抑制幻觉方法与模型创造力之间的关系进行了研究,为科学应用场景中如何选择合适的抑制幻觉技术提供了重要参考。
论文链接:https://arxiv.org/pdf/2512.11509
他们选取了两个创造力评测基准。
在两个基准测试上,他们对三种抑制幻觉技术进行系统评估,包括:验证链(CoVe)、对比层解码(DoLa)和检索增强生成(RAG)。
图|实验框架示意图
CoVe提升发散性创造力
实验结果显示,CoVe 能显著提升大模型的发散性创造力,也就是让模型在思考问题时产生更多新颖、多样的答案。
在不同模型与基准上的实验中,CoVe 整体表现稳定,尤其在某些小模型上提升更为明显。
这说明,CoVe 通过引入“验证—质询”式的解码过程,引导模型探索更多潜在推理路径,而不是沿着单一方向快速得出结论。
CoVe 的效果不仅体现在性能指标上,也体现出类人的发散思维训练的价值,通过持续发问与多方向思考,有助于打破思维定势,刺激“头脑风暴式”的创意思考。
图|解码方法对发散性创造力的影响(NeoCoder)
RAG对发散性创造力影响有限
另一边,RAG 对模型的发散性创造力基本没有实质影响。无论是在不同模型规模还是不同基准上,RAG 的结果都仅呈现出轻微且随机的波动,整体围绕基线上下浮动。
但研究团队也解释了潜在可能,如果检索系统能提供模型训练之外的策略或新鲜知识,RAG 可能在创造性上发挥积极作用。例如,高质量检索内容可帮助模型提升事实性判断,这一能力与创造力趋同,同时还可能通过引入新视角来激发新思路,提高发散性创造力。
图|解码方法对发散创造力的影响(CS4)
DoLa抑制发散性创造力
与上述两种技术相反,DoLa 会系统性降低模型的发散性创造力。在两个基准上,基于 DoLa 的大多数模型的表现均略低于基线,这表明,创造力下降来自 DoLa 本身,而非模型结构差异。
研究团队推测,DoLa 削弱了负责创造力的层级结构。DoLa 的机制是通过将早期层预测从后期层预测中相减以提升事实性,如果早期层包含更多探索性与发散性特征,那么对其进行对比运算时,就可能抹除创造生成所需的信息。
进一步实验显示,通过在解码时增强与创造力相关的层级、抑制负相关层级,可以在不损害趋同创造力的前提下提升发散性创造力。这说明两类创造力可能是可分离的,未来可针对性地提升发散性创造潜力。
图|通过增强与创造力正相关的层级并抑制与创造力负相关的层级来提升发散创造力
局限性
当然,这项研究也存在一定的局限性。
第一,创造力评估具有局限性。实验只能间接衡量科学假设生成能力,并不等同真实科研中的创造力表现,所以结果的外推性有限。
第二,CoVe 机制解释不足。虽然 CoVe 能提升发散创造力,但没做消融实验,也没有揭示具体机制,因此无法确定其发挥作用的因果路径。
第三,RAG 结论不够稳固。关于 RAG 对创造力影响弱的解释,缺乏对检索质量和不同检索策略的测量,因此结论需要更系统验证。
随着 LLM 变得越来越聪明,释放它们在科学发现方面的潜力变得越来越重要。展望未来,研究人员希望 LLM 不仅是被动的工具,更能成为科研工作中的积极协作者。