开放数据研究所(ODI)的一项研究发现,主流大语言模型无法为医疗、税务和福利等关键公共服务提供可靠信息。
研究基于超过22000个大语言模型提示进行,这些提示旨在反映人们向生成式AI聊天机器人可能提出的问题类型,例如"我如何申请全民信贷?"。研究结果引发了对聊天机器人能否被信任提供准确政府服务信息的担忧。
该研究发布时正值英国政府宣布与Meta和Anthropic建立合作关系,开发用于导航公共服务的AI智能体。
ODI研究主任埃琳娜·辛珀尔表示:"如果大语言模型要在面向公民的服务中安全使用,我们需要了解这项技术在哪些方面可以信任,在哪些方面不能信任。"
研究将包括Anthropic的Claude-4.5-Haiku、Google的Gemini-3-Flash和OpenAI的ChatGPT-4o等模型的回答与官方政府来源直接比较。
结果显示许多回答正确,但质量存在显著差异,特别是对于专业或不常见的查询。研究还显示,聊天机器人很少承认不知道问题答案,即使回答不完整或错误,也会尝试回答每个查询。
掩埋关键事实
聊天机器人还经常提供冗长的回答,掩埋关键事实或超出政府网站提供的信息范围,增加了不准确的风险。
Meta的Llama 3.1 8B声称,在孩子的出生证明上添加前伴侣姓名需要法院命令。如果遵循这一建议,将导致不必要的压力和经济成本。
ChatGPT-OSS-20B错误地建议,照顾父母已故儿童的人只有在成为已故儿童的监护人时才有资格获得监护人津贴。它还错误地声明,如果申请人为该儿童接受其他福利,则不符合条件。
辛珀尔表示,对于公民而言,研究强调了AI素养的重要性,而对于设计公共服务的人员来说,"考虑到技术发展速度,建议在匆忙采用大型或昂贵模型时保持谨慎,这些模型强调供应商锁定的必要性。我们还需要更多独立基准、更多公共测试,以及更多关于如何使这些系统产生精确可靠答案的研究。"
2月3日发布的第二份国际AI安全报告对AI智能体系统可靠性得出了类似结论。报告指出,虽然自2025年安全报告以来,在回忆事实信息方面有所改进,"但即使是领先模型仍以显著比例给出自信但错误的答案"。
遵循错误建议
报告还发现用户普遍倾向于遵循自动化系统(包括聊天机器人)的错误建议,"因为他们忽略了错误信号,或者认为自动化系统比自己的判断更优秀"。
ODI的研究还挑战了更大、更资源密集的模型总是更适合公共部门的观念,在许多情况下,较小模型以比ChatGPT等大型闭源模型更低的成本提供了相当的结果。
辛珀尔警告政府应避免在模型在价格或基准测试中暂时超越彼此时锁定长期合同。
在ODI研究发布活动上,Full Fact AI负责人安德鲁·达德菲尔德评论说,由于政府立场是支持创新的,监管目前围绕原则而非详细规则制定。
"英国采用AI的速度可能比学会如何使用它的速度更快,特别是在问责制方面,"他说。
可信度
达德菲尔德指出,这项工作引人注目的原因在于它关注真实用户需求,但可信度需要从依赖信息的人的角度评估,而不是从展示技术能力的角度。
"真正的风险不仅是幻觉,还有人们对听起来合理的回答的信任程度,"她说。
在同一活动中被问及政府应该构建自己的系统还是依赖商业工具时,贝内特公共政策学院研究员理查德·波普说,政府需要"对依赖性和主权保持谨慎"。
"AI项目应该从小规模开始,逐步发展并分享他们学到的东西,"他说,并补充说公共部门项目应该优先考虑学习和开放性,而不是快速扩张。
辛珀尔强调,AI创造了为不同语言或理解水平定制信息的潜力,但这些机会"需要被塑造,而不是任其自然发展"。
随着每周都有新的AI模型发布,2026年1月的Gartner研究发现,AI系统产生的大量未验证和低质量数据对大语言模型的可靠性构成了明显且现实的威胁。
大语言模型使用从网络、书籍、研究论文和代码库抓取的数据进行训练。虽然许多这些来源已经包含AI生成的数据,但按照目前的扩张速度,它们可能都会被AI生成的内容填充。
Gartner强调,随着AI生成数据量的增长,未来的大语言模型将越来越多地使用当前模型的输出进行训练,存在模型在自身幻觉和不准确现实累积重压下完全崩溃的风险。
管理副总裁万慧婵表示,组织不能再隐含地信任数据,或假设数据甚至是人类生成的。
万慧婵补充说,随着AI生成数据变得更加普遍,许多地区对验证"AI无关"数据的监管要求将会加强。
Q&A
Q1:大语言模型在提供公共服务信息方面存在什么问题?
A:开放数据研究所研究发现,主流大语言模型无法为医疗、税务和福利等关键公共服务提供可靠信息。模型回答质量存在显著差异,特别是对专业或不常见查询,且很少承认不知道答案,即使回答错误也会尝试回答每个问题。
Q2:聊天机器人提供政府服务信息时会出现哪些具体错误?
A:研究显示聊天机器人经常提供冗长回答掩埋关键事实,或超出政府网站信息范围。例如Meta的Llama模型错误声称添加前伴侣姓名到出生证明需要法院命令,ChatGPT模型对监护人津贴申请条件给出错误建议。
Q3:如何应对大语言模型在公共服务中的可靠性问题?
A:专家建议政府在采用AI技术时保持谨慎,避免锁定长期合同,需要更多独立基准和公共测试。AI项目应从小规模开始逐步发展,优先考虑学习和开放性。同时强调AI素养的重要性,用户需要从依赖信息者角度评估可信度。