为何ChatGPT总胡说?OpenAI:因为我们一直对它“应试教育”,蒙对答案能得分
创始人
2025-09-08 22:21:17
0

在人工智能的讨论中,“幻觉”一直是最受关注的问题之一。所谓幻觉,是指AI给出的回答听起来合情合理,但实际上完全错误。现行的大多数AI基准测试采用二元评分方式:答对得分,答错或说“不知道”都不得分。结果就是,如果模型选择承认不确定,它的表现看起来更差;相反,哪怕它编造答案,只要碰巧答对,就会被当作“更好”。这种机制无形中“奖励”了自信的胡编乱造,却让诚实吃亏。

▲概念图 据图虫创意

原因

“语言模型被优化为擅长应试,

进行猜测会提高考试表现”

上周,ChatGPT的研发公司OpenAI发布了一项名为《语言模型产生幻觉的原因》的研究,首次系统地指出幻觉并非偶然,而是源于模型本身的结构性机制。研究进一步强调,问题的根源在于评估体系:它的机制就是在奖励猜测,从而助长了幻觉的滋生。

研究解释说,当“我不知道”只能得零分,而一个貌似合理的猜测却有机会得到满分时,模型的最优策略就变成了尽量去猜。这些模型并不是被刻意编程去撒谎,而是因为“虚张声势”会在现有机制下获得更高的分数。正如OpenAI所说:“幻觉之所以持续存在,是因为大多数评估的打分方式。语言模型被优化为擅长应试,而在不确定时进行猜测会提高考试表现。”

▲学生考试(创意图片,据图虫创意)

这就像学校考试。如果你不知道答案,大概也会蒙一把,希望碰巧答对。这正是大型语言模型(LLMs)被训练去做的事情。它们始终处于“考试模式”:沉默会被惩罚,而猜测则显得聪明。OpenAI的研究人员总结说:“人类是在生活的磨练中学会了表达不确定性的价值,而语言模型却主要通过那些惩罚不确定性的考试来接受评估。”换句话说,我们一直在把AI训练成“永远的应试者”,它们被优化的目标是考试成绩,而不是可信度。

修正

调整评估标准

不能“不回答就惩罚”

OpenAI还公布了其模型的基准测试结果。最新的推理模型GPT-5 Thinking Mini的准确率为22%,略低于上一代o4-Mini模型的24%。不过,GPT-5 的弃答率(即回答“我不知道”)达到52%,错误率为26%;相比之下,o4-Mini的弃答率仅为1%,但错误率却高达75%。o4-Mini更频繁的猜测行为同时增加了正确和错误的回答。研究人员指出:“大多数评分体系按照准确率对模型进行排名,但错误比弃答的后果更严重。”

针对这一问题,OpenAI提出的解决方案不是从头重建模型,而是调整评估标准。研究人员认为,“根本性的问题在于,大量评估方法之间缺乏一致性。现有的主要评估方式必须进行调整,避免在模型不确定时惩罚其选择不作答”。该公司在另一篇文章中补充说:“那些广泛使用的、基于准确率的评估需要更新,它们的评分方式必须阻止模型去猜。如果常用的评测体系继续奖励侥幸的猜测,模型最终就会越来越依赖这种策略。”

这是一个细微却关键的转变。多年来,行业一直在竞相让聊天机器人更快、更聪明、更流畅,但这些特质并不等于值得信赖。真正的挑战在于,如何打造能够在知识与谦逊之间找到平衡的系统。通过调整评估方式,OpenAI希望训练出更少依赖“装懂混过去”的模型,而是能够给出更稳健、可信回应的模型。毕竟,当用户向AI寻求医疗建议或理财指导时,最不希望的就是听到一个听起来无比自信却完全虚构的答案。而在一个常被指责为“过度炒作”和“半真半假”的行业里,这种对减少虚张声势的呼吁,或许才是迄今为止最激进的想法。

相关内容

热门资讯

原创 苹... 有不少朋友疑惑苹果iPhone 16 Pro和16 Pro Max有什么区别?该选择哪一款更好?各自...
2025年值得入手的2款智能手... 在科技飞速发展的今天,智能手表已成为我们生活中不可或缺的伙伴。无论是健康监测、信息提醒,还是时尚搭配...
第五轮学科评估对比:西安交大突... 在之前的文章中,我们已经提及西安交通大学第五轮学科评估的表现可圈可点,新晋的3个A+学科:机械工程、...
原创 2... 从去年华为用上了麒麟芯片开始,华为的市场份额就蹭蹭的往上涨,当时抢购的人特别多,一时间还买不到现货,...
解决FaceTime无法使用的... FaceTime是苹果公司推出的一款视频通话应用,广泛应用于iPhone、iPad和Mac等设备上。...
steam官网无法访问?这个办... 对于广大游戏爱好者而言,Steam平台无疑是获取最新游戏资讯、购买游戏、与全球玩家互动的重要阵地。然...
vivo手机5g开关在哪里打开 vivo手机5G开关的打开方式可能因手机型号、系统版本及运营商网络支持情况的不同而有所差异。但总体来...
2024年OPPO手机全攻略:... 手机已不仅仅是通讯工具,它更是我们记录生活、享受娱乐、提升工作效率的重要伙伴。随着科技的飞速发展,O...
原创 麒... 为了普及原生鸿蒙(鸿蒙5.0),抢占更多的中端手机市场份额,华为nova系列今年开始计划一年两更,n...
原创 最... 近日,有关华为nova 13系列手机的消息开始多了起来,之前透露的消息暴露,华为nova 13 Pr...