OpenAI官方数据:ChatGPT o3编造能力比o1高两倍
创始人
2025-04-24 12:02:19
0

【CNMO科技消息】ChatGPT的性能还在持续进化。但用户很快发现这类AI有时会给出错误答案,甚至能一本正经地编造看似合理的内容。

经过技术迭代,如今ChatGPT及其竞品已能提供部分信息来源,尤其在联网搜索场景中。不过很多人的使用习惯始终未变——坚持要求AI为每个结论标注有效链接,发现错误立即纠正。虽然未来更先进的模型可能解决"幻觉"问题,但当前最新发布的ChatGPT o3和o4-mini反而呈现出更明显的编造倾向,这成为AI发展路上耐人寻味的现象。

OpenAI官方数据显示,在专门检测幻觉的PersonQA测试中,o4-mini准确率低于前代o1和o3,编造频率更是o1的三倍。而性能更强的o3虽然整体准确率提升,其编造概率却比o1高出两倍。研发团队坦言,即便为模型加入图像分析和联网检索能力,仍无法解释为何升级后的产品更容易"信口开河"。

有趣的是,这些新模型确实展现出惊人潜力:通过照片定位拍摄地点,深度解析网页信息,甚至构建复杂的思维链条。但就像不受控的想象力,它们总会在推理过程中夹杂虚构内容。OpenAI工程师至今未能破解这个技术困局。

实际使用中,o4-mini有时会过早给出结论,这或许暗示着信息加工过程中存在失真。可以预见的是,在未来相当长时间里,保持对AI输出的审慎核查仍是必要动作。毕竟在追求智能的道路上,真实与幻象往往只有一线之隔。

相关内容

热门资讯

原创 苹... 有不少朋友疑惑苹果iPhone 16 Pro和16 Pro Max有什么区别?该选择哪一款更好?各自...
2025年值得入手的2款智能手... 在科技飞速发展的今天,智能手表已成为我们生活中不可或缺的伙伴。无论是健康监测、信息提醒,还是时尚搭配...
第五轮学科评估对比:西安交大突... 在之前的文章中,我们已经提及西安交通大学第五轮学科评估的表现可圈可点,新晋的3个A+学科:机械工程、...
原创 2... 从去年华为用上了麒麟芯片开始,华为的市场份额就蹭蹭的往上涨,当时抢购的人特别多,一时间还买不到现货,...
steam官网无法访问?这个办... 对于广大游戏爱好者而言,Steam平台无疑是获取最新游戏资讯、购买游戏、与全球玩家互动的重要阵地。然...
解决FaceTime无法使用的... FaceTime是苹果公司推出的一款视频通话应用,广泛应用于iPhone、iPad和Mac等设备上。...
vivo手机5g开关在哪里打开 vivo手机5G开关的打开方式可能因手机型号、系统版本及运营商网络支持情况的不同而有所差异。但总体来...
2024年OPPO手机全攻略:... 手机已不仅仅是通讯工具,它更是我们记录生活、享受娱乐、提升工作效率的重要伙伴。随着科技的飞速发展,O...
原创 最... 近日,有关华为nova 13系列手机的消息开始多了起来,之前透露的消息暴露,华为nova 13 Pr...
2024信号“最可靠”的四款手... 大家好!今天我要和大家聊聊2024年信号“最可靠”的四款手机,它们分别是华为Pura 70 Pro+...