DeepMind发布新语言模型:性能大幅提升
创始人
2024-12-28 19:41:46
0

2024-12-28 10:20:58 作者:狼叫兽

谷歌DeepMind团队最新推出了一种名为“可微缓存增强”的新方法,用于提升大型语言模型的推理性能。这种方法不需要增加过多计算负担,在不明显提高延迟的情况下,可以显著改善大语言模型的响应准确性和上下文相关性。

当前提高大语言模型性能的方法通常涉及在任务处理期间生成中间步骤,但这会导致计算效率低下。而"可微缓存增强"利用了一个经过训练的协处理器来丰富大语言模型内部记忆,并保持基础大语言模型冻结状态。整个流程分为三个阶段:首先从输入序列生成key-value缓存,然后协处理器使用可训练软令牌处理该缓存并生成潜在嵌入,最后增强后的key-value缓存反馈给大语言模型以生成更丰富的输出。

在Gemma-2 2B模型上进行测试结果显示,“可微缓存增强”方法在多个基准测试中取得了显著成果。例如,在GSM8K数据集上准确率提高了10.05%,在MMLU上性能提升了4.70%。此外,该方法还降低了模型在多个标记位置的困惑度。

这项研究为增强大语言模型的推理能力提供了新的思路。通过引入外部协处理器来增强key-value缓存,研究人员可以在保持计算效率的同时显著提高大语言模型的性能,为处理更复杂的任务奠定了基础。

综上所述,"可微缓存增强"是一种创新且有效的技术,在大语言模型领域具有重要价值,并为未来发展带来了更多可能性。

相关内容

热门资讯

原创 苹... 有不少朋友疑惑苹果iPhone 16 Pro和16 Pro Max有什么区别?该选择哪一款更好?各自...
2025年值得入手的2款智能手... 在科技飞速发展的今天,智能手表已成为我们生活中不可或缺的伙伴。无论是健康监测、信息提醒,还是时尚搭配...
第五轮学科评估对比:西安交大突... 在之前的文章中,我们已经提及西安交通大学第五轮学科评估的表现可圈可点,新晋的3个A+学科:机械工程、...
原创 2... 从去年华为用上了麒麟芯片开始,华为的市场份额就蹭蹭的往上涨,当时抢购的人特别多,一时间还买不到现货,...
steam官网无法访问?这个办... 对于广大游戏爱好者而言,Steam平台无疑是获取最新游戏资讯、购买游戏、与全球玩家互动的重要阵地。然...
解决FaceTime无法使用的... FaceTime是苹果公司推出的一款视频通话应用,广泛应用于iPhone、iPad和Mac等设备上。...
vivo手机5g开关在哪里打开 vivo手机5G开关的打开方式可能因手机型号、系统版本及运营商网络支持情况的不同而有所差异。但总体来...
2024年OPPO手机全攻略:... 手机已不仅仅是通讯工具,它更是我们记录生活、享受娱乐、提升工作效率的重要伙伴。随着科技的飞速发展,O...
原创 最... 近日,有关华为nova 13系列手机的消息开始多了起来,之前透露的消息暴露,华为nova 13 Pr...
2024信号“最可靠”的四款手... 大家好!今天我要和大家聊聊2024年信号“最可靠”的四款手机,它们分别是华为Pura 70 Pro+...