DeepSeek登上微博热搜榜首
创始人
2025-02-19 14:41:33
0

三言科技2月19日消息,今日,话题“DeepSeek”登上微博热搜榜首。

昨日,DeepSeek提交了新的论文,值得注意的是其创始人梁文锋是作者之一。

梁文锋还亲自提交了这篇论文。

论文标题为“Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention”(原生稀疏注意力:硬件对齐和原生可训练的稀疏注意力)。

摘要如下:

长上下文建模对下一代大语言模型至关重要,但标准注意力机制的高计算成本带来了重大的计算挑战。

稀疏注意力为提高效率提供了一个有希望的方向,同时保持模型能力。我们介绍NSA,一种原生可训练的稀疏注意力机制,它将算法创新与硬件对齐优化相结合,以实现高效的长上下文建模。NSA采用动态分层稀疏策略,将粗粒token压缩与细粒token选择相结合,以保持上下文意识和本地精度。

我们的方法通过两项关键创新来推进稀疏的注意力设计:

(1)我们通过算术强度平衡算法设计,以及对现代硬件实现优化,实现了大幅度的加速。

(2)我们启用端到端训练,在不牺牲模型性能的情况下减少训练前计算。

实验显示,使用NSA预训练的模型在一般基准、长上下文任务和基于指令的推理中保持或超过全注意力模型。 与此同时,NSA在解碼、向前传播和向后传播的64k长度序列上实现了比Full Attention的大幅加速,验证了其在整个模型生命周期中的效率。

相关内容

热门资讯

2025年值得入手的2款智能手... 在科技飞速发展的今天,智能手表已成为我们生活中不可或缺的伙伴。无论是健康监测、信息提醒,还是时尚搭配...
原创 苹... 有不少朋友疑惑苹果iPhone 16 Pro和16 Pro Max有什么区别?该选择哪一款更好?各自...
第五轮学科评估对比:西安交大突... 在之前的文章中,我们已经提及西安交通大学第五轮学科评估的表现可圈可点,新晋的3个A+学科:机械工程、...
原创 2... 从去年华为用上了麒麟芯片开始,华为的市场份额就蹭蹭的往上涨,当时抢购的人特别多,一时间还买不到现货,...
steam官网无法访问?这个办... 对于广大游戏爱好者而言,Steam平台无疑是获取最新游戏资讯、购买游戏、与全球玩家互动的重要阵地。然...
解决FaceTime无法使用的... FaceTime是苹果公司推出的一款视频通话应用,广泛应用于iPhone、iPad和Mac等设备上。...
vivo手机5g开关在哪里打开 vivo手机5G开关的打开方式可能因手机型号、系统版本及运营商网络支持情况的不同而有所差异。但总体来...
2024年OPPO手机全攻略:... 手机已不仅仅是通讯工具,它更是我们记录生活、享受娱乐、提升工作效率的重要伙伴。随着科技的飞速发展,O...
原创 最... 近日,有关华为nova 13系列手机的消息开始多了起来,之前透露的消息暴露,华为nova 13 Pr...
2024信号“最可靠”的四款手... 大家好!今天我要和大家聊聊2024年信号“最可靠”的四款手机,它们分别是华为Pura 70 Pro+...