DeepSeek之所以有亮眼的表现,主要在于在训练和推理过程中,采取了一系列关键技术的优化。
部分放弃英伟达芯片调度算法,直接在类似汇编语言层面上开发了更高效算法,在算法实现上进行了优化;
DeepSeek-v3使用了FP8混合精度推理,支持混合精度部署,显著降低了推理延迟;
GPU资源利用的架构优化,采用了三层混合架构,即感知层、认知层和决策层,使得系统在处理多模态数据时更加高效;
GPU间通信和负载均衡方法优化,提高计算效率,减少了全链路通信延迟;
实现KV Cache优化,显存与计算效率兼顾,降低了KV Cache的存储空间,加快推理速度,扩展可处理的最大token数量;
对多单词预测的优化,能够在生成内容时同时预测多个单词,显著提高了生成效率和速度。
可见,DeepSeek并非是核心AI模型或算法的单点改进,而是 系统性的。可以说,DeepSeek的成功在于团队的系统性知识,从GPU调度到MLA跨越应用体系的每个层,从计算的底层到计算网络、模型的整体优化,就像打通任督二脉,高效循环起来了。
DS的成功 凸显了这种系统性知识的重要性。什么是系统性知识?就是 关于某个技术内在逻辑和外在关联的知识体系,它讲究知识的体系性,但又不是什么都纳入到这个体系中,不是杂货铺。早几年很多Python编程培训机构,稍微培训一下就可以上岗,但是学员缺乏系统性知识,计算过程对他们来说是一个黑箱,当然要深层次提升计算效率就难了。
当前在大模型、AGI趋势的冲击下,各行业都出现普遍焦虑。高校也如此,教师应该教给学生什么,学生应该学习什么?学生是否可以不要教师,直接通过与大模型的对话来学习?后面回答。
以我熟悉的人工智能安全和爬虫大数据挖掘举例来说,我是 如何构造这种系统性知识体系的。我的核心观点是, 外在知识讲究少而精,内在知识讲究大而全。
人工智能安全,内在的是模型算法与决策安全,外在是数据、系统与平台,没有外在知识,只能知道模型存在后门、存在梯度泄露等问题,但不知道这种漏洞是怎么被利用?在现实中发生的场景是什么?通过什么技术手段引发内在安全,就会一知半解。因此,我在《人工智能安全》(曾剑平,清华大学出版社)中强调,就是整体的角度。这里的整体就是从网络空间安全和人工智能技术作为边界,将AI安全与这些边界技术做适当的衔接,从而构造一种系统性知识体系。更多了解见:
再比如爬虫技术,内在的爬虫请求生成、HTML处理、URL处理、爬行策略、链接预测、主题分析等等,外在的是Web服务器技术、法律与行业规范、前端技术等。缺少外在知识,就会导致对爬虫技术一知半解,难于优化关键技术。但是也不能把所有的外在知识都放到爬虫技术体系中, 外在知识要少而精,否则不是一门好课。因此,如Web服务器对爬虫请求直接相关的处理、合规性技术等就构成了爬虫的外在知识,成为掌握爬虫不可缺乏的部分。更多了解见:
最后, 提问式学习什么时候有效?
大模型就像一位知识渊博的老师傅,江湖中的老师傅从来不会把他所有的知识都传授给徒弟,他往往高瞻远瞩,但不够细致。这就需要徒弟勤学苦练,再来问老师傅请教,这个过程也就是 大模型蒸馏的思路。学生来蒸馏老师的知识,当然非常好。这种 提问式学习的前提是学生有一定系统性知识之后才有意义,提问式学习只能是学习的一种辅助手段。
2025年为