DeepSeek的亮眼表现凸显这种知识的重要性，兼谈高校相关专业课程教与学_科技动态

DeepSeek的亮眼表现凸显这种知识的重要性，兼谈高校相关专业课程教与学

创始人

2025-02-16 12:00:53

0次

DeepSeek之所以有亮眼的表现，主要在于在训练和推理过程中，采取了一系列关键技术的优化。

部分放弃英伟达芯片调度算法，直接在类似汇编语言层面上开发了更高效算法，在算法实现上进行了优化；
DeepSeek-v3使用了FP8混合精度推理，支持混合精度部署，显著降低了推理延迟；
GPU资源利用的架构优化，采用了三层混合架构，即感知层、认知层和决策层，使得系统在处理多模态数据时更加高效；
GPU间通信和负载均衡方法优化，提高计算效率，减少了全链路通信延迟；
实现KV Cache优化，显存与计算效率兼顾，降低了KV Cache的存储空间，加快推理速度，扩展可处理的最大token数量；
对多单词预测的优化，能够在生成内容时同时预测多个单词，显著提高了生成效率和速度‌。

可见，DeepSeek并非是核心AI模型或算法的单点改进，而是系统性的。可以说，DeepSeek的成功在于团队的系统性知识，从GPU调度到MLA跨越应用体系的每个层，从计算的底层到计算网络、模型的整体优化，就像打通任督二脉，高效循环起来了。

DS的成功凸显了这种系统性知识的重要性。什么是系统性知识？就是关于某个技术内在逻辑和外在关联的知识体系，它讲究知识的体系性，但又不是什么都纳入到这个体系中，不是杂货铺。早几年很多Python编程培训机构，稍微培训一下就可以上岗，但是学员缺乏系统性知识，计算过程对他们来说是一个黑箱，当然要深层次提升计算效率就难了。

当前在大模型、AGI趋势的冲击下，各行业都出现普遍焦虑。高校也如此，教师应该教给学生什么，学生应该学习什么？学生是否可以不要教师，直接通过与大模型的对话来学习？后面回答。

以我熟悉的人工智能安全和爬虫大数据挖掘举例来说，我是如何构造这种系统性知识体系的。我的核心观点是，外在知识讲究少而精，内在知识讲究大而全。

人工智能安全，内在的是模型算法与决策安全，外在是数据、系统与平台，没有外在知识，只能知道模型存在后门、存在梯度泄露等问题，但不知道这种漏洞是怎么被利用？在现实中发生的场景是什么？通过什么技术手段引发内在安全，就会一知半解。因此，我在《人工智能安全》（曾剑平，清华大学出版社）中强调，就是整体的角度。这里的整体就是从网络空间安全和人工智能技术作为边界，将AI安全与这些边界技术做适当的衔接，从而构造一种系统性知识体系。更多了解见：

再比如爬虫技术，内在的爬虫请求生成、HTML处理、URL处理、爬行策略、链接预测、主题分析等等，外在的是Web服务器技术、法律与行业规范、前端技术等。缺少外在知识，就会导致对爬虫技术一知半解，难于优化关键技术。但是也不能把所有的外在知识都放到爬虫技术体系中，外在知识要少而精，否则不是一门好课。因此，如Web服务器对爬虫请求直接相关的处理、合规性技术等就构成了爬虫的外在知识，成为掌握爬虫不可缺乏的部分。更多了解见：

最后，提问式学习什么时候有效？

大模型就像一位知识渊博的老师傅，江湖中的老师傅从来不会把他所有的知识都传授给徒弟，他往往高瞻远瞩，但不够细致。这就需要徒弟勤学苦练，再来问老师傅请教，这个过程也就是大模型蒸馏的思路。学生来蒸馏老师的知识，当然非常好。这种提问式学习的前提是学生有一定系统性知识之后才有意义，提问式学习只能是学习的一种辅助手段。

2025年为

上一篇：上海怿天取得智能辊环磨床专利，改善了砂轮磨削的效率和精度

下一篇：人类写作会被取代吗？

DeepSeek的亮眼表现凸显这种知识的重要性，兼谈高校相关专业课程教与学

相关内容

热门资讯