“This will kill OpenAI.”
这是 DeepSeek 开源周后,周六的一条“One More Thing”下的评论,在这里,DeepSeek 公布了自己的成本与收入,理论成本利润率达到了惊人的 545%。
DeepSeek 还非常谦逊地表示:我们希望本周的见解可以为开源社区提供价值,共同实现我们的 AGI 目标。
五大核心组件,重新定义硬件性能天花板
当我们回头来看 DeepSeek 开源周发布的五大核心组件(FlashMLA、DeepEP、DeepGEMM、DualPipe、EPLB),你就会发现它们并非孤立技术,而是一同构成了一套算力系统:从软件出发,重新定义硬件性能。
用 FlashMLA 动态分配算力,仅用 300 行代码就突破了硬件限制,将 H800 的计算效率提升到了榨干的级别,接下来再通过 DeepEP 打通数据“高铁”,解决了多专家协作的通信瓶颈;最后再通过 DualPipe 和 EPLB 这两个流水线调度员,实现计算和通讯的零闲置。
在这一周的开源风暴中,受到冲击的是基座模型厂商,不开源意味着落后时代,开源意味着商业模式的颠覆,但连最坚定的闭源派百度也宣布 4 月 1 日起文心一言全免费,并即将开源,或许问题已经有了答案。而应用公司、芯片公司、电脑等终端厂商,则成为了受益者。
随着 DeepSeek 开源周收官,以全功能 GPU 为核心的摩尔线程就成功实现对 DeepSeek 各个开源项目的全面支持,DeepSeek 的开源, 确实让本土的芯片公司、腰部的 AI 公司吃到了甜头。这是一场技术开源,更是一场用软件重写摩尔定律的宣言:当硬件因为各种因素进步趋缓,那软件就会成为算力增长的新引擎。
在“iOS or Android”的选择题上,DeepSeek 坚定的站在了 Android 一边。
行业的不可能三角,由 DeepSeek 打破
想同时满足低成本、高性能和环保,几乎是不可能的,但 DeepSeek 做到了。
在不升级硬件的前提下,DeepSeek 的训练效率提升了 40% 到 60%;开源项目均支持二次开发,基于 FlashMLA 优化国产 GPU 的性能完全是有可能的。
DeepSeek 似乎打破了代码最后的封印,甚至有种比英伟达更懂 GPU 基层技术的感觉。
开源周刚启动的第一天,特斯拉、英伟达等美股科技巨头市值蒸发超 1.4 万亿,或许正如黄仁勋所言,投资者误读了 DeepSeek 对 AI 的影响,但资本还是告诉了我们答案。
阿里云副总裁李飞飞在谈 DeepSeek 开源周时表示,AI 的下半场竞争已经回到了传统的系统领域,特别是分布式系统工程。当算法和框架的创新趋缓,那系统层面的优化就成为关键。
AI 普惠化的中国方案
DeepSeek 开源让更多中小厂商得以低成本接入顶级训练框架,对 Hopper 架构的深度优化一定程度上也为未来 GPU 架构的标准化预埋了接口。
在未来,更多的国产 GPU 厂商可能与 DeepSeek 展开合作,用软件来弥补硬件代差;DeepSeek 或许也可以模仿 RedHat 的盈利模式,提供企业级支持服务。
这是 AI 领域的“Android 时刻”,当软件生态足够强大,硬件就将退化为可替换的容器。