DeepSeek下周将发布V4多模态模型
创始人
2026-02-28 22:21:07
0

2月28日消息,据金融时报报道,DeepSeek 将于下周发布其最新的大型语言模型,距离其上次重大版本发布已超过一年,这再次考验了中国在人工智能领域挑战美国竞争对手的雄心。

据两位知情人士透露,位于杭州的DeepSeek实验室计划发布V4模型,这是一款具备图片、视频和文本生成功能的多模态模型。

他们表示,DeepSeek已与中国人工智能芯片制造商华为和寒武纪合作,针对这两家公司的最新产品对V4模型进行优化。

这将是DeepSeek自2025年1月发布R1推理模型以来推出的首个重要模型。

该公司声称,其构建的系统仅需极少的计算能力,即可媲美硅谷领先的人工智能模型。

这一举动震动了美国科技股,一些专家将其描述为人造卫星时刻,标志着中国作为人工智能强国的迅速崛起。

此后,DeepSeek 发布的都是渐进式更新,而不是全新的模型,这使得阿里巴巴和 Moonshot 等国内竞争对手能够抢占市场对低成本开源中国模型的需求。

DeepSeek 致力于优化 V4 模型以适配中国制造的芯片,此举有望提振中国市场对其半导体产品的需求,并加速推理(即利用训练好的模型生成响应)领域从美国芯片制造商英伟达和 AMD 向中国市场的转型。

路透社率先报道了 DeepSeek 与华为和寒武纪的合作。

据另一位知情人士透露,DeepSeek 并未与英伟达合作,为其产品优化模型。

英伟达继续主导着训练芯片市场,尤其是在计算密集型的预训练阶段,模型需要在此阶段吸收海量数据。

去年发布的R1版本附带了一份详细的技术报告,阐述了DeepSeek如何更高效地利用Nvidia芯片来训练和运行其模型。

DeepSeek因分享其开发推理模型的训练方法而备受赞誉,这使得其他实验室能够研究并应用他们的发现。推理模型旨在通过将复杂问题分解成更小的步骤来解决这些问题。

据一位直接了解相关计划的人士透露,DeepSeek 预计将于下周发布 V4 版本的同时发布一份篇幅较短的技术说明,并在大约一个月后发布一份更全面的报告。

本周早些时候,Anthropic 指责 DeepSeek和其他两家中国人工智能实验室对其模型进行蒸馏攻击,这种做法是利用更高级系统的输出训练较小的模型,从而使它们能够在不使用相同计算资源的情况下复制这家美国公司的性能。

相关公司均未回应置评请求。(鞭牛士、AI普瑞斯编译)

相关内容

热门资讯

原创 苹... 有不少朋友疑惑苹果iPhone 16 Pro和16 Pro Max有什么区别?该选择哪一款更好?各自...
2024年OPPO手机全攻略:... 手机已不仅仅是通讯工具,它更是我们记录生活、享受娱乐、提升工作效率的重要伙伴。随着科技的飞速发展,O...
2025年值得入手的2款智能手... 在科技飞速发展的今天,智能手表已成为我们生活中不可或缺的伙伴。无论是健康监测、信息提醒,还是时尚搭配...
原创 2... 从去年华为用上了麒麟芯片开始,华为的市场份额就蹭蹭的往上涨,当时抢购的人特别多,一时间还买不到现货,...
第五轮学科评估对比:西安交大突... 在之前的文章中,我们已经提及西安交通大学第五轮学科评估的表现可圈可点,新晋的3个A+学科:机械工程、...
vivo手机5g开关在哪里打开 vivo手机5G开关的打开方式可能因手机型号、系统版本及运营商网络支持情况的不同而有所差异。但总体来...
原创 麒... 为了普及原生鸿蒙(鸿蒙5.0),抢占更多的中端手机市场份额,华为nova系列今年开始计划一年两更,n...
解决FaceTime无法使用的... FaceTime是苹果公司推出的一款视频通话应用,广泛应用于iPhone、iPad和Mac等设备上。...
steam官网无法访问?这个办... 对于广大游戏爱好者而言,Steam平台无疑是获取最新游戏资讯、购买游戏、与全球玩家互动的重要阵地。然...
原创 直... #热点周际赛# 随着科技的进步,儿童智能穿戴设备逐渐成为了家庭中的新宠。华为作为智能穿戴领域的领军者...