DeepSeek-OCR一夜炸场：AI是“看”而不是“读”，一块A100每天看20万页_科技动态

创始人

2025-10-21 18:23:28

0次

AI圈炸了：DeepSeek 公开开源了全新模型 DeepSeek-OCR，一夜之间，GitHub 上就收获了超过4000个星赞。整个LLM大模型的游戏规则，仿佛在一瞬间被它刷新。

DeepSeek OCR

1、1000字压缩成100个视觉 token？一块A100一天处理20万页！

DeepSeek-OCR 的处理方式让人瞠目结舌：1000 个字的文章只需 100 个视觉 token 就能表示，压缩效率高达十倍，精度还能保持在 97%。更惊人的是，一块英伟达 A100，每天可以处理 20 万页文档——你没看错，是每天 20 万页！

这意味着什么？大模型的长上下文问题，找到了新的突破口。过去你总担心上下文太长、显存撑不住，现在也许只需要把文本“变成图片”，模型就能轻松消化。

2、Karpathy都“露怯”了：LLM的未来是视觉输入？

OpenAI 联合创始人、前特斯拉自动驾驶总监 Andrej Karpathy 在推特上表示：

“也许更合理的是，LLM 的所有输入都应该是图像。即使碰巧有纯文本输入，也应该先渲染成图像再输入。”

换句话说，大语言模型不一定非要“读”文本，它们完全可以“看”文本。甚至连分词器这种老旧工具都可以砍掉——Karpathy 直言分词器很丑、历史包袱重，还可能带来安全漏洞。

视觉输入的好处显而易见：

更高压缩率 → 上下文窗口更长;

更通用 → 不止文本，还能包括粗体、彩色文本、图片;

更强大 → 默认使用双向注意力，摆脱自回归的限制;

3、为什么说这是颠覆性的研究？

传统多模态大语言模型里，视觉 token 几乎是“外挂”，只能处理图像场景。文本才是核心。一万英文单词，原本是 15,000 个文本 token，但视觉 token 可能需要 30,000~60,000 个。这就是为什么过去视觉 token 的效率低，不适合作为主力输入。

但是，DeepSeek 改变了这一切：压缩技术让视觉 token 压缩效率比文本 token 高 10 倍！

原本 10,000 个单词，现在只需约 1,500 个视觉 token 就够了。

这和人类大脑处理文字的方式有点类似：我们回忆书本内容时，往往以视觉定位为主，而不是逐字回忆。

换句话说，DeepSeek 给 LLM 开辟了一条“视觉思维”的道路：让模型以视觉方式理解世界，而不仅仅是文字。

4、DeepSeek开源,让一切都可实验!

不同于谷歌、OpenAI 等闭门研究，DeepSeek 直接开源了模型权重和方法细节。

Hacker News 上热议不断;

Django 联合创始人 Simon Willison 成功在 NVIDIA Spark 上开跑模型；

科技视频博主 NiceKate AI 也在 Mac 上成功部署；

这意味着，任何人都可以验证、改进、探索这一突破。未来几年，谁先把视觉输入和稀疏注意力结合，谁就可能拿到大模型的新“性能天花板”。

5、不是首创，但仍很厉害！

类似思想早在 2022 年就有人提出：哥本哈根大学的 PIXEL 模型就用像素表示语言，但 DeepSeek 解决了压缩效率和上下文长度的核心问题。结合最近的稀疏注意力论文，这套技术有望让 LLM 轻松处理千万级 token 上下文，彻底颠覆大语言模型处理长文档的能力。

6、DeepSeek-OCR意味着什么？

设想一下：

企业内部文档全量输入 → 快速检索，不依赖外部搜索工具；

完整代码库放入上下文 → 每次只更新差异内容；

知识记忆能力提升 10 倍以上 → 模型就像物理学家 Hans Bethe，记住大量信息，无需中断查询；

这是 LLM 的工作记忆革命，彻底改变我们使用 AI 的方式。

视觉压缩时代来了吗？

DeepSeek-OCR 的出现，标志着大语言模型的范式正在悄然改变：未来，它们可能不再“读”文本，而是像人类一样“看”文本。长上下文、高效压缩、多模态理解——一切都在变得可能。