AI圈炸了:DeepSeek 公开开源了全新模型 DeepSeek-OCR,一夜之间,GitHub 上就收获了 超过4000个星赞。整个LLM大模型的游戏规则,仿佛在一瞬间被它刷新。
DeepSeek OCR
1、1000字压缩成100个视觉 token?一块A100一天处理20万页!
DeepSeek-OCR 的处理方式让人瞠目结舌:1000 个字的文章只需 100 个视觉 token 就能表示,压缩效率高达十倍,精度还能保持在 97%。更惊人的是,一块英伟达 A100,每天可以处理 20 万页文档——你没看错,是每天 20 万页!
这意味着什么?大模型的长上下文问题,找到了新的突破口。过去你总担心上下文太长、显存撑不住,现在也许只需要把文本“变成图片”,模型就能轻松消化。
2、Karpathy都“露怯”了:LLM的未来是视觉输入?
OpenAI 联合创始人、前特斯拉自动驾驶总监 Andrej Karpathy 在推特上表示:
“也许更合理的是,LLM 的所有输入都应该是图像。即使碰巧有纯文本输入,也应该先渲染成图像再输入。”
换句话说,大语言模型不一定非要“读”文本,它们完全可以“看”文本。甚至连分词器这种老旧工具都可以砍掉——Karpathy 直言分词器很丑、历史包袱重,还可能带来安全漏洞。
视觉输入的好处显而易见:
更高压缩率 → 上下文窗口更长;
更通用 → 不止文本,还能包括粗体、彩色文本、图片;
更强大 → 默认使用双向注意力,摆脱自回归的限制;
3、为什么说这是颠覆性的研究?
传统多模态大语言模型里,视觉 token 几乎是“外挂”,只能处理图像场景。文本才是核心。一万英文单词,原本是 15,000 个文本 token,但视觉 token 可能需要 30,000~60,000 个。这就是为什么过去视觉 token 的效率低,不适合作为主力输入。
但是,DeepSeek 改变了这一切:压缩技术让视觉 token 压缩效率比文本 token 高 10 倍!
原本 10,000 个单词,现在只需约 1,500 个视觉 token 就够了。
这和人类大脑处理文字的方式有点类似:我们回忆书本内容时,往往以视觉定位为主,而不是逐字回忆。
换句话说,DeepSeek 给 LLM 开辟了一条“视觉思维”的道路:让模型以视觉方式理解世界,而不仅仅是文字。
4、DeepSeek开源,让一切都可实验!
不同于谷歌、OpenAI 等闭门研究,DeepSeek 直接开源了 模型权重和方法细节。
Hacker News 上热议不断;
Django 联合创始人 Simon Willison 成功在 NVIDIA Spark 上开跑模型;
科技视频博主 NiceKate AI 也在 Mac 上成功部署;
这意味着,任何人都可以验证、改进、探索这一突破。未来几年,谁先把视觉输入和稀疏注意力结合,谁就可能拿到大模型的新“性能天花板”。
5、不是首创,但仍很厉害!
类似思想早在 2022 年就有人提出:哥本哈根大学的 PIXEL 模型就用像素表示语言,但 DeepSeek 解决了压缩效率和上下文长度的核心问题。结合最近的稀疏注意力论文,这套技术有望让 LLM 轻松处理千万级 token 上下文,彻底颠覆大语言模型处理长文档的能力。
6、DeepSeek-OCR意味着什么?
设想一下:
企业内部文档全量输入 → 快速检索,不依赖外部搜索工具;
完整代码库放入上下文 → 每次只更新差异内容;
知识记忆能力提升 10 倍以上 → 模型就像物理学家 Hans Bethe,记住大量信息,无需中断查询;
这是 LLM 的工作记忆革命,彻底改变我们使用 AI 的方式。
视觉压缩时代来了吗?
DeepSeek-OCR 的出现,标志着大语言模型的范式正在悄然改变:未来,它们可能不再“读”文本,而是像人类一样“看”文本。长上下文、高效压缩、多模态理解——一切都在变得可能。