DeepSeek-OCR一夜炸场:AI是“看”而不是“读”,一块A100每天看20万页
创始人
2025-10-21 18:23:28
0

AI圈炸了:DeepSeek 公开开源了全新模型 DeepSeek-OCR,一夜之间,GitHub 上就收获了 超过4000个星赞。整个LLM大模型的游戏规则,仿佛在一瞬间被它刷新。

DeepSeek OCR

1、1000字压缩成100个视觉 token?一块A100一天处理20万页!

DeepSeek-OCR 的处理方式让人瞠目结舌:1000 个字的文章只需 100 个视觉 token 就能表示,压缩效率高达十倍,精度还能保持在 97%。更惊人的是,一块英伟达 A100,每天可以处理 20 万页文档——你没看错,是每天 20 万页!

这意味着什么?大模型的长上下文问题,找到了新的突破口。过去你总担心上下文太长、显存撑不住,现在也许只需要把文本“变成图片”,模型就能轻松消化。

2、Karpathy都“露怯”了:LLM的未来是视觉输入?

OpenAI 联合创始人、前特斯拉自动驾驶总监 Andrej Karpathy 在推特上表示:

“也许更合理的是,LLM 的所有输入都应该是图像。即使碰巧有纯文本输入,也应该先渲染成图像再输入。”

换句话说,大语言模型不一定非要“读”文本,它们完全可以“看”文本。甚至连分词器这种老旧工具都可以砍掉——Karpathy 直言分词器很丑、历史包袱重,还可能带来安全漏洞。

视觉输入的好处显而易见:

更高压缩率 → 上下文窗口更长;

更通用 → 不止文本,还能包括粗体、彩色文本、图片;

更强大 → 默认使用双向注意力,摆脱自回归的限制;

3、为什么说这是颠覆性的研究?

传统多模态大语言模型里,视觉 token 几乎是“外挂”,只能处理图像场景。文本才是核心。一万英文单词,原本是 15,000 个文本 token,但视觉 token 可能需要 30,000~60,000 个。这就是为什么过去视觉 token 的效率低,不适合作为主力输入。

但是,DeepSeek 改变了这一切:压缩技术让视觉 token 压缩效率比文本 token 高 10 倍!

原本 10,000 个单词,现在只需约 1,500 个视觉 token 就够了。

这和人类大脑处理文字的方式有点类似:我们回忆书本内容时,往往以视觉定位为主,而不是逐字回忆。

换句话说,DeepSeek 给 LLM 开辟了一条“视觉思维”的道路:让模型以视觉方式理解世界,而不仅仅是文字。

4、DeepSeek开源,让一切都可实验!

不同于谷歌、OpenAI 等闭门研究,DeepSeek 直接开源了 模型权重和方法细节。

Hacker News 上热议不断;

Django 联合创始人 Simon Willison 成功在 NVIDIA Spark 上开跑模型;

科技视频博主 NiceKate AI 也在 Mac 上成功部署;

这意味着,任何人都可以验证、改进、探索这一突破。未来几年,谁先把视觉输入和稀疏注意力结合,谁就可能拿到大模型的新“性能天花板”。

5、不是首创,但仍很厉害!

类似思想早在 2022 年就有人提出:哥本哈根大学的 PIXEL 模型就用像素表示语言,但 DeepSeek 解决了压缩效率和上下文长度的核心问题。结合最近的稀疏注意力论文,这套技术有望让 LLM 轻松处理千万级 token 上下文,彻底颠覆大语言模型处理长文档的能力。

6、DeepSeek-OCR意味着什么?

设想一下:

企业内部文档全量输入 → 快速检索,不依赖外部搜索工具;

完整代码库放入上下文 → 每次只更新差异内容;

知识记忆能力提升 10 倍以上 → 模型就像物理学家 Hans Bethe,记住大量信息,无需中断查询;

这是 LLM 的工作记忆革命,彻底改变我们使用 AI 的方式。

视觉压缩时代来了吗?

DeepSeek-OCR 的出现,标志着大语言模型的范式正在悄然改变:未来,它们可能不再“读”文本,而是像人类一样“看”文本。长上下文、高效压缩、多模态理解——一切都在变得可能。

相关内容

热门资讯

原创 苹... 有不少朋友疑惑苹果iPhone 16 Pro和16 Pro Max有什么区别?该选择哪一款更好?各自...
2025年值得入手的2款智能手... 在科技飞速发展的今天,智能手表已成为我们生活中不可或缺的伙伴。无论是健康监测、信息提醒,还是时尚搭配...
2024年OPPO手机全攻略:... 手机已不仅仅是通讯工具,它更是我们记录生活、享受娱乐、提升工作效率的重要伙伴。随着科技的飞速发展,O...
原创 2... 从去年华为用上了麒麟芯片开始,华为的市场份额就蹭蹭的往上涨,当时抢购的人特别多,一时间还买不到现货,...
第五轮学科评估对比:西安交大突... 在之前的文章中,我们已经提及西安交通大学第五轮学科评估的表现可圈可点,新晋的3个A+学科:机械工程、...
vivo手机5g开关在哪里打开 vivo手机5G开关的打开方式可能因手机型号、系统版本及运营商网络支持情况的不同而有所差异。但总体来...
解决FaceTime无法使用的... FaceTime是苹果公司推出的一款视频通话应用,广泛应用于iPhone、iPad和Mac等设备上。...
steam官网无法访问?这个办... 对于广大游戏爱好者而言,Steam平台无疑是获取最新游戏资讯、购买游戏、与全球玩家互动的重要阵地。然...
原创 直... #热点周际赛# 随着科技的进步,儿童智能穿戴设备逐渐成为了家庭中的新宠。华为作为智能穿戴领域的领军者...
原创 麒... 为了普及原生鸿蒙(鸿蒙5.0),抢占更多的中端手机市场份额,华为nova系列今年开始计划一年两更,n...