What is DeepSeek‑OCR’s “text as image” approach in simple terms?

Instead of converting pages to long strings with OCR, DeepSeek‑OCR keeps content as images and uses a vision‑language model to reason over layout. This reduces input tokens and often cuts costs by up to 10×.

How does “text as image” reduce token costs compared to OCR?

Visual tokens (patches) summarize large regions of text and layout, replacing thousands of subword tokens. Region‑level retrieval and constrained decoding further slash both input and output tokens.

Is DeepSeek‑OCR more accurate than traditional OCR?

For layout understanding and targeted extraction, it often performs better because it reasons over structure. For exact, character‑perfect text, pairing it with selective OCR can yield the highest accuracy.

When should I prefer classic OCR over the “text as image” pipeline?

Use classic OCR if you need full, copyable text for search or accessibility. For cost‑efficient extraction, summaries, and QA on complex PDFs, the "text as image" approach is typically superior.

How can I pilot DeepSeek‑OCR to verify up to 10× savings?

Benchmark your current OCR + LLM pipeline on representative documents, then swap in a vision‑language model with region gating and schema‑constrained outputs. Compare token counts, latency, and task accuracy side‑by‑side.

为什么 DeepSeek-OCR 的“文本即图像”方法能将 Token 成本降低高达 10 倍

悄然兴起的革命：将文本转换为像素以节省token

这里有一个反直觉的事实：将文本渲染成图像可以使语言模型更便宜、更快。DeepSeek‑OCR 推广了一种“文本即图像”的流程，声称与传统的 OCR + LLM 设置相比，token成本最多可降低 10 倍。如果这听起来很奇怪——为什么要给一个语言问题添加计算机视觉？——那么这正是本文要解释的。

在本文中，我们将深入探讨“文本即图像”方法的工作原理、它为何能大幅减少token数量，以及它在何时优于传统的 OCR。我们还将研究一些极端情况、准确性方面的权衡，以及在生产环境中部署它的实用方法。

快速入门：什么是“文本即图像”方法？

传统流程：OCR（提取文本）→ 分块成token → 发送到 LLM → 按token付费。

DeepSeek‑OCR 的方法：将内容保留为图像（或视觉友好的布局）→ 使用视觉编码器 + LLM → 按视觉补丁/特征token付费 → 选择性解码。

模型不会将页面扩展成数千个子词token，而是使用紧凑的视觉补丁网格。每个补丁编码的信息远多于一个子词token——尤其是对于密集的布局（表格、收据、表单、PDF）。这种编码效率是 DeepSeek‑OCR 的“文本即图像”方法将token成本降低高达 10 倍的核心原因。

为什么 OCR + LLM 工作流程中的token成本会激增

冗余的空格和样板文字：OCR 提取每个字符。分块将其扩展为许多子词token。

布局开销：页眉、页脚、页码和重复的法律文本都会增加token数量。

格式丢失：表格变成冗长的序列。一个结构化的 10×10 表格可能会膨胀成数千个token。

上下文窗口：长文档需要滑动窗口或检索流程，重复发送上下文。

相比之下，视觉编码器将页面处理为一组固定的补丁（例如，每页 768–2,048 个token），而与原始字符数无关。这是 DeepSeek‑OCR 设计背后的基本效率优势。

DeepSeek‑OCR 如何实现高达 10 倍的节省

可以将“文本即图像”堆栈视为四个层：

视觉token化，而不是子词token化

一个 PDF 页面变成 N 个视觉补丁（例如，每区域 14×14 = 196 个补丁；或平铺页面，约为 1–2k 个token）。

每个补丁都带有语义提示（字形形状、空间关系、字体线索），视觉-语言模型可以据此进行推理。

布局感知推理

模型“看到”文档结构——表格、标题、标注——而无需将它们重新创建为冗长的文本描述。

对于检索，它可以选择相关区域，而不是流式传输整个页面。

稀疏解码（生成更少）

模型可以只提取需要的：一个字段、一个表格、一个摘要，而不是输出整个文档文本。

生成越少 = 输出token越少。

通过补丁重用进行压缩

重复的元素（徽标、页眉）在页面之间显示为相似的视觉token，从而实现更有效的注意力和缓存。

总而言之，这些选择解释了为什么 DeepSeek‑OCR 的“文本即图像”方法在表单、发票、科学 PDF 和长合同中将token成本降低高达 10 倍。

给我看看数学：一个大致的成本比较

场景：20 页合同，约 7,500 个单词（OCR + 格式化后约 10,000–12,000 个子词token）。

传统 OCR + LLM

每个批次的输入token：8,000+（需要拆分、重复上下文）

输出token（摘要、提取）：500–1,000

总成本：高，加上分块和重新查询带来的延迟

DeepSeek‑OCR “文本即图像”

每页的视觉token：约 1,000–2,000（通常在使用平铺/缩小时更少）

目标区域查询：一次文档的 10–30%

输出：每个任务 200–500 个token（专注解码）

总成本：通常是上述成本的一小部分，且重新发送次数更少

当在数百个文档中扩展时，累积节省的成本和延迟接近标题中的“高达 10 倍”——尤其是对于重复性、布局繁重的内容。

“文本即图像”在哪些方面优于传统 OCR

密集布局：表格、收据、发票、运输标签、医疗表单

多语言或混合脚本：中文 + 英语 + 数学符号，其中 OCR 分割会使token膨胀

嘈杂的扫描件：印章、水印、倾斜的页面——视觉模型比脆弱的 OCR 流程更好地处理噪声

结构化提取：提取特定字段、行项目或表格单元格

上下文 QA：在页面之间提出“哪个条款涵盖终止？”之类的问题，而无需重新发送所有文本

传统 OCR 仍然胜出的情况

具有完美保真度的全文导出：你需要干净、可复制的文本用于搜索/索引。

极低资源设备：如果你无法运行视觉编码器或大型 VLM，则简单的 OCR 在本地可能更便宜。

辅助功能工作流程：屏幕阅读器需要语义文本输出；除非你添加文本导出步骤，否则仅图像流程将不足以满足需求。

专家提示：混合使用。“文本即图像”用于推理和字段提取。回退到 OCR 以用于最终的可搜索存档或辅助功能层。

架构模式：一个实用的蓝图

使用此模块化模式来采用 DeepSeek‑OCR 原则，而无需重建你的堆栈：

摄取

接受 PDF、TIFF、扫描件；标准化分辨率（例如，144–192 DPI）

平铺长页面以保持补丁计数有界

视觉嵌入

运行视觉编码器以创建每个平铺/页面的密集嵌入

缓存嵌入以用于重复查询（分摊成本）

区域检索

使用布局检测来选择候选区域（标题、表格、签名块）

对视觉嵌入或轻量级检测器应用向量搜索

VLM 推理

仅使用选定的区域 + 任务提示来提示 VLM

使用约束解码 ({JSON} 模式) 来获得结构化输出

后处理

标准化字段（日期、金额、货币）

需要时，可选的 OCR 传递以获得精确的文本字符串

此流程保持视觉token较低，缩小模型的焦点，并减少生成长度——这三个杠杆结合起来可实现重大节省。

准确性、可靠性和极端情况

低 DPI 下的精细文本：微小字体可能会被误读。对于怀疑有小文本的区域，使用自适应平铺或更高的 DPI。

手写：视觉模型有所帮助，但可能仍然需要特定于字段的微调或专门的手写识别器。

数学和代码块：视觉上下文有助于保持结构，但考虑使用选择性 OCR 以获得精确的语法保真度。

具有合并单元格的表格：布局注意力通常会有所帮助，但后处理规则可以提高可靠性（例如，标题推断、分隔符检查）。

基准测试提示：在任务级别（字段级 F1、表格准确性、QA 完全匹配）而不是原始字符错误率进行评估。

你控制的成本杠杆

降采样：降低 DPI 会减少视觉token；测试保持准确性不变的阈值。

区域门控：如果你只需要一个条款或一个表格，则永远不要发送完整页面。

输出约束：{JSON} 模式或正则表达式模式减少冗长的生成。

缓存：在多个问题中重用同一文档的视觉嵌入。

混合精度/量化：如果你是自托管，则 FP16/INT8 可以大幅降低计算和延迟。

实施示例（场景）

发票行项目提取

仅将行项目块和供应商框作为图像发送

将输出约束为 {JSON} 模式（日期、供应商、货币、项目 []）

可选的 OCR 回退，用于发票 ID 以保证精确的字符串匹配

合同条款 QA

每个页面视觉嵌入一次；存储在向量数据库中

检索与查询相关的 1–3 个区域（“终止”、“转让”、“适用法律”）

要求 VLM 引用区域索引并以 ≤120 个token总结该条款

科学 PDF 摘要

关注标题、摘要、图表和结论区域

生成一份通俗易懂的摘要和一份方法清单；避免发送参考文献部分

这些模式最大限度地减少了输入和输出token，同时在重要的地方保持了准确性。

为什么是高达 10 倍而不是总是 10 倍？

Token节省取决于：

文档密度：更重的布局受益更多

任务范围：有针对性的提取胜过全文再生

模型定价：视觉输入定价与文本输入定价因提供商而异

预处理/后处理：良好的区域选择和约束解码会放大收益

一般来说，预计为 2–4 倍 + 在复杂、多页、布局繁重的工作流程中会飙升至约 10 倍。

常见的误解

“图像比文本重，所以这肯定会花费更多。”

在 LLM 计费中，成本跟踪模型token，而不是原始文件大小。视觉补丁通常会替换数千个子词token。

“OCR 已经解决了，为什么要复杂化它？”

OCR 在布局语义、表格、印章和多语言噪声方面存在困难。视觉-语言模型直接对结构进行推理。

“你无法从图像中获得精确的文本。”

对于像素完美的字符串来说是这样。这就是为什么许多团队仅在需要精确性的地方才将该方法与选择性 OCR 配对。

工具和集成说明

检索层：使用布局检测器 (DocLayNet-style)，或为表单/表格训练轻量级区域提议模型。

模式约束解码：{JSON} 模式或 Pydantic-style 约束减少了冗长和错误。

评估工具：测量回答时间、每个文档的成本和字段级准确性——而不仅仅是token计数。

隐私：对于敏感文档，请考虑本地 VLMs，并确保视觉嵌入的加密存储。

值得注意的是：如果你正在探索多模式工作流程，Sider.AI 可以简化实验。你可以迭代文本和图像输入的提示，并排比较跨模型的成本/延迟，并自动生成评估批次。这使得更容易验证 DeepSeek‑OCR 的“文本即图像”方法是否真的在你的数据上将你的token成本降低高达 10 倍，然后再你提交到迁移。

行动计划：一周内进行试点

第 1–2 天：分析你当前的 OCR + LLM 流程。记录每个任务的输入/输出token、延迟和准确性。

第 3 天：添加视觉嵌入步骤和区域检索。缓存每页嵌入。

第 4 天：将你的 LLM 调用交换为针对目标区域的 VLM。约束输出。

第 5 天：在 100–500 个文档上运行 A/B 比较。跟踪成本差异、准确性和错误模式。

第 6–7 天：调整 DPI、平铺和区域门控；添加选择性 OCR 回退。

如果数字符合预期，则扩展到全面推广；如果不是，则专注于更好的区域选择和更严格的解码以实现节省。

主要收获

DeepSeek‑OCR 的“文本即图像”方法通过用紧凑的视觉补丁替换冗长的文本token、使用区域级检索和最大限度地减少生成，将token成本降低高达 10 倍。

它擅长于密集、混乱或多语言文档和结构化提取任务。

混合策略——视觉用于推理，选择性 OCR 用于精确字符串——通常可提供最佳的准确性-成本比。

严格的测量和严格的输出约束是实现实际节省的最快途径。

展望未来：一个简短的未来预测

随着多模式 LLM 的成熟，预计文档理解将收敛于以视觉为先的推理，并按需进行文本恢复。我们将看到更多布局感知的预训练、更便宜的视觉token和标准的 {JSON} 约束输出。对于今天正在与 LLM 成本作斗争的团队来说，切换到“文本即图像”可能是影响最大的杠杆——尤其是在规模化的情况下。

常见问题解答

Q1：用简单的术语来说，DeepSeek‑OCR 的“文本即图像”方法是什么？ DeepSeek‑OCR 没有使用 OCR 将页面转换为长字符串，而是将内容保留为图像，并使用视觉-语言模型来对布局进行推理。这减少了输入token，通常可将成本降低高达 10 倍。

Q2：与 OCR 相比，“文本即图像”如何降低token成本？视觉token（补丁）总结了文本和布局的大区域，替换了数千个子词token。区域级检索和约束解码进一步减少了输入和输出token。

Q3：DeepSeek‑OCR 比传统 OCR 更准确吗？对于布局理解和有针对性的提取，它的性能通常更好，因为它会对结构进行推理。对于精确、字符完美的文本，将其与选择性 OCR 配对可以产生最高的准确性。

Q4：我应该在什么情况下选择经典 OCR 而不是“文本即图像”流程？如果你需要完整的、可复制的文本用于搜索或辅助功能，请使用经典 OCR。对于复杂 PDF 上经济高效的提取、摘要和 QA，“文本即图像”方法通常更优越。

Q5：如何试点 DeepSeek‑OCR 以验证高达 10 倍的节省？在你具有代表性的文档上对你当前的 OCR + LLM 流程进行基准测试，然后换入具有区域门控和模式约束输出的视觉-语言模型。并排比较token计数、延迟和任务准确性。