悄然兴起的革命:将文本转换为像素以节省token
这里有一个反直觉的事实:将文本渲染成图像可以使语言模型更便宜、更快。DeepSeek‑OCR 推广了一种“文本即图像”的流程,声称与传统的 OCR + LLM 设置相比,token成本最多可降低 10 倍。如果这听起来很奇怪——为什么要给一个语言问题添加计算机视觉?——那么这正是本文要解释的。
在本文中,我们将深入探讨“文本即图像”方法的工作原理、它为何能大幅减少token数量,以及它在何时优于传统的 OCR。我们还将研究一些极端情况、准确性方面的权衡,以及在生产环境中部署它的实用方法。
快速入门:什么是“文本即图像”方法?
- 传统流程:OCR(提取文本)→ 分块成token → 发送到 LLM → 按token付费。
- DeepSeek‑OCR 的方法:将内容保留为图像(或视觉友好的布局)→ 使用视觉编码器 + LLM → 按视觉补丁/特征token付费 → 选择性解码。
模型不会将页面扩展成数千个子词token,而是使用紧凑的视觉补丁网格。每个补丁编码的信息远多于一个子词token——尤其是对于密集的布局(表格、收据、表单、PDF)。这种编码效率是 DeepSeek‑OCR 的“文本即图像”方法将token成本降低高达 10 倍的核心原因。
为什么 OCR + LLM 工作流程中的token成本会激增
- 冗余的空格和样板文字:OCR 提取每个字符。分块将其扩展为许多子词token。
- 布局开销:页眉、页脚、页码和重复的法律文本都会增加token数量。
- 格式丢失:表格变成冗长的序列。一个结构化的 10×10 表格可能会膨胀成数千个token。
- 上下文窗口:长文档需要滑动窗口或检索流程,重复发送上下文。
相比之下,视觉编码器将页面处理为一组固定的补丁(例如,每页 768–2,048 个token),而与原始字符数无关。这是 DeepSeek‑OCR 设计背后的基本效率优势。
DeepSeek‑OCR 如何实现高达 10 倍的节省
可以将“文本即图像”堆栈视为四个层:
- 一个 PDF 页面变成 N 个视觉补丁(例如,每区域 14×14 = 196 个补丁;或平铺页面,约为 1–2k 个token)。
- 每个补丁都带有语义提示(字形形状、空间关系、字体线索),视觉-语言模型可以据此进行推理。
- 模型“看到”文档结构——表格、标题、标注——而无需将它们重新创建为冗长的文本描述。
- 对于检索,它可以选择相关区域,而不是流式传输整个页面。
- 模型可以只提取需要的:一个字段、一个表格、一个摘要,而不是输出整个文档文本。
- 重复的元素(徽标、页眉)在页面之间显示为相似的视觉token,从而实现更有效的注意力和缓存。
总而言之,这些选择解释了为什么 DeepSeek‑OCR 的“文本即图像”方法在表单、发票、科学 PDF 和长合同中将token成本降低高达 10 倍。
给我看看数学:一个大致的成本比较
场景:20 页合同,约 7,500 个单词(OCR + 格式化后约 10,000–12,000 个子词token)。
- 每个批次的输入token:8,000+(需要拆分、重复上下文)
- 每页的视觉token:约 1,000–2,000(通常在使用平铺/缩小时更少)
- 输出:每个任务 200–500 个token(专注解码)
- 总成本:通常是上述成本的一小部分,且重新发送次数更少
当在数百个文档中扩展时,累积节省的成本和延迟接近标题中的“高达 10 倍”——尤其是对于重复性、布局繁重的内容。
“文本即图像”在哪些方面优于传统 OCR
- 多语言或混合脚本:中文 + 英语 + 数学符号,其中 OCR 分割会使token膨胀
- 嘈杂的扫描件:印章、水印、倾斜的页面——视觉模型比脆弱的 OCR 流程更好地处理噪声
- 上下文 QA:在页面之间提出“哪个条款涵盖终止?”之类的问题,而无需重新发送所有文本
传统 OCR 仍然胜出的情况
- 具有完美保真度的全文导出:你需要干净、可复制的文本用于搜索/索引。
- 极低资源设备:如果你无法运行视觉编码器或大型 VLM,则简单的 OCR 在本地可能更便宜。
- 辅助功能工作流程:屏幕阅读器需要语义文本输出;除非你添加文本导出步骤,否则仅图像流程将不足以满足需求。
专家提示:混合使用。“文本即图像”用于推理和字段提取。回退到 OCR 以用于最终的可搜索存档或辅助功能层。
架构模式:一个实用的蓝图
使用此模块化模式来采用 DeepSeek‑OCR 原则,而无需重建你的堆栈:
- 接受 PDF、TIFF、扫描件;标准化分辨率(例如,144–192 DPI)
- 使用约束解码 ({JSON} 模式) 来获得结构化输出
- 需要时,可选的 OCR 传递以获得精确的文本字符串
此流程保持视觉token较低,缩小模型的焦点,并减少生成长度——这三个杠杆结合起来可实现重大节省。
准确性、可靠性和极端情况
- 低 DPI 下的精细文本:微小字体可能会被误读。对于怀疑有小文本的区域,使用自适应平铺或更高的 DPI。
- 手写:视觉模型有所帮助,但可能仍然需要特定于字段的微调或专门的手写识别器。
- 数学和代码块:视觉上下文有助于保持结构,但考虑使用选择性 OCR 以获得精确的语法保真度。
- 具有合并单元格的表格:布局注意力通常会有所帮助,但后处理规则可以提高可靠性(例如,标题推断、分隔符检查)。
基准测试提示:在任务级别(字段级 F1、表格准确性、QA 完全匹配)而不是原始字符错误率进行评估。
你控制的成本杠杆
- 降采样:降低 DPI 会减少视觉token;测试保持准确性不变的阈值。
- 区域门控:如果你只需要一个条款或一个表格,则永远不要发送完整页面。
- 输出约束:{JSON} 模式或正则表达式模式减少冗长的生成。
- 混合精度/量化:如果你是自托管,则 FP16/INT8 可以大幅降低计算和延迟。
实施示例(场景)
- 将输出约束为 {JSON} 模式(日期、供应商、货币、项目 [])
- 可选的 OCR 回退,用于发票 ID 以保证精确的字符串匹配
- 检索与查询相关的 1–3 个区域(“终止”、“转让”、“适用法律”)
- 要求 VLM 引用区域索引并以 ≤120 个token总结该条款
- 生成一份通俗易懂的摘要和一份方法清单;避免发送参考文献部分
这些模式最大限度地减少了输入和输出token,同时在重要的地方保持了准确性。
为什么是高达 10 倍而不是总是 10 倍?
Token节省取决于:
- 预处理/后处理:良好的区域选择和约束解码会放大收益
一般来说,预计为 2–4 倍 + 在复杂、多页、布局繁重的工作流程中会飙升至约 10 倍。
常见的误解
- 在 LLM 计费中,成本跟踪模型token,而不是原始文件大小。视觉补丁通常会替换数千个子词token。
- OCR 在布局语义、表格、印章和多语言噪声方面存在困难。视觉-语言模型直接对结构进行推理。
- 对于像素完美的字符串来说是这样。这就是为什么许多团队仅在需要精确性的地方才将该方法与选择性 OCR 配对。
工具和集成说明
- 检索层:使用布局检测器 (DocLayNet-style),或为表单/表格训练轻量级区域提议模型。
- 模式约束解码:{JSON} 模式或 Pydantic-style 约束减少了冗长和错误。
- 评估工具:测量回答时间、每个文档的成本和字段级准确性——而不仅仅是token计数。
- 隐私:对于敏感文档,请考虑本地 VLMs,并确保视觉嵌入的加密存储。
值得注意的是:如果你正在探索多模式工作流程,Sider.AI 可以简化实验。你可以迭代文本和图像输入的提示,并排比较跨模型的成本/延迟,并自动生成评估批次。这使得更容易验证 DeepSeek‑OCR 的“文本即图像”方法是否真的在你的数据上将你的token成本降低高达 10 倍,然后再你提交到迁移。 行动计划:一周内进行试点
- 第 1–2 天:分析你当前的 OCR + LLM 流程。记录每个任务的输入/输出token、延迟和准确性。
- 第 3 天:添加视觉嵌入步骤和区域检索。缓存每页嵌入。
- 第 4 天:将你的 LLM 调用交换为针对目标区域的 VLM。约束输出。
- 第 5 天:在 100–500 个文档上运行 A/B 比较。跟踪成本差异、准确性和错误模式。
- 第 6–7 天:调整 DPI、平铺和区域门控;添加选择性 OCR 回退。
如果数字符合预期,则扩展到全面推广;如果不是,则专注于更好的区域选择和更严格的解码以实现节省。
主要收获
- DeepSeek‑OCR 的“文本即图像”方法通过用紧凑的视觉补丁替换冗长的文本token、使用区域级检索和最大限度地减少生成,将token成本降低高达 10 倍。
- 混合策略——视觉用于推理,选择性 OCR 用于精确字符串——通常可提供最佳的准确性-成本比。
- 严格的测量和严格的输出约束是实现实际节省的最快途径。
展望未来:一个简短的未来预测
随着多模式 LLM 的成熟,预计文档理解将收敛于以视觉为先的推理,并按需进行文本恢复。我们将看到更多布局感知的预训练、更便宜的视觉token和标准的 {JSON} 约束输出。对于今天正在与 LLM 成本作斗争的团队来说,切换到“文本即图像”可能是影响最大的杠杆——尤其是在规模化的情况下。
常见问题解答
Q1:用简单的术语来说,DeepSeek‑OCR 的“文本即图像”方法是什么?
DeepSeek‑OCR 没有使用 OCR 将页面转换为长字符串,而是将内容保留为图像,并使用视觉-语言模型来对布局进行推理。这减少了输入token,通常可将成本降低高达 10 倍。
Q2:与 OCR 相比,“文本即图像”如何降低token成本?
视觉token(补丁)总结了文本和布局的大区域,替换了数千个子词token。区域级检索和约束解码进一步减少了输入和输出token。
Q3:DeepSeek‑OCR 比传统 OCR 更准确吗?
对于布局理解和有针对性的提取,它的性能通常更好,因为它会对结构进行推理。对于精确、字符完美的文本,将其与选择性 OCR 配对可以产生最高的准确性。
Q4:我应该在什么情况下选择经典 OCR 而不是“文本即图像”流程?
如果你需要完整的、可复制的文本用于搜索或辅助功能,请使用经典 OCR。对于复杂 PDF 上经济高效的提取、摘要和 QA,“文本即图像”方法通常更优越。
Q5:如何试点 DeepSeek‑OCR 以验证高达 10 倍的节省?
在你具有代表性的文档上对你当前的 OCR + LLM 流程进行基准测试,然后换入具有区域门控和模式约束输出的视觉-语言模型。并排比较token计数、延迟和任务准确性。