• 首页
  • 博客
  • AI 工具
  • DeepSeek‑OCR 如何实现 20 倍 Token 缩减——你需要了解的一切

DeepSeek‑OCR 如何实现 20 倍 Token 缩减——你需要了解的一切

更新于 2025年10月23日

8 分钟


大胆的声明:减少 20 倍 token,而不会损失含义

如果您因为冗长的收据、发票或扫描的 PDF 文件而导致 LLM 账单飙升,那么减少 20 倍 token 的承诺听起来几乎好得令人难以置信。然而,这正是最新的 DeepSeek-OCR 管道正在实现的目标,它通过在将任何内容交给语言模型之前,将视觉文本压缩成精简的语义表示来实现。更少的 token 输入,更快的响应输出,显着降低的成本,并且通常在下游任务上具有更高的准确性。
在本说明中,我们将深入探讨 DeepSeek-OCR 如何实现这些减少,它的优势(以及不足之处)在哪里,以及如何将其连接到实际的工作流程中,例如文档 QA、RAG 和表单理解——而不会将您的数据变成一团浆糊。

快速入门:DeepSeek-OCR 到底是什么?

将 DeepSeek-OCR 视为针对 LLM 时代工作负载优化的 OCR 优先的视觉语言管道。DeepSeek-OCR 不是将原始文本或图像直接转储到通用模型中,而是:
  • 以强大的布局感知能力检测和识别图像/PDF 中的文本。
  • 将文本标准化并压缩为结构化表示。
  • 生成与下游提示对齐的 token 高效输出。
结果呢?您在每页上花费的 token 要少得多,同时提高了 LLM 的信噪比。

为什么 token 在文档上失控

大多数团队从一种幼稚的方法开始:将 PDF 转换为文本,然后将所有内容塞入提示中。这就是成本爆炸的地方。原因如下:
  • 布局膨胀:页眉、页脚、页码、水印和重复内容会消耗 token。
  • 冗余语义:相同的供应商名称出现在每一页上;行项目重复标签。
  • 低价值文本:法律样板文件、表格边框或 OCR 噪声。
  • 不相关的区域:无法回答您问题的徽标、图章、签名。
DeepSeek-OCR 通过有针对性的压缩来处理这些层中的每一层。

减少 20 倍 token 背后的五个杠杆

DeepSeek-OCR 不是一个简单的技巧,而是结合了多种技术。确切的堆栈因实现而异,但这些是推动变化的

1) 区域感知提取:不要读取您不会使用的内容

  • 视觉分割隔离文本块、表格和键值区域。
  • 过滤掉不相关的区域(徽标、装饰性标题)。
  • 下游提示可以仅请求选定的区域,例如“项目表”、“帐单地址”、“总计”。 结果:通过排除非答案区域,减少 2-5 倍。

2) 结构优先的标准化:将布局压缩为含义

  • DeepSeek-OCR 不是原始的多行文本,而是输出结构化的 JSON 或紧凑的模式。
  • 示例:键值映射、作为数组的表格行、具有 ID 的分层部分。
  • 可选的规范化(日期格式、货币代码)消除了 token 繁重的变化。 结果:通过简洁地表示布局,减少 3-8 倍。

3) 重复数据删除和规范实体:一个 ID,多次提及

  • 重复的实体(公司名称、地址、策略标识符)映射到单个规范条目。
  • 引用变为短 ID 而不是长字符串。 结果:重复文档减少 1.5-3 倍。

4) 内容感知摘要:保留事实,删除冗余

  • 字段级摘要器将冗长的段落压缩为事实陈述。
  • 特定于领域的模式(例如,保险、物流、金融)保留了符合性关键的详细信息。 结果:根据详细程度,减少 2-6 倍。

5) Token 最佳序列化:选择 LLM 可以廉价解析的格式

  • 带有短键的紧凑 JSON 或模式引导的元组。
  • 避免冗长的 YAML、过多的空格和长的嵌套标签。
  • 稳定的字段顺序减少了跨批次的提示开销。 结果:通过纯粹的格式化规范,减少 1.2-2 倍。
堆叠在一起,这些杠杆通常在混乱的 PDF 上超过 10 倍,并且在多页表格、发票和密集报告上可以达到 20 倍,尤其是在表格占主导地位时。

该管道在实践中是什么样的?

让我们来看一个实用的、面向解决方案的流程。无论您是在本地还是通过 API 运行 DeepSeek-OCR,您都可以将其调整到您的基础设施。
  1. 摄取和分割
  • 输入:扫描的 PDF、图像或混合 PDF。
  • 步骤:页面检测 → 区域提议 → 文本块和表格检测 → 噪声过滤。
  • 输出:一个区域映射,其中包含坐标和类型(页眉/正文/页脚、段落/表格、徽标/签名)。
  1. 识别和对齐
  • 使用语言模型进行拼写偏差校正的高精度 OCR。
  • 行合并、列对齐和表格单元格关联。
  • 输出:锚定到坐标的文本节点 + 表格结构。
  1. 标准化为模式
  • 为每个文档类选择一个模式:发票、收据、提货单、医疗记录。
  • 使用正则表达式 + 分类器 + LLM 回退来提取字段以处理边缘情况。
  • 输出:带有短而稳定的键的紧凑 JSON(例如,inv_id、issue_dt、due_dt、vendor_id、items[])。
  1. 重复数据删除和规范化
  • 将供应商名称/地址映射到规范 ID。
  • 标准化货币、日期、单位;删除样板部分。
  1. 压缩和序列化
  • 可选:用于长笔记的内容感知摘要。
  • 强制执行 token 廉价序列化(紧凑 JSON,有序键)。
  1. LLM 接口
  • 提供最小的、与问题对齐的上下文窗口。
  • 仅通过函数/工具模式检索与提示相关的字段。
这是 token 节省复合的时候,因为您不再需要为向模型重新解释整个文档付费——您仅以最便宜的形式提供它所需的内容。

示例:将 5 页的发票转换为减少 20 倍的 token

基线(幼稚)
  • 5 页 OCR 文本 → ~9,000–12,000 个 token,包括页眉、页脚、表格、法律注释。
  • 提示询问:“到期总额、按司法管辖区划分的税款以及任何滞纳金是多少?”
  • 模型在不相关的段落上浪费上下文。
使用 DeepSeek-OCR 压缩
  • 区域过滤删除页眉/页脚水印、样板条款和重复的供应商详细信息。
  • 表格提取将 items[] 输出为 50 行 × 6 列 → 300 个紧凑单元格,而不是 1,500 多个单词。
  • 规范化缩小实体字符串;重复数据删除的地址引用一次。
  • 最终上下文:~450–600 个 token。
结果
  • 减少 15-20 倍的 token。
  • 更快的延迟、更低的成本以及针对目标问题的更高的准确性,因为噪声已被消除。

DeepSeek-OCR 的优势(以及不足之处)

优势
  • 结构化业务文档:发票、收据、采购订单、运输标签、银行对帐单。
  • 多页一致性:重复的部分压缩良好。
  • 表格繁重的内容:使用数组而不是散文可以节省最多的 token。
  • RAG 管道:预先规范化的块提高了检索精度。
局限性
  • 手写、高度风格化的文本:识别质量驱动一切。
  • 法律意见/医疗叙述:大量摘要会降低细微差别;考虑更高保真度的模式。
  • 具有行跨度/列跨度的复杂表格:需要仔细的单元格映射和 QA。
缓解措施
  • 在不确定时,使用置信度阈值并回退到图像裁剪。
  • 保持双重模式:紧凑的语义视图和按需高保真视图。
  • 记录模式字段和视觉坐标之间的对齐以实现可追溯性。

如何将 DeepSeek-OCR 与您的 LLM 堆栈集成

您可以立即遵循的以问题为导向的指南。
用户在问什么?
  • 提前定义任务类:总计提取、行项目 QA、实体匹配。
  • 将每个任务映射到最小的上下文:回答问题的几个字段。
我们如何存储 OCR 输出?
  • 同时存储以下内容:(1) 紧凑的语义 JSON 和 (2) 可选的原始文本或页面裁剪以进行验证。
  • 使用短键和稳定的排序来最小化每次调用时的 token。
我们如何仅检索所需的内容?
  • 将您的 LLM 调用包装在工具/函数模式中,以便模型仅接收相关字段。
  • 示例工具参数:totals、taxes_by_region[]、outstanding_balance、due_date、items[sku, qty, unit_price]。
我们如何保持高质量?
  • 为每个字段添加置信度分数;设置人工审核的阈值。
  • 保留返回页面坐标的链接以进行可审计性。
  • 运行差异测试:比较来自两个独立提取器的总计。

测量 20 倍:要跟踪的内容

  • 每页 token(之前与之后):您的核心 KPI。
  • 每次查询的延迟:减少应该与 token 成线性关系,通常由于更少的解析而更好。
  • 目标问题的准确性:不要牺牲正确性。
  • 人工参与率:目标是随着信心的提高而随着时间的推移而降低。
提示:在您的前三个模板中运行 100 个文档的基准测试。为每个工作流程建立预算(例如,每次文档查询 <$0.01),并迭代直到达到目标。

成本建模:用于财务批准的粗略计算

  • 基线:每个文档 10,000 个 token,价格为 $X/1M 个 token → 每 1,000 个 token $0.01 → 每个文档 $0.10。
  • 压缩后:500 个 token → 每个文档 $0.005。
  • 每月 10 万个文档:从 10,000 美元到 500 美元——减少 95%,在节省延迟和减少重试之前。
数字会因提供商而异,但方向不变:先压缩,后提问。

常见的陷阱(和快速修复)

  • 过度摘要:丢失监管术语。修复:将必须保留的短语和部分列入白名单。
  • 模式漂移:键随时间变化。修复:对您的模式进行版本控制;拒绝未知字段。
  • 表格未对齐:相差一个单元格的错误。修复:视觉交叉检查和总计重新计算验证器。
  • 提示膨胀:冗长的系统提示抵消了您的节省。修复:模板最小化和工具模式。

您可以在本周实施的真实场景

  • 财务运营:使用减少 20 倍的 token 自动验证发票总额和税款;标记异常情况以供审核。
  • 物流:从提货单中提取集装箱 ID、港口和日期;与 ERP 核对。
  • 医疗保健管理:将 EOB 压缩为标准化字段以进行索赔裁决。
  • 零售:从收据中提取行项目以用于会员和退货工作流程。

值得注意的是:使用 Sider.AI 来实施管道

如果您将 OCR、标准化和 LLM 调用拼接在一起,那么编排和迭代速度很重要。顺便说一句,Sider.AI 可以帮助团队将其转化为可重复的工作流程:您可以比较不同 OCR 设置之间的 token 使用情况,在序列化格式上运行 A/B 测试,并对模型成本进行基准测试,而无需重写粘合代码。回报是更快地实现减少 20 倍 token 的目标。

主要收获

  • DeepSeek-OCR 减少 20 倍 token 来自于堆叠区域过滤、结构优先的标准化、重复数据删除、智能摘要和 token 最佳序列化。
  • 节省在表格繁重、多页的商业文档上最大。
  • 保持双重视图:用于廉价 LLM 调用的紧凑语义层和用于审核的高保真回退。
  • 不断测量:每页 token、准确性和延迟 - 并迭代您的模式。
  • 编排以实现规模:与检索对齐的提示和工具模式使节省保持不变。

后续步骤:最小的实施计划

  1. 确定您的前三种文档类型并定义紧凑的模式。
  1. 设置具有区域分割和表格提取功能的 DeepSeek-OCR。
  1. 添加规范化和重复数据删除;记录每个字段的置信度。
  1. 使用短键序列化为紧凑的 JSON;强制执行稳定的排序。
  1. 将您的 LLM 提示包装在仅使用所需字段的函数/工具模式中。
  1. 对 token 使用情况和准确性进行基准测试;迭代直到达到 10-20 倍。

常见问题解答

Q1:DeepSeek-OCR 在实践中如何实现减少 20 倍 token? 通过结合区域过滤、基于模式的标准化、重复数据删除、内容感知摘要和紧凑序列化。这些步骤剥离了不相关和冗余的文本,因此 LLM 仅看到 token 高效、与任务对齐的数据。
Q2:使用 DeepSeek-OCR 减少 token 会损害发票或收据的准确性吗? 如果您保持关键字段完整并使用置信度阈值,则不会。在许多情况下,准确性会提高,因为消除了噪声,并且模型专注于结构化、相关字段。
Q3:哪些文档类型最能从 DeepSeek-OCR token 压缩中受益? 表格繁重、多页的商业文档,如发票、采购订单、运输单据和银行对帐单。冗余的页眉和重复的实体压缩效果特别好。
Q4:如何将 DeepSeek-OCR 与我的 LLM 集成,而不会使提示爆炸? 存储一个紧凑的语义 JSON,并使用工具/函数调用仅检索每个问题所需的字段。保持紧凑的 JSON,其中包含短键和稳定的排序,以最大程度地减少 token。
Q5:我可以使用 Sider.AI 与 DeepSeek-OCR 一起进行成本优化吗? 是的。Sider.AI 可以编排跨 OCR 设置和序列化格式的实验,对 token 使用情况和准确性进行基准测试,并帮助您在生产中实现持续的 10-20 倍的减少。