大胆的声明:减少 20 倍 token,而不会损失含义
如果您因为冗长的收据、发票或扫描的 PDF 文件而导致 LLM 账单飙升,那么减少 20 倍 token 的承诺听起来几乎好得令人难以置信。然而,这正是最新的 DeepSeek-OCR 管道正在实现的目标,它通过在将任何内容交给语言模型之前,将视觉文本压缩成精简的语义表示来实现。更少的 token 输入,更快的响应输出,显着降低的成本,并且通常在下游任务上具有更高的准确性。
在本说明中,我们将深入探讨 DeepSeek-OCR 如何实现这些减少,它的优势(以及不足之处)在哪里,以及如何将其连接到实际的工作流程中,例如文档 QA、RAG 和表单理解——而不会将您的数据变成一团浆糊。
—
快速入门:DeepSeek-OCR 到底是什么?
将 DeepSeek-OCR 视为针对 LLM 时代工作负载优化的 OCR 优先的视觉语言管道。DeepSeek-OCR 不是将原始文本或图像直接转储到通用模型中,而是:
- 以强大的布局感知能力检测和识别图像/PDF 中的文本。
结果呢?您在每页上花费的 token 要少得多,同时提高了 LLM 的信噪比。
—
为什么 token 在文档上失控
大多数团队从一种幼稚的方法开始:将 PDF 转换为文本,然后将所有内容塞入提示中。这就是成本爆炸的地方。原因如下:
- 布局膨胀:页眉、页脚、页码、水印和重复内容会消耗 token。
- 冗余语义:相同的供应商名称出现在每一页上;行项目重复标签。
- 低价值文本:法律样板文件、表格边框或 OCR 噪声。
DeepSeek-OCR 通过有针对性的压缩来处理这些层中的每一层。
—
减少 20 倍 token 背后的五个杠杆
DeepSeek-OCR 不是一个简单的技巧,而是结合了多种技术。确切的堆栈因实现而异,但这些是推动变化的。
1) 区域感知提取:不要读取您不会使用的内容
- 下游提示可以仅请求选定的区域,例如“项目表”、“帐单地址”、“总计”。
结果:通过排除非答案区域,减少 2-5 倍。
2) 结构优先的标准化:将布局压缩为含义
- DeepSeek-OCR 不是原始的多行文本,而是输出结构化的 JSON 或紧凑的模式。
- 示例:键值映射、作为数组的表格行、具有 ID 的分层部分。
- 可选的规范化(日期格式、货币代码)消除了 token 繁重的变化。
结果:通过简洁地表示布局,减少 3-8 倍。
3) 重复数据删除和规范实体:一个 ID,多次提及
- 重复的实体(公司名称、地址、策略标识符)映射到单个规范条目。
- 引用变为短 ID 而不是长字符串。
结果:重复文档减少 1.5-3 倍。
4) 内容感知摘要:保留事实,删除冗余
- 特定于领域的模式(例如,保险、物流、金融)保留了符合性关键的详细信息。
结果:根据详细程度,减少 2-6 倍。
5) Token 最佳序列化:选择 LLM 可以廉价解析的格式
- 稳定的字段顺序减少了跨批次的提示开销。
结果:通过纯粹的格式化规范,减少 1.2-2 倍。
堆叠在一起,这些杠杆通常在混乱的 PDF 上超过 10 倍,并且在多页表格、发票和密集报告上可以达到 20 倍,尤其是在表格占主导地位时。
—
该管道在实践中是什么样的?
让我们来看一个实用的、面向解决方案的流程。无论您是在本地还是通过 API 运行 DeepSeek-OCR,您都可以将其调整到您的基础设施。
- 步骤:页面检测 → 区域提议 → 文本块和表格检测 → 噪声过滤。
- 输出:一个区域映射,其中包含坐标和类型(页眉/正文/页脚、段落/表格、徽标/签名)。
- 为每个文档类选择一个模式:发票、收据、提货单、医疗记录。
- 使用正则表达式 + 分类器 + LLM 回退来提取字段以处理边缘情况。
- 输出:带有短而稳定的键的紧凑 JSON(例如,inv_id、issue_dt、due_dt、vendor_id、items[])。
- 强制执行 token 廉价序列化(紧凑 JSON,有序键)。
这是 token 节省复合的时候,因为您不再需要为向模型重新解释整个文档付费——您仅以最便宜的形式提供它所需的内容。
—
示例:将 5 页的发票转换为减少 20 倍的 token
基线(幼稚)
- 5 页 OCR 文本 → ~9,000–12,000 个 token,包括页眉、页脚、表格、法律注释。
- 提示询问:“到期总额、按司法管辖区划分的税款以及任何滞纳金是多少?”
使用 DeepSeek-OCR 压缩
- 区域过滤删除页眉/页脚水印、样板条款和重复的供应商详细信息。
- 表格提取将 items[] 输出为 50 行 × 6 列 → 300 个紧凑单元格,而不是 1,500 多个单词。
- 规范化缩小实体字符串;重复数据删除的地址引用一次。
结果
- 更快的延迟、更低的成本以及针对目标问题的更高的准确性,因为噪声已被消除。
—
DeepSeek-OCR 的优势(以及不足之处)
优势
- 结构化业务文档:发票、收据、采购订单、运输标签、银行对帐单。
- 表格繁重的内容:使用数组而不是散文可以节省最多的 token。
局限性
- 法律意见/医疗叙述:大量摘要会降低细微差别;考虑更高保真度的模式。
- 具有行跨度/列跨度的复杂表格:需要仔细的单元格映射和 QA。
缓解措施
—
如何将 DeepSeek-OCR 与您的 LLM 堆栈集成
您可以立即遵循的以问题为导向的指南。
用户在问什么?
- 提前定义任务类:总计提取、行项目 QA、实体匹配。
- 将每个任务映射到最小的上下文:回答问题的几个字段。
我们如何存储 OCR 输出?
- 同时存储以下内容:(1) 紧凑的语义 JSON 和 (2) 可选的原始文本或页面裁剪以进行验证。
- 使用短键和稳定的排序来最小化每次调用时的 token。
我们如何仅检索所需的内容?
- 将您的 LLM 调用包装在工具/函数模式中,以便模型仅接收相关字段。
- 示例工具参数:totals、taxes_by_region[]、outstanding_balance、due_date、items[sku, qty, unit_price]。
我们如何保持高质量?
—
测量 20 倍:要跟踪的内容
- 每页 token(之前与之后):您的核心 KPI。
- 每次查询的延迟:减少应该与 token 成线性关系,通常由于更少的解析而更好。
- 人工参与率:目标是随着信心的提高而随着时间的推移而降低。
提示:在您的前三个模板中运行 100 个文档的基准测试。为每个工作流程建立预算(例如,每次文档查询 <$0.01),并迭代直到达到目标。
—
成本建模:用于财务批准的粗略计算
- 基线:每个文档 10,000 个 token,价格为 $X/1M 个 token → 每 1,000 个 token $0.01 → 每个文档 $0.10。
- 压缩后:500 个 token → 每个文档 $0.005。
- 每月 10 万个文档:从 10,000 美元到 500 美元——减少 95%,在节省延迟和减少重试之前。
数字会因提供商而异,但方向不变:先压缩,后提问。
—
常见的陷阱(和快速修复)
- 过度摘要:丢失监管术语。修复:将必须保留的短语和部分列入白名单。
- 模式漂移:键随时间变化。修复:对您的模式进行版本控制;拒绝未知字段。
- 表格未对齐:相差一个单元格的错误。修复:视觉交叉检查和总计重新计算验证器。
- 提示膨胀:冗长的系统提示抵消了您的节省。修复:模板最小化和工具模式。
—
您可以在本周实施的真实场景
- 财务运营:使用减少 20 倍的 token 自动验证发票总额和税款;标记异常情况以供审核。
- 物流:从提货单中提取集装箱 ID、港口和日期;与 ERP 核对。
- 医疗保健管理:将 EOB 压缩为标准化字段以进行索赔裁决。
- 零售:从收据中提取行项目以用于会员和退货工作流程。
—
如果您将 OCR、标准化和 LLM 调用拼接在一起,那么编排和迭代速度很重要。顺便说一句,Sider.AI 可以帮助团队将其转化为可重复的工作流程:您可以比较不同 OCR 设置之间的 token 使用情况,在序列化格式上运行 A/B 测试,并对模型成本进行基准测试,而无需重写粘合代码。回报是更快地实现减少 20 倍 token 的目标。 —
主要收获
- DeepSeek-OCR 减少 20 倍 token 来自于堆叠区域过滤、结构优先的标准化、重复数据删除、智能摘要和 token 最佳序列化。
- 保持双重视图:用于廉价 LLM 调用的紧凑语义层和用于审核的高保真回退。
- 不断测量:每页 token、准确性和延迟 - 并迭代您的模式。
- 编排以实现规模:与检索对齐的提示和工具模式使节省保持不变。
—
后续步骤:最小的实施计划
- 设置具有区域分割和表格提取功能的 DeepSeek-OCR。
- 使用短键序列化为紧凑的 JSON;强制执行稳定的排序。
- 将您的 LLM 提示包装在仅使用所需字段的函数/工具模式中。
- 对 token 使用情况和准确性进行基准测试;迭代直到达到 10-20 倍。
常见问题解答
Q1:DeepSeek-OCR 在实践中如何实现减少 20 倍 token?
通过结合区域过滤、基于模式的标准化、重复数据删除、内容感知摘要和紧凑序列化。这些步骤剥离了不相关和冗余的文本,因此 LLM 仅看到 token 高效、与任务对齐的数据。
Q2:使用 DeepSeek-OCR 减少 token 会损害发票或收据的准确性吗?
如果您保持关键字段完整并使用置信度阈值,则不会。在许多情况下,准确性会提高,因为消除了噪声,并且模型专注于结构化、相关字段。
Q3:哪些文档类型最能从 DeepSeek-OCR token 压缩中受益?
表格繁重、多页的商业文档,如发票、采购订单、运输单据和银行对帐单。冗余的页眉和重复的实体压缩效果特别好。
Q4:如何将 DeepSeek-OCR 与我的 LLM 集成,而不会使提示爆炸?
存储一个紧凑的语义 JSON,并使用工具/函数调用仅检索每个问题所需的字段。保持紧凑的 JSON,其中包含短键和稳定的排序,以最大程度地减少 token。
Q5:我可以使用 Sider.AI 与 DeepSeek-OCR 一起进行成本优化吗?
是的。Sider.AI 可以编排跨 OCR 设置和序列化格式的实验,对 token 使用情况和准确性进行基准测试,并帮助您在生产中实现持续的 10-20 倍的减少。