How does DeepSeek‑OCR achieve 20× token reduction in practice?

By combining region filtering, schema‑based normalization, deduplication, content‑aware summarization, and compact serialization. These steps strip irrelevant and redundant text so the LLM sees only token‑efficient, task‑aligned data.

Will token reduction with DeepSeek‑OCR hurt accuracy on invoices or receipts?

Not if you keep critical fields intact and use confidence thresholds. In many cases, accuracy improves because noise is removed and the model focuses on structured, relevant fields.

What document types benefit most from DeepSeek‑OCR token compression?

Table‑heavy, multi‑page business documents like invoices, purchase orders, shipping documents, and bank statements. Redundant headers and repeated entities compress especially well.

How do I integrate DeepSeek‑OCR with my LLM without blowing up prompts?

Store a compact semantic JSON and retrieve only the fields needed per question using tool/function calls. Keep tight JSON with short keys and stable ordering to minimize tokens.

Can I use [Sider.AI](https://sider.ai) with DeepSeek‑OCR for cost optimization?

Yes. [Sider.AI](https://sider.ai) can orchestrate experiments across OCR settings and serialization formats, benchmark token usage and accuracy, and help you reach consistent 10–20× reductions in production.

DeepSeek-OCR 如何實現 20 倍 Token 縮減

大膽聲明：在不損失意義的情況下，減少 20 倍 tokens

如果您因為冗長的收據、發票或掃描的 PDF 導致 LLM 費用飆升，那麼減少 20 倍 tokens 的承諾聽起來幾乎好得令人難以置信。然而，這正是最近的 DeepSeek‑OCR 流程正在實現的，它們在將任何內容傳遞給語言模型之前，將視覺文本壓縮成精簡的語義表示。更少的 tokens 輸入，更快的響應輸出，顯著降低的成本 — 而且通常在下游任務上具有更好的準確性。

在本說明中，我們將深入探討 DeepSeek‑OCR 如何實現這些減少，它在哪裡表現出色（以及在哪裡表現不佳），以及如何將其連接到實際工作流程中，例如文檔問答、RAG 和表單理解 — 而不會將您的數據變成一團糟。

—

快速入門：DeepSeek‑OCR 到底是什麼？

將 DeepSeek‑OCR 視為針對 LLM 時代工作負載優化的 OCR 優先視覺語言流程。DeepSeek‑OCR 不會將原始文本或圖像直接轉儲到通用模型中，而是：

以强大的版面感知能力，從圖像/PDF 中檢測和識別文本。

將該文本規範化並壓縮為結構化表示。

生成與下游提示對齊的 token 效率輸出。

結果是？您在每頁上花費的 tokens 更少，同時提高了 LLM 的信號雜訊比。

—

為什麼 tokens 在文檔上失控

大多數團隊從一種簡單的方法開始：將 PDF 轉換為文本，然後將所有內容塞入提示中。這就是成本爆炸的地方。原因如下：

版面膨脹：標題、頁腳、頁碼、浮水印和重複的內容會消耗 tokens。

冗餘語義：相同的供應商名稱出現在每一頁上；行項目重複標籤。

低價值文本：法律樣板、表格邊框或 OCR 雜訊。

無關區域：無法回答您問題的標誌、圖章、簽名。

DeepSeek‑OCR 使用有針對性的壓縮來攻擊這些層中的每一層。

—

減少 20 倍 tokens 背後的五個槓桿

DeepSeek‑OCR 並非單一技巧，而是結合了多種技術。確切的堆疊因實施而異，但這些是移動指標的核心槓桿。

1) 區域感知提取：不要讀取您不會使用的內容

視覺分割隔離文本塊、表格和鍵值區域。

過濾掉不相關的區域（標誌、裝飾性標題）。

下游提示可以僅請求選定的區域，例如，「項目表」、「帳單地址」、「總計」。結果：通過排除非答案區域，減少 2–5 倍。

2) 結構優先規範化：將版面壓縮為含義

DeepSeek‑OCR 不輸出原始的多行文本，而是輸出結構化的 JSON 或緊湊的架構。

範例：鍵值映射、作為陣列的表格行、具有 ID 的分層部分。

可選的規範化（日期格式、貨幣代碼）消除了 token 繁重的變化。結果：通過簡潔地表示版面，減少 3–8 倍。

3) 刪除重複數據和規範實體：一個 ID，多個提及

重複的實體（公司名稱、地址、策略標識符）映射到單個規範條目。

引用變為簡短的 ID，而不是長字串。結果：在重複文檔中減少 1.5–3 倍。

4) 內容感知摘要：保留事實，刪除無用信息

字段級別摘要器將冗長的段落壓縮為事實陳述。

針對特定領域調整的模式（例如，保險、物流、金融）保留了符合法規要求的詳細資訊。結果：根據冗長程度，減少 2–6 倍。

5) Token 最佳序列化：選擇 LLM 可以廉價解析的格式

具有短鍵的緊湊 JSON 或架構引導的元組。

避免冗長的 YAML、過多的空白和長嵌套標籤。

穩定的字段順序減少了跨批次的提示開銷。結果：純格式規則減少 1.2–2 倍。

堆疊在一起，這些槓桿通常在混亂的 PDF 上超過 10 倍，並且在多頁表單、發票和密集報告（尤其是在表格佔主導地位時）上可以達到 20 倍。

—

實際的流程是怎樣的？

讓我們來看一個實際的、面向解決方案的流程。您可以將其調整到您的基礎設施，無論您是在本地還是通過 API 運行 DeepSeek‑OCR。

提取和分割

輸入：掃描的 PDF、圖像或混合 PDF。

步驟：頁面檢測 → 區域提議 → 文本塊和表格檢測 → 雜訊過濾。

輸出：具有坐標和類型（標題/正文/頁腳、段落/表格、標誌/簽名）的區域圖。

識別和對齊

具有語言模型的高精度 OCR，用於拼寫偏差校正。

行合併、列對齊和表格單元格關聯。

輸出：錨定到坐標的文本節點 + 表格結構。

規範化為架構

為每個文檔類別選擇一個架構：發票、收據、提貨單、醫療記錄。

使用 regex + 分類器 + LLM 後備（用於邊緣案例）提取字段。

輸出：具有短而穩定的鍵的緊湊 JSON（例如，inv_id、issue_dt、due_dt、vendor_id、items[]）。

刪除重複數據和規範化

將供應商名稱/地址映射到規範 ID。

規範化貨幣、日期、單位；刪除樣板部分。

壓縮和序列化

可選：用於長筆記的內容感知摘要。

強制執行 token 廉價序列化（緊密 JSON、排序的鍵）。

LLM 界面

提供最小的、與問題對齊的上下文窗口。

通過函數/工具架構僅檢索與提示相關的字段。

這是 token 節省複合的時刻，因為您不再需要為向模型重新解釋整個文檔付費 — 您僅以最便宜的形式提供它需要的內容。

—

示例：將 5 頁發票轉換為減少 20 倍 tokens

基準（簡單）

5 頁 OCR 文本 → ~9,000–12,000 個 tokens，包括標題、頁腳、表格、法律註釋。

提示詢問：「總到期金額、按司法管轄區劃分的稅款以及任何滯納金是多少？」

模型在不相關的段落上浪費上下文。

使用 DeepSeek‑OCR 壓縮

區域過濾刪除標題/頁腳浮水印、樣板條款和重複的供應商詳細資訊。

表格提取將 items[] 輸出為 50 行 × 6 列 → 300 個緊湊單元格，而不是 1,500 多個單詞。

規範化縮小實體字串；重複數據刪除的地址被引用一次。

最終上下文：~450–600 個 tokens。

結果

減少 15–20 倍 tokens。

更快的延遲、更低的成本以及針對目標問題的更高準確性，因為消除了雜訊。

—

DeepSeek‑OCR 的優勢（以及劣勢）

優勢

結構化業務文檔：發票、收據、採購單、裝運標籤、銀行對帳單。

多頁一致性：重複的部分壓縮良好。

表格繁重的內容：通過陣列而不是散文獲得最大的 token 節省。

RAG 流程：預先規範化的塊提高了檢索精度。

局限性

手寫、高度風格化的文本：識別質量驅動一切。

法律意見/醫療敘述：大量摘要有失去細微差別的風險；考慮更高保真度的模式。

具有行跨度/列跨度的複雜表格：需要仔細的單元格映射和 QA。

缓解措施

在不確定的情況下，使用置信度閾值並回退到圖像裁剪。

保留雙重模式：緊湊的語義視圖和按需高保真視圖。

記錄架構字段和視覺坐標之間的對齊，以實現可追溯性。

—

如何將 DeepSeek‑OCR 與您的 LLM 堆疊集成

您可以立即遵循的以問題為導向的指南。

用戶在問什麼？

提前定義任務類別：總計提取、行項目 QA、實體匹配。

將每個任務映射到最小上下文：回答問題的少數字段。

我們如何存儲 OCR 輸出？

同時存儲：(1) 緊湊的語義 JSON 和 (2) 用於驗證的可選原始文本或頁面裁剪。

使用短鍵和穩定的排序來最小化每次調用上的 tokens。

我們如何僅檢索需要的內容？

將您的 LLM 調用包裝在工具/函數架構中，以便模型僅接收相關字段。

示例工具參數：totals、taxes_by_region[]、outstanding_balance、due_date、items[sku、qty、unit_price]。

我們如何保持高品質？

為每個字段添加置信度分數；設置人工審核的閾值。

保留返回頁面坐標的鏈接以實現可審計性。

運行差異測試：比較來自兩個獨立提取器的總計。

—

衡量 20 倍：要跟踪的內容

每頁 tokens（壓縮前與壓縮後）：您的核心 KPI。

每次查詢的延遲：減少應與 tokens 成線性關係，通常由於減少解析而更好。

目標問題的準確性：不要以正確性為代價。

人工參與率：目標是隨著信心的提高而隨著時間的推移降低。

提示：在您的前三個模板中運行一個 100 個文檔的基準測試。為每個工作流程建立一個預算（例如，每個文檔查詢 <$0.01），並迭代直到達到目標。

—

成本建模：用於財務批准的粗略計算

基準：每個文檔 10,000 個 tokens，價格為 $X/1M tokens → 每個 1,000 個 tokens $0.01 → 每個文檔 $0.10。

壓縮後：500 個 tokens → 每個文檔 $0.005。

在每月 10 萬個文檔的情況下：從 $10,000 降至 $500 — 降低 95%，還未計算延遲節省和減少重試。

數字會因提供商而異，但方向保持不變：先壓縮，後提問。

—

常見的陷阱（和快速修復）

過度摘要：丟失監管條款。修復：將必須保留的短語和部分列入白名單。

架構漂移：鍵隨時間變化。修復：對您的架構進行版本控制；拒絕未知的字段。

表格未對齊：相差一個單元格的錯誤。修復：視覺交叉檢查和總計重新計算驗證器。

提示膨脹：冗長的系統提示抵消了您的節省。修復：模板簡約和工具架構。

—

您可以在本週實施的真實場景

財務運營：使用減少 20 倍的 tokens 自動驗證發票總計和稅款；標記異常以供審核。

物流：從提貨單中提取集裝箱 ID、港口和日期；與 ERP 核對。

醫療保健管理：將 EOB 壓縮為標準化字段以進行索賠裁決。

零售：從收據中提取行項目以用於忠誠度和退貨工作流程。

—

值得注意的是：使用 Sider.AI 來實現流程運營

如果您正在將 OCR、規範化和 LLM 調用拼接在一起，那麼編排和迭代速度至關重要。順便說一句，Sider.AI 可以幫助團隊將其轉變為可重複的工作流程：您可以比較不同 OCR 設置之間的 token 使用情況，在序列化格式上運行 A/B 測試，並在不重寫膠水代碼的情況下對模型成本進行基準測試。回報是在減少 20 倍 tokens 的目標上更快地收斂。

—

主要要點

DeepSeek‑OCR 減少 20 倍 tokens 來自堆疊區域過濾、結構優先規範化、刪除重複數據、智能摘要和 token 最佳序列化。

在表格繁重的多頁業務文檔上節省最多。

保留雙重視圖：用於廉價 LLM 調用的緊湊語義層和用於審核的高保真後備。

無情地衡量：每頁 tokens、準確性和延遲 — 並迭代您的架構。

編排以實現規模：與檢索對齊的提示和工具架構使節省保持不變。

—

後續步驟：最小實施計劃

識別您的前三種文檔類型並定義緊湊的架構。

設置具有區域分割和表格提取的 DeepSeek‑OCR。

添加規範化和刪除重複數據；記錄每個字段的置信度。

使用短鍵序列化為緊密 JSON；強制執行穩定的排序。

將您的 LLM 提示包裝在僅使用所需字段的函數/工具架構中。

對 token 使用情況和準確性進行基準測試；迭代直到達到 10–20 倍。

常見問題

Q1：DeepSeek‑OCR 在實踐中如何實現減少 20 倍 tokens？通過結合區域過濾、基於架構的規範化、刪除重複數據、內容感知摘要和緊湊序列化。這些步驟剝離不相關和冗餘的文本，以便 LLM 僅看到 token 效率高、與任務對齊的數據。

Q2：使用 DeepSeek‑OCR 減少 tokens 會損害發票或收據的準確性嗎？如果您保持關鍵字段完好無損並使用置信度閾值，則不會。在許多情況下，準確性會提高，因為消除了雜訊，並且模型專注於結構化的相關字段。

Q3：哪些文檔類型最受益於 DeepSeek‑OCR token 壓縮？表格繁重的多頁業務文檔，如發票、採購訂單、裝運單據和銀行對帳單。冗餘的標題和重複的實體壓縮效果特別好。

Q4：如何在不擴展提示的情況下將 DeepSeek‑OCR 與我的 LLM 集成？存儲緊湊的語義 JSON，並使用工具/函數調用僅檢索每個問題所需的字段。保持緊密的 JSON，並使用短鍵和穩定的排序來最小化 tokens。

Q5：我可以使用 Sider.AI 與 DeepSeek‑OCR 進行成本優化嗎？是的。 Sider.AI 可以在 OCR 設置和序列化格式之間編排實驗，對 token 使用情況和準確性進行基準測試，並幫助您在生產中實現一致的 10–20 倍減少。

DeepSeek-OCR 如何實現 20 倍 Token 縮減 — 您需要了解的資訊