大膽聲明:在不損失意義的情況下,減少 20 倍 tokens
如果您因為冗長的收據、發票或掃描的 PDF 導致 LLM 費用飆升,那麼減少 20 倍 tokens 的承諾聽起來幾乎好得令人難以置信。然而,這正是最近的 DeepSeek‑OCR 流程正在實現的,它們在將任何內容傳遞給語言模型之前,將視覺文本壓縮成精簡的語義表示。更少的 tokens 輸入,更快的響應輸出,顯著降低的成本 — 而且通常在下游任務上具有更好的準確性。
在本說明中,我們將深入探討 DeepSeek‑OCR 如何實現這些減少,它在哪裡表現出色(以及在哪裡表現不佳),以及如何將其連接到實際工作流程中,例如文檔問答、RAG 和表單理解 — 而不會將您的數據變成一團糟。
—
快速入門:DeepSeek‑OCR 到底是什麼?
將 DeepSeek‑OCR 視為針對 LLM 時代工作負載優化的 OCR 優先視覺語言流程。DeepSeek‑OCR 不會將原始文本或圖像直接轉儲到通用模型中,而是:
- 以强大的版面感知能力,從圖像/PDF 中檢測和識別文本。
結果是?您在每頁上花費的 tokens 更少,同時提高了 LLM 的信號雜訊比。
—
為什麼 tokens 在文檔上失控
大多數團隊從一種簡單的方法開始:將 PDF 轉換為文本,然後將所有內容塞入提示中。這就是成本爆炸的地方。原因如下:
- 版面膨脹:標題、頁腳、頁碼、浮水印和重複的內容會消耗 tokens。
- 冗餘語義:相同的供應商名稱出現在每一頁上;行項目重複標籤。
DeepSeek‑OCR 使用有針對性的壓縮來攻擊這些層中的每一層。
—
減少 20 倍 tokens 背後的五個槓桿
DeepSeek‑OCR 並非單一技巧,而是結合了多種技術。確切的堆疊因實施而異,但這些是移動指標的核心槓桿。
1) 區域感知提取:不要讀取您不會使用的內容
- 下游提示可以僅請求選定的區域,例如,「項目表」、「帳單地址」、「總計」。
結果:通過排除非答案區域,減少 2–5 倍。
2) 結構優先規範化:將版面壓縮為含義
- DeepSeek‑OCR 不輸出原始的多行文本,而是輸出結構化的 JSON 或緊湊的架構。
- 範例:鍵值映射、作為陣列的表格行、具有 ID 的分層部分。
- 可選的規範化(日期格式、貨幣代碼)消除了 token 繁重的變化。
結果:通過簡潔地表示版面,減少 3–8 倍。
3) 刪除重複數據和規範實體:一個 ID,多個提及
- 重複的實體(公司名稱、地址、策略標識符)映射到單個規範條目。
- 引用變為簡短的 ID,而不是長字串。
結果:在重複文檔中減少 1.5–3 倍。
4) 內容感知摘要:保留事實,刪除無用信息
- 針對特定領域調整的模式(例如,保險、物流、金融)保留了符合法規要求的詳細資訊。
結果:根據冗長程度,減少 2–6 倍。
5) Token 最佳序列化:選擇 LLM 可以廉價解析的格式
- 穩定的字段順序減少了跨批次的提示開銷。
結果:純格式規則減少 1.2–2 倍。
堆疊在一起,這些槓桿通常在混亂的 PDF 上超過 10 倍,並且在多頁表單、發票和密集報告(尤其是在表格佔主導地位時)上可以達到 20 倍。
—
實際的流程是怎樣的?
讓我們來看一個實際的、面向解決方案的流程。您可以將其調整到您的基礎設施,無論您是在本地還是通過 API 運行 DeepSeek‑OCR。
- 步驟:頁面檢測 → 區域提議 → 文本塊和表格檢測 → 雜訊過濾。
- 輸出:具有坐標和類型(標題/正文/頁腳、段落/表格、標誌/簽名)的區域圖。
- 為每個文檔類別選擇一個架構:發票、收據、提貨單、醫療記錄。
- 使用 regex + 分類器 + LLM 後備(用於邊緣案例)提取字段。
- 輸出:具有短而穩定的鍵的緊湊 JSON(例如,inv_id、issue_dt、due_dt、vendor_id、items[])。
- 強制執行 token 廉價序列化(緊密 JSON、排序的鍵)。
這是 token 節省複合的時刻,因為您不再需要為向模型重新解釋整個文檔付費 — 您僅以最便宜的形式提供它需要的內容。
—
示例:將 5 頁發票轉換為減少 20 倍 tokens
基準(簡單)
- 5 頁 OCR 文本 → ~9,000–12,000 個 tokens,包括標題、頁腳、表格、法律註釋。
- 提示詢問:「總到期金額、按司法管轄區劃分的稅款以及任何滯納金是多少?」
使用 DeepSeek‑OCR 壓縮
- 區域過濾刪除標題/頁腳浮水印、樣板條款和重複的供應商詳細資訊。
- 表格提取將 items[] 輸出為 50 行 × 6 列 → 300 個緊湊單元格,而不是 1,500 多個單詞。
- 規範化縮小實體字串;重複數據刪除的地址被引用一次。
結果
- 更快的延遲、更低的成本以及針對目標問題的更高準確性,因為消除了雜訊。
—
DeepSeek‑OCR 的優勢(以及劣勢)
優勢
- 結構化業務文檔:發票、收據、採購單、裝運標籤、銀行對帳單。
- 表格繁重的內容:通過陣列而不是散文獲得最大的 token 節省。
局限性
- 法律意見/醫療敘述:大量摘要有失去細微差別的風險;考慮更高保真度的模式。
- 具有行跨度/列跨度的複雜表格:需要仔細的單元格映射和 QA。
缓解措施
- 在不確定的情況下,使用置信度閾值並回退到圖像裁剪。
- 記錄架構字段和視覺坐標之間的對齊,以實現可追溯性。
—
如何將 DeepSeek‑OCR 與您的 LLM 堆疊集成
您可以立即遵循的以問題為導向的指南。
用戶在問什麼?
- 提前定義任務類別:總計提取、行項目 QA、實體匹配。
我們如何存儲 OCR 輸出?
- 同時存儲:(1) 緊湊的語義 JSON 和 (2) 用於驗證的可選原始文本或頁面裁剪。
- 使用短鍵和穩定的排序來最小化每次調用上的 tokens。
我們如何僅檢索需要的內容?
- 將您的 LLM 調用包裝在工具/函數架構中,以便模型僅接收相關字段。
- 示例工具參數:totals、taxes_by_region[]、outstanding_balance、due_date、items[sku、qty、unit_price]。
我們如何保持高品質?
—
衡量 20 倍:要跟踪的內容
- 每頁 tokens(壓縮前與壓縮後):您的核心 KPI。
- 每次查詢的延遲:減少應與 tokens 成線性關係,通常由於減少解析而更好。
- 人工參與率:目標是隨著信心的提高而隨著時間的推移降低。
提示:在您的前三個模板中運行一個 100 個文檔的基準測試。為每個工作流程建立一個預算(例如,每個文檔查詢 <$0.01),並迭代直到達到目標。
—
成本建模:用於財務批准的粗略計算
- 基準:每個文檔 10,000 個 tokens,價格為 $X/1M tokens → 每個 1,000 個 tokens $0.01 → 每個文檔 $0.10。
- 壓縮後:500 個 tokens → 每個文檔 $0.005。
- 在每月 10 萬個文檔的情況下:從 $10,000 降至 $500 — 降低 95%,還未計算延遲節省和減少重試。
數字會因提供商而異,但方向保持不變:先壓縮,後提問。
—
常見的陷阱(和快速修復)
- 過度摘要:丟失監管條款。修復:將必須保留的短語和部分列入白名單。
- 架構漂移:鍵隨時間變化。修復:對您的架構進行版本控制;拒絕未知的字段。
- 表格未對齊:相差一個單元格的錯誤。修復:視覺交叉檢查和總計重新計算驗證器。
- 提示膨脹:冗長的系統提示抵消了您的節省。修復:模板簡約和工具架構。
—
您可以在本週實施的真實場景
- 財務運營:使用減少 20 倍的 tokens 自動驗證發票總計和稅款;標記異常以供審核。
- 物流:從提貨單中提取集裝箱 ID、港口和日期;與 ERP 核對。
- 醫療保健管理:將 EOB 壓縮為標準化字段以進行索賠裁決。
- 零售:從收據中提取行項目以用於忠誠度和退貨工作流程。
—
值得注意的是:使用 Sider.AI 來實現流程運營
如果您正在將 OCR、規範化和 LLM 調用拼接在一起,那麼編排和迭代速度至關重要。順便說一句,Sider.AI 可以幫助團隊將其轉變為可重複的工作流程:您可以比較不同 OCR 設置之間的 token 使用情況,在序列化格式上運行 A/B 測試,並在不重寫膠水代碼的情況下對模型成本進行基準測試。回報是在減少 20 倍 tokens 的目標上更快地收斂。 —
主要要點
- DeepSeek‑OCR 減少 20 倍 tokens 來自堆疊區域過濾、結構優先規範化、刪除重複數據、智能摘要和 token 最佳序列化。
- 保留雙重視圖:用於廉價 LLM 調用的緊湊語義層和用於審核的高保真後備。
- 無情地衡量:每頁 tokens、準確性和延遲 — 並迭代您的架構。
- 編排以實現規模:與檢索對齊的提示和工具架構使節省保持不變。
—
後續步驟:最小實施計劃
- 設置具有區域分割和表格提取的 DeepSeek‑OCR。
- 使用短鍵序列化為緊密 JSON;強制執行穩定的排序。
- 將您的 LLM 提示包裝在僅使用所需字段的函數/工具架構中。
- 對 token 使用情況和準確性進行基準測試;迭代直到達到 10–20 倍。
常見問題
Q1:DeepSeek‑OCR 在實踐中如何實現減少 20 倍 tokens?
通過結合區域過濾、基於架構的規範化、刪除重複數據、內容感知摘要和緊湊序列化。這些步驟剝離不相關和冗餘的文本,以便 LLM 僅看到 token 效率高、與任務對齊的數據。
Q2:使用 DeepSeek‑OCR 減少 tokens 會損害發票或收據的準確性嗎?
如果您保持關鍵字段完好無損並使用置信度閾值,則不會。在許多情況下,準確性會提高,因為消除了雜訊,並且模型專注於結構化的相關字段。
Q3:哪些文檔類型最受益於 DeepSeek‑OCR token 壓縮?
表格繁重的多頁業務文檔,如發票、採購訂單、裝運單據和銀行對帳單。冗餘的標題和重複的實體壓縮效果特別好。
Q4:如何在不擴展提示的情況下將 DeepSeek‑OCR 與我的 LLM 集成?
存儲緊湊的語義 JSON,並使用工具/函數調用僅檢索每個問題所需的字段。保持緊密的 JSON,並使用短鍵和穩定的排序來最小化 tokens。
Q5:我可以使用 Sider.AI 與 DeepSeek‑OCR 進行成本優化嗎?
是的。 Sider.AI 可以在 OCR 設置和序列化格式之間編排實驗,對 token 使用情況和準確性進行基準測試,並幫助您在生產中實現一致的 10–20 倍減少。