聊天
Claw
Code
Wisebase
應用程式
定價
新增到Chrome
登入
登入
聊天
Claw
Code
Wisebase
應用程式
定價
返回主選單

透過 Sider 更快學習、更深入思考、更聰明成長。

產品
應用程式
  • 擴充功能
  • iOS
  • Android
  • Mac OS
  • Windows
Wisebase
  • Wisebase
  • Deep Research
  • Scholar Research
  • Math Solver
  • Rec NoteNew
  • Audio To Text
  • Gamified Learning
  • Interactive Reading
  • ChatPDF
工具
  • 網站產生器New
  • AI 投影片New
  • AI 論文寫作
  • Nano Banana Pro
  • Nano Banana Infographic
  • AI 圖像生成器
  • 意大利腦洞
  • 背景移除器
  • 背景更換器
  • 照片橡皮擦
  • 文字移除器
  • 修補
  • 圖像升級器
  • 創建
  • AI 翻譯器
  • 圖像翻譯器
  • PDF 翻譯器
Sider
  • 聯絡我們
  • 幫助中心
  • 下載
  • 定價
  • 教育優惠
  • 最新消息
  • 部落格
  • 社群
  • 合作夥伴
  • 聯盟
©2026 版權所有
使用條款
隱私政策
  • 首頁
  • 部落格
  • AI 工具
  • DeepSeek-OCR 如何實現 20 倍 Token 縮減 — 您需要了解的資訊

DeepSeek-OCR 如何實現 20 倍 Token 縮減 — 您需要了解的資訊

更新於 2025年10月23日

8 分鐘


大膽聲明:在不損失意義的情況下,減少 20 倍 tokens

如果您因為冗長的收據、發票或掃描的 PDF 導致 LLM 費用飆升,那麼減少 20 倍 tokens 的承諾聽起來幾乎好得令人難以置信。然而,這正是最近的 DeepSeek‑OCR 流程正在實現的,它們在將任何內容傳遞給語言模型之前,將視覺文本壓縮成精簡的語義表示。更少的 tokens 輸入,更快的響應輸出,顯著降低的成本 — 而且通常在下游任務上具有更好的準確性。
在本說明中,我們將深入探討 DeepSeek‑OCR 如何實現這些減少,它在哪裡表現出色(以及在哪裡表現不佳),以及如何將其連接到實際工作流程中,例如文檔問答、RAG 和表單理解 — 而不會將您的數據變成一團糟。
—

快速入門:DeepSeek‑OCR 到底是什麼?

將 DeepSeek‑OCR 視為針對 LLM 時代工作負載優化的 OCR 優先視覺語言流程。DeepSeek‑OCR 不會將原始文本或圖像直接轉儲到通用模型中,而是:
  • 以强大的版面感知能力,從圖像/PDF 中檢測和識別文本。
  • 將該文本規範化並壓縮為結構化表示。
  • 生成與下游提示對齊的 token 效率輸出。
結果是?您在每頁上花費的 tokens 更少,同時提高了 LLM 的信號雜訊比。
—

為什麼 tokens 在文檔上失控

大多數團隊從一種簡單的方法開始:將 PDF 轉換為文本,然後將所有內容塞入提示中。這就是成本爆炸的地方。原因如下:
  • 版面膨脹:標題、頁腳、頁碼、浮水印和重複的內容會消耗 tokens。
  • 冗餘語義:相同的供應商名稱出現在每一頁上;行項目重複標籤。
  • 低價值文本:法律樣板、表格邊框或 OCR 雜訊。
  • 無關區域:無法回答您問題的標誌、圖章、簽名。
DeepSeek‑OCR 使用有針對性的壓縮來攻擊這些層中的每一層。
—

減少 20 倍 tokens 背後的五個槓桿

DeepSeek‑OCR 並非單一技巧,而是結合了多種技術。確切的堆疊因實施而異,但這些是移動指標的核心槓桿。

1) 區域感知提取:不要讀取您不會使用的內容

  • 視覺分割隔離文本塊、表格和鍵值區域。
  • 過濾掉不相關的區域(標誌、裝飾性標題)。
  • 下游提示可以僅請求選定的區域,例如,「項目表」、「帳單地址」、「總計」。 結果:通過排除非答案區域,減少 2–5 倍。

2) 結構優先規範化:將版面壓縮為含義

  • DeepSeek‑OCR 不輸出原始的多行文本,而是輸出結構化的 JSON 或緊湊的架構。
  • 範例:鍵值映射、作為陣列的表格行、具有 ID 的分層部分。
  • 可選的規範化(日期格式、貨幣代碼)消除了 token 繁重的變化。 結果:通過簡潔地表示版面,減少 3–8 倍。

3) 刪除重複數據和規範實體:一個 ID,多個提及

  • 重複的實體(公司名稱、地址、策略標識符)映射到單個規範條目。
  • 引用變為簡短的 ID,而不是長字串。 結果:在重複文檔中減少 1.5–3 倍。

4) 內容感知摘要:保留事實,刪除無用信息

  • 字段級別摘要器將冗長的段落壓縮為事實陳述。
  • 針對特定領域調整的模式(例如,保險、物流、金融)保留了符合法規要求的詳細資訊。 結果:根據冗長程度,減少 2–6 倍。

5) Token 最佳序列化:選擇 LLM 可以廉價解析的格式

  • 具有短鍵的緊湊 JSON 或架構引導的元組。
  • 避免冗長的 YAML、過多的空白和長嵌套標籤。
  • 穩定的字段順序減少了跨批次的提示開銷。 結果:純格式規則減少 1.2–2 倍。
堆疊在一起,這些槓桿通常在混亂的 PDF 上超過 10 倍,並且在多頁表單、發票和密集報告(尤其是在表格佔主導地位時)上可以達到 20 倍。
—

實際的流程是怎樣的?

讓我們來看一個實際的、面向解決方案的流程。您可以將其調整到您的基礎設施,無論您是在本地還是通過 API 運行 DeepSeek‑OCR。
  1. 提取和分割
  • 輸入:掃描的 PDF、圖像或混合 PDF。
  • 步驟:頁面檢測 → 區域提議 → 文本塊和表格檢測 → 雜訊過濾。
  • 輸出:具有坐標和類型(標題/正文/頁腳、段落/表格、標誌/簽名)的區域圖。
  1. 識別和對齊
  • 具有語言模型的高精度 OCR,用於拼寫偏差校正。
  • 行合併、列對齊和表格單元格關聯。
  • 輸出:錨定到坐標的文本節點 + 表格結構。
  1. 規範化為架構
  • 為每個文檔類別選擇一個架構:發票、收據、提貨單、醫療記錄。
  • 使用 regex + 分類器 + LLM 後備(用於邊緣案例)提取字段。
  • 輸出:具有短而穩定的鍵的緊湊 JSON(例如,inv_id、issue_dt、due_dt、vendor_id、items[])。
  1. 刪除重複數據和規範化
  • 將供應商名稱/地址映射到規範 ID。
  • 規範化貨幣、日期、單位;刪除樣板部分。
  1. 壓縮和序列化
  • 可選:用於長筆記的內容感知摘要。
  • 強制執行 token 廉價序列化(緊密 JSON、排序的鍵)。
  1. LLM 界面
  • 提供最小的、與問題對齊的上下文窗口。
  • 通過函數/工具架構僅檢索與提示相關的字段。
這是 token 節省複合的時刻,因為您不再需要為向模型重新解釋整個文檔付費 — 您僅以最便宜的形式提供它需要的內容。
—

示例:將 5 頁發票轉換為減少 20 倍 tokens

基準(簡單)
  • 5 頁 OCR 文本 → ~9,000–12,000 個 tokens,包括標題、頁腳、表格、法律註釋。
  • 提示詢問:「總到期金額、按司法管轄區劃分的稅款以及任何滯納金是多少?」
  • 模型在不相關的段落上浪費上下文。
使用 DeepSeek‑OCR 壓縮
  • 區域過濾刪除標題/頁腳浮水印、樣板條款和重複的供應商詳細資訊。
  • 表格提取將 items[] 輸出為 50 行 × 6 列 → 300 個緊湊單元格,而不是 1,500 多個單詞。
  • 規範化縮小實體字串;重複數據刪除的地址被引用一次。
  • 最終上下文:~450–600 個 tokens。
結果
  • 減少 15–20 倍 tokens。
  • 更快的延遲、更低的成本以及針對目標問題的更高準確性,因為消除了雜訊。
—

DeepSeek‑OCR 的優勢(以及劣勢)

優勢
  • 結構化業務文檔:發票、收據、採購單、裝運標籤、銀行對帳單。
  • 多頁一致性:重複的部分壓縮良好。
  • 表格繁重的內容:通過陣列而不是散文獲得最大的 token 節省。
  • RAG 流程:預先規範化的塊提高了檢索精度。
局限性
  • 手寫、高度風格化的文本:識別質量驅動一切。
  • 法律意見/醫療敘述:大量摘要有失去細微差別的風險;考慮更高保真度的模式。
  • 具有行跨度/列跨度的複雜表格:需要仔細的單元格映射和 QA。
缓解措施
  • 在不確定的情況下,使用置信度閾值並回退到圖像裁剪。
  • 保留雙重模式:緊湊的語義視圖和按需高保真視圖。
  • 記錄架構字段和視覺坐標之間的對齊,以實現可追溯性。
—

如何將 DeepSeek‑OCR 與您的 LLM 堆疊集成

您可以立即遵循的以問題為導向的指南。
用戶在問什麼?
  • 提前定義任務類別:總計提取、行項目 QA、實體匹配。
  • 將每個任務映射到最小上下文:回答問題的少數字段。
我們如何存儲 OCR 輸出?
  • 同時存儲:(1) 緊湊的語義 JSON 和 (2) 用於驗證的可選原始文本或頁面裁剪。
  • 使用短鍵和穩定的排序來最小化每次調用上的 tokens。
我們如何僅檢索需要的內容?
  • 將您的 LLM 調用包裝在工具/函數架構中,以便模型僅接收相關字段。
  • 示例工具參數:totals、taxes_by_region[]、outstanding_balance、due_date、items[sku、qty、unit_price]。
我們如何保持高品質?
  • 為每個字段添加置信度分數;設置人工審核的閾值。
  • 保留返回頁面坐標的鏈接以實現可審計性。
  • 運行差異測試:比較來自兩個獨立提取器的總計。
—

衡量 20 倍:要跟踪的內容

  • 每頁 tokens(壓縮前與壓縮後):您的核心 KPI。
  • 每次查詢的延遲:減少應與 tokens 成線性關係,通常由於減少解析而更好。
  • 目標問題的準確性:不要以正確性為代價。
  • 人工參與率:目標是隨著信心的提高而隨著時間的推移降低。
提示:在您的前三個模板中運行一個 100 個文檔的基準測試。為每個工作流程建立一個預算(例如,每個文檔查詢 <$0.01),並迭代直到達到目標。
—

成本建模:用於財務批准的粗略計算

  • 基準:每個文檔 10,000 個 tokens,價格為 $X/1M tokens → 每個 1,000 個 tokens $0.01 → 每個文檔 $0.10。
  • 壓縮後:500 個 tokens → 每個文檔 $0.005。
  • 在每月 10 萬個文檔的情況下:從 $10,000 降至 $500 — 降低 95%,還未計算延遲節省和減少重試。
數字會因提供商而異,但方向保持不變:先壓縮,後提問。
—

常見的陷阱(和快速修復)

  • 過度摘要:丟失監管條款。修復:將必須保留的短語和部分列入白名單。
  • 架構漂移:鍵隨時間變化。修復:對您的架構進行版本控制;拒絕未知的字段。
  • 表格未對齊:相差一個單元格的錯誤。修復:視覺交叉檢查和總計重新計算驗證器。
  • 提示膨脹:冗長的系統提示抵消了您的節省。修復:模板簡約和工具架構。
—

您可以在本週實施的真實場景

  • 財務運營:使用減少 20 倍的 tokens 自動驗證發票總計和稅款;標記異常以供審核。
  • 物流:從提貨單中提取集裝箱 ID、港口和日期;與 ERP 核對。
  • 醫療保健管理:將 EOB 壓縮為標準化字段以進行索賠裁決。
  • 零售:從收據中提取行項目以用於忠誠度和退貨工作流程。
—

值得注意的是:使用 Sider.AI 來實現流程運營

如果您正在將 OCR、規範化和 LLM 調用拼接在一起,那麼編排和迭代速度至關重要。順便說一句,Sider.AI 可以幫助團隊將其轉變為可重複的工作流程:您可以比較不同 OCR 設置之間的 token 使用情況,在序列化格式上運行 A/B 測試,並在不重寫膠水代碼的情況下對模型成本進行基準測試。回報是在減少 20 倍 tokens 的目標上更快地收斂。
—

主要要點

  • DeepSeek‑OCR 減少 20 倍 tokens 來自堆疊區域過濾、結構優先規範化、刪除重複數據、智能摘要和 token 最佳序列化。
  • 在表格繁重的多頁業務文檔上節省最多。
  • 保留雙重視圖:用於廉價 LLM 調用的緊湊語義層和用於審核的高保真後備。
  • 無情地衡量:每頁 tokens、準確性和延遲 — 並迭代您的架構。
  • 編排以實現規模:與檢索對齊的提示和工具架構使節省保持不變。
—

後續步驟:最小實施計劃

  1. 識別您的前三種文檔類型並定義緊湊的架構。
  1. 設置具有區域分割和表格提取的 DeepSeek‑OCR。
  1. 添加規範化和刪除重複數據;記錄每個字段的置信度。
  1. 使用短鍵序列化為緊密 JSON;強制執行穩定的排序。
  1. 將您的 LLM 提示包裝在僅使用所需字段的函數/工具架構中。
  1. 對 token 使用情況和準確性進行基準測試;迭代直到達到 10–20 倍。

常見問題

Q1:DeepSeek‑OCR 在實踐中如何實現減少 20 倍 tokens? 通過結合區域過濾、基於架構的規範化、刪除重複數據、內容感知摘要和緊湊序列化。這些步驟剝離不相關和冗餘的文本,以便 LLM 僅看到 token 效率高、與任務對齊的數據。
Q2:使用 DeepSeek‑OCR 減少 tokens 會損害發票或收據的準確性嗎? 如果您保持關鍵字段完好無損並使用置信度閾值,則不會。在許多情況下,準確性會提高,因為消除了雜訊,並且模型專注於結構化的相關字段。
Q3:哪些文檔類型最受益於 DeepSeek‑OCR token 壓縮? 表格繁重的多頁業務文檔,如發票、採購訂單、裝運單據和銀行對帳單。冗餘的標題和重複的實體壓縮效果特別好。
Q4:如何在不擴展提示的情況下將 DeepSeek‑OCR 與我的 LLM 集成? 存儲緊湊的語義 JSON,並使用工具/函數調用僅檢索每個問題所需的字段。保持緊密的 JSON,並使用短鍵和穩定的排序來最小化 tokens。
Q5:我可以使用 Sider.AI 與 DeepSeek‑OCR 進行成本優化嗎? 是的。 Sider.AI 可以在 OCR 設置和序列化格式之間編排實驗,對 token 使用情況和準確性進行基準測試,並幫助您在生產中實現一致的 10–20 倍減少。

最新文章
如何精通 ChatPDF:從密集文件中更快獲取洞見

如何精通 ChatPDF:從密集文件中更快獲取洞見

快速且準確文件的最佳 X 自動翻譯替代方案

快速且準確文件的最佳 X 自動翻譯替代方案

三星 AI 翻譯在伊朗無法使用?實用解決方法

三星 AI 翻譯在伊朗無法使用?實用解決方法

波斯語翻譯工具:加速且精準工作的實用指南

波斯語翻譯工具:加速且精準工作的實用指南

深度且具引用的研究最佳Grok替代方案

深度且具引用的研究最佳Grok替代方案

您真正會用到的 AI 圖像生成器 15 大功能

您真正會用到的 AI 圖像生成器 15 大功能