悄然發生的革命:將文字轉換為像素以節省 token 成本
這裡有一個違反直覺的事實:將文字渲染為圖像可以使語言模型更便宜、更快速。DeepSeek‑OCR 普及了一種「將文字視為圖像」的流程,聲稱與傳統 OCR + LLM 設置相比,token 成本最多可降低 10 倍。如果這聽起來很奇怪——為什麼要將電腦視覺添加到語言問題中?——那麼這正是本文要解釋的起點。
在這篇深入探討中,我們將剖析「將文字視為圖像」的方法如何運作、為何能大幅減少 token 數量,以及它在何時能勝過傳統 OCR。我們還將研究邊緣情況、準確性方面的權衡,以及在生產環境中部署它的實用方法。
快速入門:什麼是「將文字視為圖像」的方法?
- 傳統流程:OCR(提取文字)→ 分塊成 token → 發送到 LLM → 按 token 付費。
- DeepSeek‑OCR 的方法:將內容保留為圖像(或視覺友好的佈局)→ 使用視覺編碼器 + LLM → 按視覺塊/特徵 token 付費 → 選擇性解碼。
模型不是將頁面展開為數千個子詞 token,而是消耗一個緊湊的視覺塊網格。每個塊編碼的信息遠多於一個子詞 token——尤其是對於密集的佈局(表格、收據、表單、PDF)。這種編碼效率是 DeepSeek‑OCR 的「將文字視為圖像」方法將 token 成本降低高達 10 倍的核心原因。
為何 token 成本在 OCR + LLM 工作流程中會膨脹
- 冗餘的空白和樣板文字:OCR 提取每個字符。分塊將其擴展為許多子詞 token。
- 佈局開銷:頁眉、頁腳、頁碼和重複的法律文字都會增加 token 數量。
- 格式丟失:表格變成冗長的序列。一個結構化的 10×10 表格可能會膨脹成數千個 token。
- 上下文窗口:長文檔需要滑動窗口或檢索流程,重複發送上下文。
相比之下,視覺編碼器將頁面處理為一組固定的塊(例如,每頁 768–2,048 個 token),這與原始字符數無關。這是 DeepSeek‑OCR 設計背後的基本效率優勢。
DeepSeek‑OCR 如何實現高達 10 倍的節省
將「將文字視為圖像」的堆疊視為四層:
- 一個 PDF 頁面變成 N 個視覺塊(例如,14×14 = 每個區域 196 個塊;或平鋪頁面約 1–2k 個 token)。
- 每個塊都帶有語義提示(字形形狀、空間關係、字體線索),視覺語言模型可以對其進行推理。
- 模型「看到」文檔結構——表格、標題、標註——而無需將它們重新創建為冗長的文字描述。
- 對於檢索,它可以選擇相關區域,而不是流式傳輸整個頁面。
- 模型不是輸出整個文檔文字,而是可以僅提取所需的內容:一個字段、一個表格、一個摘要。
- 重複的元素(徽標、標題)在頁面之間顯示為相似的視覺 token,從而實現更有效的注意力和緩存。
總體而言,這些選擇解釋了為什麼 DeepSeek‑OCR 的「將文字視為圖像」方法在表單、發票、科學 PDF 和長合同中將 token 成本降低高達 10 倍。
給我看數學:一個近似的成本比較
場景:20 頁合同,約 7,500 個單詞(OCR + 格式化後約 10,000–12,000 個子詞 token)。
- 每個批次的輸入 token:8,000+(需要拆分、重複的上下文)
- 輸出 token(摘要、提取):500–1,000
- 每個頁面的視覺 token:~1,000–2,000(通常在使用平鋪/縮小尺寸時更少)
- 輸出:每個任務 200–500 個 token(集中解碼)
- 總成本:通常是上述成本的一小部分,且重新發送次數更少
當擴展到數百個文檔時,累積節省的成本和延遲接近標題「高達 10 倍」——尤其是對於重複的、佈局繁重的内容。
「將文字視為圖像」在哪些方面勝過傳統 OCR
- 多語言或混合腳本:中文 + 英文 + 數學符號,其中 OCR 分裂會使 token 膨脹
- 有噪點的掃描件:印章、水印、傾斜的頁面——視覺模型對噪點的推理能力優於脆弱的 OCR 流程
- 上下文 QA:「哪個條款涵蓋終止?」跨頁面,無需重新發送所有文字
傳統 OCR 在何時仍然勝出
- 具有完美保真度的全文導出:您需要乾淨、可複製的文字來進行搜索/索引。
- 極低資源的設備:如果您無法運行視覺編碼器或大型 VLM,則簡單的 OCR 在本地可能更便宜。
- 輔助功能工作流程:屏幕閱讀器需要語義文字輸出;僅圖像流程是不夠的,除非您添加文字導出步驟。
專家提示:混合使用。「將文字視為圖像」用於推理和字段提取。回退到 OCR 以獲取最終的可搜索檔案或輔助功能層。
架構模式:一個實用的藍圖
使用此模塊化模式來採用 DeepSeek‑OCR 原則,而無需重建您的堆疊:
- 接受 PDF、TIFF、掃描件;標準化分辨率(例如,144–192 DPI)
- 使用約束解碼 ({JSON} 架構) 進行結構化輸出
- 可選的 OCR 傳遞,用於在需要時獲得精確的文字字符串
此流程保持視覺 token 低,縮小模型的關注範圍,並減少生成長度——這三個槓桿結合起來可實現大幅節省。
準確性、可靠性和邊緣情況
- 低 DPI 下的精細文字:微小字體可能會被誤讀。對可疑的小文字區域使用自適應平鋪或更高的 DPI。
- 手寫體:視覺模型有所幫助,但可能仍需要特定於字段的微調或專門的手寫識別器。
- 數學和代碼塊:視覺上下文有助於保留結構,但請考慮選擇性 OCR 以獲得精確的語法保真度。
- 具有合併單元格的表格:佈局注意力通常有所幫助,但後處理規則可以提高可靠性(例如,標題推斷、分隔符檢查)。
基準測試提示:在任務級別(字段級別 F1、表格準確性、QA 精確匹配)而不是原始字符錯誤率下進行評估。
您可以控制的成本槓桿
- 降採樣:降低 DPI 會減少視覺 token;測試保持準確性不變的閾值。
- 區域選通:如果您只需要一個條款或一個表格,則永遠不要發送完整的頁面。
- 輸出約束:{JSON} 架構或正則表達式模式可減少冗長的生成。
- 混合精度/量化:如果您是自託管,則 FP16/INT8 可以大幅降低計算和延遲。
實施範例(場景)
- 將輸出約束為 {JSON} 架構(日期、供應商、貨幣、項目 [])
- 可選的 OCR 回退,用於發票 ID 以保證精確的字符串匹配
- 檢索與查詢相關的 1–3 個區域(「終止」、「轉讓」、「管轄法律」)
- 要求 VLM 引用區域索引並以 ≤120 個 token 總結該條款
- 生成一個外行摘要和一個方法清單;避免發送參考文獻部分
這些模式最大限度地減少了輸入和輸出 token,同時在重要的方面保持了準確性。
為什麼是高達 10 倍,而不是總是 10 倍?
Token 節省取決於:
- 預處理/後處理:良好的區域選擇和約束解碼可放大收益
通常預期為 2–4 倍 + 在複雜、多頁、佈局繁重的工作流程中激增至 ~10 倍。
常見的誤解
- 在 LLM 計費中,成本跟蹤的是模型 token,而不是原始文件大小。視覺塊通常會取代數千個子詞 token。
- OCR 在佈局語義、表格、印章和多語言噪聲方面存在困難。視覺語言模型可以直接對結構進行推理。
- 對於像素完美的字符串來說是正確的。這就是為什麼許多團隊將該方法與僅在需要精確性的情況下才進行的選擇性 OCR 配對的原因。
工具和集成說明
- 檢索層:使用佈局檢測器(DocLayNet 風格),或為表單/表格訓練一個輕量級區域提案模型。
- 架構約束解碼:{JSON} Schema 或 Pydantic 風格的約束可減少冗長和錯誤。
- 評估工具:測量回答時間、每個文檔的成本和字段級別的準確性——而不僅僅是 token 計數。
- 隱私:對於敏感文檔,請考慮內部部署 VLM,並確保對視覺嵌入進行加密存儲。
值得注意的是:如果您正在探索多模式工作流程,Sider.AI 可以簡化實驗。您可以迭代文字和圖像輸入的提示,並排比較跨模型的成本/延遲,並自動生成評估批次。這使得在您致力於遷移之前,更容易驗證 DeepSeek‑OCR 的「將文字視為圖像」方法是否確實可以在您自己的數據上將 token 成本降低高達 10 倍。 行動計劃:在一周內進行試點
- 第 1–2 天:檢測您當前的 OCR + LLM 流程。記錄每個任務的輸入/輸出 token、延遲和準確性。
- 第 3 天:添加一個視覺嵌入步驟和區域檢索。緩存每個頁面的嵌入。
- 第 4 天:將您的 LLM 調用交換為 VLM 以獲取有針對性的區域。約束輸出。
- 第 5 天:在 100–500 個文檔上運行 A/B 比較。跟蹤成本變化、準確性和錯誤模式。
- 第 6–7 天:調整 DPI、平鋪和區域選通;添加選擇性 OCR 回退。
如果數字符合預期,則擴展到全面推出;如果沒有,則專注於更好的區域選擇和更嚴格的解碼以實現節省。
主要結論
- DeepSeek‑OCR 的「將文字視為圖像」方法通過用緊湊的視覺塊替換冗長的文字 token、使用區域級別檢索和最大限度地減少生成,將 token 成本降低高達 10 倍。
- 它擅長於密集的、混亂的或多語言的文檔和結構化提取任務。
- 混合策略——視覺用於推理,選擇性 OCR 用於精確字符串——通常可提供最佳的準確性與成本比率。
- 嚴格的測量和嚴格的輸出約束是實現真實世界節省的最快途徑。
展望未來:一個簡短的未來預測
隨著多模式 LLM 的成熟,預計文檔理解將融合到以視覺為先的推理,並按需進行文本恢復。我們將看到更多佈局感知預訓練、更便宜的視覺 token 和標準的 {JSON} 約束輸出。對於今天正在與 LLM 成本作戰的團隊來說,切換到「將文字視為圖像」可能是影響最大的槓桿——尤其是在規模上。
常見問題解答
Q1:用簡單的術語來說,DeepSeek‑OCR 的「將文字視為圖像」方法是什麼?
DeepSeek‑OCR 不是使用 OCR 將頁面轉換為長字符串,而是將內容保留為圖像,並使用視覺語言模型來推理佈局。這減少了輸入 token,通常可將成本降低高達 10 倍。
Q2:與 OCR 相比,「將文字視為圖像」如何降低 token 成本?
視覺 token(塊)總結了大量的文字和佈局區域,取代了數千個子詞 token。區域級別的檢索和約束解碼進一步削減了輸入和輸出 token。
Q3:DeepSeek‑OCR 比傳統 OCR 更準確嗎?
對於佈局理解和有針對性的提取,它通常表現更好,因為它可以對結構進行推理。對於精確的、字符完美的文字,將其與選擇性 OCR 配對可以產生最高的準確性。
Q4:我應該在什麼時候首選傳統 OCR 而不是「將文字視為圖像」流程?
如果您需要用於搜索或輔助功能的完整、可複製的文字,請使用傳統 OCR。對於複雜 PDF 上具有成本效益的提取、摘要和 QA,「將文字視為圖像」方法通常更勝一籌。
Q5:我如何試點 DeepSeek‑OCR 以驗證高達 10 倍的節省?
在代表性文檔上基準測試您當前的 OCR + LLM 流程,然後換入具有區域選通和架構約束輸出的視覺語言模型。並排比較 token 計數、延遲和任務準確性。