簡介:為何壓縮現在成為 LLM 的超能力
如果您曾嘗試將一週的聊天記錄、遙測數據或多系統應用程式追蹤塞入提示中,您就會遇到上下文窗口的硬性限制。常用的方法(摘要、修剪、分塊)在信號丟失開始出現之前,只能做到這種程度。DeepSeek‑OCR 引入了一個引人注目的轉變:使用 OCR‑VLM 流程將文本壓縮為視覺令牌,以顯著縮小上下文,而不會丟棄含義。早期的社群報告引用了數量級的壓縮效率,透過利用視覺令牌而不是原始文本令牌,一些分析將這種範例描述為「上下文光學壓縮」,並將長上下文工作流程的「數千個文本令牌壓縮為數百個視覺令牌」。
在這個實用的、逐步的 DeepSeek‑OCR 教學中,您將學習如何壓縮 LLM 的聊天記錄、日誌和數據,同時保持檢索精度,以及如何將基於 OCR 的壓縮與摘要、分層分塊和 RAG 結合使用,以實現強大且低延遲的提示。
本指南適用於誰
- 必須攝取冗長聊天和活動軌跡的 AI 副駕駛的建構者
- 以有限的預算建構超長上下文工作流程原型設計的研究人員
一句話總結:如果您可以將龐大的文本轉換為 LLM 可以讀取的緊湊視覺表示,您就可以在不犧牲推理線索的情況下,重新獲得上下文預算。
什麼是 DeepSeek‑OCR 壓縮?核心思想
- 視覺令牌壓縮:將密集的文本跨度轉換為高資訊視覺嵌入;視覺令牌可能比等效的文本令牌更便宜、更緊湊。
- 上下文光學壓縮:使用 OCR/VLM 將大型文本上下文編碼為圖像或視覺結構化佈局,在削減令牌數量的同時保留語義結構。
- 長上下文工作流程:將數千個令牌壓縮為數百個視覺令牌,從而為規劃、工具使用或多輪推理提供更大的工作集。
何時使用它
您將在本教學中建構什麼
您將實作一個流程來:
- 選擇壓縮策略(OCR‑visual、文本摘要或混合)。
- 透過 DeepSeek‑OCR 產生緊湊的視覺表示。
第 1 節 — 數據準備:使混亂的歷史記錄對模型友好
- 標準化時間戳和角色:例如,{timestamp, role: message} → {delta_t, role: message}。
- 缺點:需要 VLM 支援;需要渲染和圖像 I/O。
- 使用時機:您需要長上下文保真度、圖表/表格或精確的措辭保留。
- 保留「骨骼」文本摘要以進行錨定 + 附加壓縮的視覺卡片以增加深度。
第 3 節 — 使用 DeepSeek‑OCR 建構視覺上下文卡片
目標:將 5–20 KB 的文本跨度轉換為針對 OCR/VLM 閱讀進行優化的 512–1024 px 圖像。
範本建議
- 雙欄佈局:左欄用於關鍵輪次/日誌;右欄用於重點(錯誤、決策、命令、指標)。
- 用於代碼/日誌行的等寬區塊;用於上下文的項目符號摘要。
- 對比度友善的主題;避免小字體(在 1 倍縮放下 <11–12 pt)。
渲染提示
- 使用 HTML/CSS 產生乾淨、一致的卡片(例如,Puppeteer/Playwright 螢幕截圖)。
- 包括穩定的錨點(行號、ID)以在提示中引用特定項目。
- 每張卡片限制為 ~200–400 個單詞;為每個會話建立一疊卡片。
DeepSeek‑OCR 傳遞
- 運行 DeepSeek‑OCR 以確保往返保真度:卡片 → OCR 文本。這會仔細檢查您的佈局和字體是否能準確解碼。
- 如果 OCR 文本發散,請調整字體、間距或將密集的程式碼分成多張卡片。
為何有效
社群和第三方文章指出,將文本上下文壓縮為視覺令牌,同時保持可讀性,可以顯著提高效率。
第 4 節 — 摘要層:保留骨骼,儲存肌肉
實作分層摘要,以便您可以在需要時才提高分辨率。
- L0:原子行/輪次標籤 — 角色、時間戳、類型(錯誤、注意、代碼)、嵌入。
- L1:每個 20–40 輪次或 2–5 分鐘的日誌的微摘要(1–2 個句子)。
- L2:會話摘要(5–8 個要點),包含決策、阻礙、結果以及視覺卡片的連結。
實用啟發法
- 始終包含逐字錨點:錯誤代碼、SQL ID、追蹤 ID、提交 SHA。
- 在抽象摘要之前使用提取摘要;然後使用抽象摘要進行完善以提高可讀性。
- 新增「自上次會話以來發生了哪些變化」要點,以加速趕上進度的提示。
第 5 節 — 混合 RAG 的索引和檢索
元數據模式
- doc_id, session_id, time_range, roles, topic labels
- 連結:{summary_id, card_id}.
- 將基於 OCR 的壓縮與分層摘要和 RAG 結合使用,以實現精確度和深度。
下一步
- 針對 10 個典型查詢對純文本與混合壓縮進行 A/B 測試。
常見問題解答
Q1:什麼是 DeepSeek‑OCR,為什麼要使用它來壓縮 LLM 的聊天記錄?
DeepSeek‑OCR 實現了上下文光學壓縮—將大型文本跨度編碼為 VLM 可以有效處理的視覺令牌。與純文本摘要相比,這可以縮小令牌預算並更好地保留結構,同時為長上下文保持高保真度。
Q2:視覺令牌壓縮與文本摘要相比如何?
視覺令牌壓縮通常實現更高的有效壓縮,同時保留佈局和精確的措辭,這有助於引言、代碼和錯誤字符串。摘要更快更簡單,但可能會省略罕見的細節或引入抽象錯誤。
Q3:我可以將 DeepSeek‑OCR 與 RAG 混合用於日誌和聊天嗎?
可以。使用文本摘要進行快速回憶,並附加經過 OCR 驗證的視覺卡片以增加深度。兩階段檢索器可以先提取摘要,然後提取最相關的卡片,從而平衡精度和上下文覆蓋範圍。
Q4:哪些佈局最適合 OCR 壓縮的上下文卡片?
使用乾淨的 HTML/CSS,其中包含標題欄、雙欄內容、用於代碼的等寬區塊以及用於重點的清晰項目符號。每張卡片保留 200–400 個單詞,11–12 pt 或更大的字體,並使用 OCR 往返驗證可讀性。
Q5:我如何衡量壓縮是否丟失了重要資訊?
針對一組黃金事實追蹤 Fidelity@K,透過行號引用追蹤證據覆蓋範圍,以及延遲/成本指標。目標是 ≥95% 的事實保留率,並確保大多數答案引用卡片行或錨點 ID。