What is DeepSeek‑OCR and why use it to compress chat histories for LLMs?

DeepSeek‑OCR enables Context Optical Compression—encoding large text spans as visual tokens that VLMs can process efficiently. This can shrink token budgets and preserve structure better than text‑only summarization while maintaining high fidelity for long contexts.

How does visual token compression compare to text summarization?

Visual token compression often achieves higher effective compression while retaining layout and exact phrasing, which helps with quotations, code, and error strings. Summarization is faster and simpler but can omit rare details or introduce abstraction errors.

Can I mix DeepSeek‑OCR with RAG for logs and chats?

Yes. Use text summaries for fast recall and attach OCR‑validated visual cards for depth. A two‑stage retriever can fetch abstracts first, then the most relevant cards, balancing precision and context coverage.

What layouts work best for OCR‑compressed context cards?

Use clean HTML/CSS with a title bar, two‑column content, monospace blocks for code, and clear bullets for highlights. Keep 200–400 words per card, 11–12 pt fonts or larger, and validate readability with an OCR round‑trip.

How do I measure whether compression is losing important information?

Track Fidelity@K against a gold set of facts, evidence coverage via line‑number citations, and latency/cost metrics. Target ≥95% fact retention and ensure most answers cite a card line or anchor ID.

DeepSeek-OCR 教學：壓縮聊天記錄、日誌與數據以用於 LLM

簡介：為何壓縮現在成為 LLM 的超能力如果您曾嘗試將一週的聊天記錄、遙測數據或多系統應用程式追蹤塞入提示中，您就會遇到上下文窗口的硬性限制。常用的方法（摘要、修剪、分塊）在信號丟失開始出現之前，只能做到這種程度。DeepSeek‑OCR 引入了一個引人注目的轉變：使用 OCR‑VLM 流程將文本壓縮為視覺令牌，以顯著縮小上下文，而不會丟棄含義。早期的社群報告引用了數量級的壓縮效率，透過利用視覺令牌而不是原始文本令牌，一些分析將這種範例描述為「上下文光學壓縮」，並將長上下文工作流程的「數千個文本令牌壓縮為數百個視覺令牌」。

在這個實用的、逐步的 DeepSeek‑OCR 教學中，您將學習如何壓縮 LLM 的聊天記錄、日誌和數據，同時保持檢索精度，以及如何將基於 OCR 的壓縮與摘要、分層分塊和 RAG 結合使用，以實現強大且低延遲的提示。

本指南適用於誰

必須攝取冗長聊天和活動軌跡的 AI 副駕駛的建構者

為 LLM 推理整理日誌、追蹤和指標的數據工程師

以有限的預算建構超長上下文工作流程原型設計的研究人員

一句話總結：如果您可以將龐大的文本轉換為 LLM 可以讀取的緊湊視覺表示，您就可以在不犧牲推理線索的情況下，重新獲得上下文預算。

什麼是 DeepSeek‑OCR 壓縮？核心思想

視覺令牌壓縮：將密集的文本跨度轉換為高資訊視覺嵌入；視覺令牌可能比等效的文本令牌更便宜、更緊湊。

上下文光學壓縮：使用 OCR/VLM 將大型文本上下文編碼為圖像或視覺結構化佈局，在削減令牌數量的同時保留語義結構。

長上下文工作流程：將數千個令牌壓縮為數百個視覺令牌，從而為規劃、工具使用或多輪推理提供更大的工作集。

何時使用它

具有重複措辭或可預測結構的聊天記錄

系統日誌、追蹤、建構輸出或分析轉儲

文件快照、儀表板或半結構化報告

您將在本教學中建構什麼您將實作一個流程來：

標準化和分割聊天/日誌數據。

選擇壓縮策略（OCR‑visual、文本摘要或混合）。

透過 DeepSeek‑OCR 產生緊湊的視覺表示。

使用元數據建立索引以進行檢索。

使用接受文本和圖像的混合 RAG 提示進行查詢。

評估保真度和成本。

第 1 節 — 數據準備：使混亂的歷史記錄對模型友好

標準化時間戳和角色：例如，{timestamp, role: message} → {delta_t, role: message}。

缺點：需要 VLM 支援；需要渲染和圖像 I/O。

使用時機：您需要長上下文保真度、圖表/表格或精確的措辭保留。

混合（推薦）

保留「骨骼」文本摘要以進行錨定 + 附加壓縮的視覺卡片以增加深度。

這平衡了檢索精度（文本）和召回/保真度（視覺）。

第 3 節 — 使用 DeepSeek‑OCR 建構視覺上下文卡片目標：將 5–20 KB 的文本跨度轉換為針對 OCR/VLM 閱讀進行優化的 512–1024 px 圖像。

範本建議

標題欄：會話 ID、時間範圍、主題標籤。

雙欄佈局：左欄用於關鍵輪次/日誌；右欄用於重點（錯誤、決策、命令、指標）。

用於代碼/日誌行的等寬區塊；用於上下文的項目符號摘要。

對比度友善的主題；避免小字體（在 1 倍縮放下 <11–12 pt）。

渲染提示

使用 HTML/CSS 產生乾淨、一致的卡片（例如，Puppeteer/Playwright 螢幕截圖）。

包括穩定的錨點（行號、ID）以在提示中引用特定項目。

每張卡片限制為 ~200–400 個單詞；為每個會話建立一疊卡片。

DeepSeek‑OCR 傳遞

運行 DeepSeek‑OCR 以確保往返保真度：卡片 → OCR 文本。這會仔細檢查您的佈局和字體是否能準確解碼。

如果 OCR 文本發散，請調整字體、間距或將密集的程式碼分成多張卡片。

為何有效社群和第三方文章指出，將文本上下文壓縮為視覺令牌，同時保持可讀性，可以顯著提高效率。

第 4 節 — 摘要層：保留骨骼，儲存肌肉實作分層摘要，以便您可以在需要時才提高分辨率。

L0：原子行/輪次標籤 — 角色、時間戳、類型（錯誤、注意、代碼）、嵌入。

L1：每個 20–40 輪次或 2–5 分鐘的日誌的微摘要（1–2 個句子）。

L2：會話摘要（5–8 個要點），包含決策、阻礙、結果以及視覺卡片的連結。

L3：線程之線程 — 每週或項目級別的匯總。

實用啟發法

始終包含逐字錨點：錯誤代碼、SQL ID、追蹤 ID、提交 SHA。

在抽象摘要之前使用提取摘要；然後使用抽象摘要進行完善以提高可讀性。

新增「自上次會話以來發生了哪些變化」要點，以加速趕上進度的提示。

第 5 節 — 混合 RAG 的索引和檢索元數據模式

doc_id, session_id, time_range, roles, topic labels

重要性分數、錯誤嚴重性、組件/服務

連結：{summary_id, card_id}.

將基於 OCR 的壓縮與分層摘要和 RAG 結合使用，以實現精確度和深度。

優化佈局、字體和索引，以保持高保真度和低延遲。

將壓縮卡片視為一級證據，並在提示中引用它們。

下一步

在一個聊天項目或日誌數據集上建構最小流程的原型。

針對 10 個典型查詢對純文本與混合壓縮進行 A/B 測試。

根據保真度指標調整卡片設計、檢索器組合和預算。

透過緩存、ACL 和監控擴展到團隊工作流程。

常見問題解答

Q1：什麼是 DeepSeek‑OCR，為什麼要使用它來壓縮 LLM 的聊天記錄？ DeepSeek‑OCR 實現了上下文光學壓縮—將大型文本跨度編碼為 VLM 可以有效處理的視覺令牌。與純文本摘要相比，這可以縮小令牌預算並更好地保留結構，同時為長上下文保持高保真度。

Q2：視覺令牌壓縮與文本摘要相比如何？視覺令牌壓縮通常實現更高的有效壓縮，同時保留佈局和精確的措辭，這有助於引言、代碼和錯誤字符串。摘要更快更簡單，但可能會省略罕見的細節或引入抽象錯誤。

Q3：我可以將 DeepSeek‑OCR 與 RAG 混合用於日誌和聊天嗎？可以。使用文本摘要進行快速回憶，並附加經過 OCR 驗證的視覺卡片以增加深度。兩階段檢索器可以先提取摘要，然後提取最相關的卡片，從而平衡精度和上下文覆蓋範圍。

Q4：哪些佈局最適合 OCR 壓縮的上下文卡片？使用乾淨的 HTML/CSS，其中包含標題欄、雙欄內容、用於代碼的等寬區塊以及用於重點的清晰項目符號。每張卡片保留 200–400 個單詞，11–12 pt 或更大的字體，並使用 OCR 往返驗證可讀性。

Q5：我如何衡量壓縮是否丟失了重要資訊？針對一組黃金事實追蹤 Fidelity@K，透過行號引用追蹤證據覆蓋範圍，以及延遲/成本指標。目標是 ≥95% 的事實保留率，並確保大多數答案引用卡片行或錨點 ID。