Sider.ai
  • 聊天
  • Wisebase
  • 工具
  • 瀏覽器插件
  • 客户端
  • 定價
立即下載
登入

透過 Sider 更快學習、更深入思考、更聰明成長。

產品
應用程式
  • 擴充功能
  • iOS
  • Android
  • Mac OS
  • Windows
Wisebase
  • Wisebase
  • Deep Research
  • Scholar Research
  • Math Solver
  • Rec NoteNew
  • Audio To Text
  • Gamified Learning
  • Interactive Reading
  • ChatPDF
工具
  • 網站產生器New
  • AI 投影片New
  • AI 論文寫作
  • Nano Banana Pro
  • Nano Banana Infographic
  • AI 圖像生成器
  • 意大利腦洞
  • 背景移除器
  • 背景更換器
  • 照片橡皮擦
  • 文字移除器
  • 修補
  • 圖像升級器
  • 創建
  • AI 翻譯器
  • 圖像翻譯器
  • PDF 翻譯器
Sider
  • 聯絡我們
  • 幫助中心
  • 下載
  • 定價
  • 教育優惠
  • 最新消息
  • 部落格
  • 社群
  • 合作夥伴
  • 聯盟
  • 邀請
©2026 版權所有
使用條款
隱私政策
  • 首頁
  • 部落格
  • AI 工具
  • DeepSeek-OCR 教學:壓縮聊天記錄、日誌與數據以用於 LLM

DeepSeek-OCR 教學:壓縮聊天記錄、日誌與數據以用於 LLM

更新於 2025年10月23日

5 分鐘


簡介:為何壓縮現在成為 LLM 的超能力 如果您曾嘗試將一週的聊天記錄、遙測數據或多系統應用程式追蹤塞入提示中,您就會遇到上下文窗口的硬性限制。常用的方法(摘要、修剪、分塊)在信號丟失開始出現之前,只能做到這種程度。DeepSeek‑OCR 引入了一個引人注目的轉變:使用 OCR‑VLM 流程將文本壓縮為視覺令牌,以顯著縮小上下文,而不會丟棄含義。早期的社群報告引用了數量級的壓縮效率,透過利用視覺令牌而不是原始文本令牌,一些分析將這種範例描述為「上下文光學壓縮」,並將長上下文工作流程的「數千個文本令牌壓縮為數百個視覺令牌」。
在這個實用的、逐步的 DeepSeek‑OCR 教學中,您將學習如何壓縮 LLM 的聊天記錄、日誌和數據,同時保持檢索精度,以及如何將基於 OCR 的壓縮與摘要、分層分塊和 RAG 結合使用,以實現強大且低延遲的提示。
本指南適用於誰
  • 必須攝取冗長聊天和活動軌跡的 AI 副駕駛的建構者
  • 為 LLM 推理整理日誌、追蹤和指標的數據工程師
  • 以有限的預算建構超長上下文工作流程原型設計的研究人員
一句話總結:如果您可以將龐大的文本轉換為 LLM 可以讀取的緊湊視覺表示,您就可以在不犧牲推理線索的情況下,重新獲得上下文預算。
什麼是 DeepSeek‑OCR 壓縮?核心思想
  • 視覺令牌壓縮:將密集的文本跨度轉換為高資訊視覺嵌入;視覺令牌可能比等效的文本令牌更便宜、更緊湊。
  • 上下文光學壓縮:使用 OCR/VLM 將大型文本上下文編碼為圖像或視覺結構化佈局,在削減令牌數量的同時保留語義結構。
  • 長上下文工作流程:將數千個令牌壓縮為數百個視覺令牌,從而為規劃、工具使用或多輪推理提供更大的工作集。
何時使用它
  • 具有重複措辭或可預測結構的聊天記錄
  • 系統日誌、追蹤、建構輸出或分析轉儲
  • 文件快照、儀表板或半結構化報告
您將在本教學中建構什麼 您將實作一個流程來:
  1. 標準化和分割聊天/日誌數據。
  1. 選擇壓縮策略(OCR‑visual、文本摘要或混合)。
  1. 透過 DeepSeek‑OCR 產生緊湊的視覺表示。
  1. 使用元數據建立索引以進行檢索。
  1. 使用接受文本和圖像的混合 RAG 提示進行查詢。
  1. 評估保真度和成本。
第 1 節 — 數據準備:使混亂的歷史記錄對模型友好
  • 標準化時間戳和角色:例如,{timestamp, role: message} → {delta_t, role: message}。
  • 缺點:需要 VLM 支援;需要渲染和圖像 I/O。
  • 使用時機:您需要長上下文保真度、圖表/表格或精確的措辭保留。
  • 混合(推薦)
  • 保留「骨骼」文本摘要以進行錨定 + 附加壓縮的視覺卡片以增加深度。
  • 這平衡了檢索精度(文本)和召回/保真度(視覺)。
第 3 節 — 使用 DeepSeek‑OCR 建構視覺上下文卡片 目標:將 5–20 KB 的文本跨度轉換為針對 OCR/VLM 閱讀進行優化的 512–1024 px 圖像。
範本建議
  • 標題欄:會話 ID、時間範圍、主題標籤。
  • 雙欄佈局:左欄用於關鍵輪次/日誌;右欄用於重點(錯誤、決策、命令、指標)。
  • 用於代碼/日誌行的等寬區塊;用於上下文的項目符號摘要。
  • 對比度友善的主題;避免小字體(在 1 倍縮放下 <11–12 pt)。
渲染提示
  • 使用 HTML/CSS 產生乾淨、一致的卡片(例如,Puppeteer/Playwright 螢幕截圖)。
  • 包括穩定的錨點(行號、ID)以在提示中引用特定項目。
  • 每張卡片限制為 ~200–400 個單詞;為每個會話建立一疊卡片。
DeepSeek‑OCR 傳遞
  • 運行 DeepSeek‑OCR 以確保往返保真度:卡片 → OCR 文本。這會仔細檢查您的佈局和字體是否能準確解碼。
  • 如果 OCR 文本發散,請調整字體、間距或將密集的程式碼分成多張卡片。
為何有效 社群和第三方文章指出,將文本上下文壓縮為視覺令牌,同時保持可讀性,可以顯著提高效率。
第 4 節 — 摘要層:保留骨骼,儲存肌肉 實作分層摘要,以便您可以在需要時才提高分辨率。
  • L0:原子行/輪次標籤 — 角色、時間戳、類型(錯誤、注意、代碼)、嵌入。
  • L1:每個 20–40 輪次或 2–5 分鐘的日誌的微摘要(1–2 個句子)。
  • L2:會話摘要(5–8 個要點),包含決策、阻礙、結果以及視覺卡片的連結。
  • L3:線程之線程 — 每週或項目級別的匯總。
實用啟發法
  • 始終包含逐字錨點:錯誤代碼、SQL ID、追蹤 ID、提交 SHA。
  • 在抽象摘要之前使用提取摘要;然後使用抽象摘要進行完善以提高可讀性。
  • 新增「自上次會話以來發生了哪些變化」要點,以加速趕上進度的提示。
第 5 節 — 混合 RAG 的索引和檢索 元數據模式
  • doc_id, session_id, time_range, roles, topic labels
  • 重要性分數、錯誤嚴重性、組件/服務
  • 連結:{summary_id, card_id}.
  • 將基於 OCR 的壓縮與分層摘要和 RAG 結合使用,以實現精確度和深度。
  • 優化佈局、字體和索引,以保持高保真度和低延遲。
  • 將壓縮卡片視為一級證據,並在提示中引用它們。
下一步
  • 在一個聊天項目或日誌數據集上建構最小流程的原型。
  • 針對 10 個典型查詢對純文本與混合壓縮進行 A/B 測試。
  • 根據保真度指標調整卡片設計、檢索器組合和預算。
  • 透過緩存、ACL 和監控擴展到團隊工作流程。

常見問題解答

Q1:什麼是 DeepSeek‑OCR,為什麼要使用它來壓縮 LLM 的聊天記錄? DeepSeek‑OCR 實現了上下文光學壓縮—將大型文本跨度編碼為 VLM 可以有效處理的視覺令牌。與純文本摘要相比,這可以縮小令牌預算並更好地保留結構,同時為長上下文保持高保真度。
Q2:視覺令牌壓縮與文本摘要相比如何? 視覺令牌壓縮通常實現更高的有效壓縮,同時保留佈局和精確的措辭,這有助於引言、代碼和錯誤字符串。摘要更快更簡單,但可能會省略罕見的細節或引入抽象錯誤。
Q3:我可以將 DeepSeek‑OCR 與 RAG 混合用於日誌和聊天嗎? 可以。使用文本摘要進行快速回憶,並附加經過 OCR 驗證的視覺卡片以增加深度。兩階段檢索器可以先提取摘要,然後提取最相關的卡片,從而平衡精度和上下文覆蓋範圍。
Q4:哪些佈局最適合 OCR 壓縮的上下文卡片? 使用乾淨的 HTML/CSS,其中包含標題欄、雙欄內容、用於代碼的等寬區塊以及用於重點的清晰項目符號。每張卡片保留 200–400 個單詞,11–12 pt 或更大的字體,並使用 OCR 往返驗證可讀性。
Q5:我如何衡量壓縮是否丟失了重要資訊? 針對一組黃金事實追蹤 Fidelity@K,透過行號引用追蹤證據覆蓋範圍,以及延遲/成本指標。目標是 ≥95% 的事實保留率,並確保大多數答案引用卡片行或錨點 ID。

最新文章
如何精通 ChatPDF:從密集文件中更快獲取洞見

如何精通 ChatPDF:從密集文件中更快獲取洞見

快速且準確文件的最佳 X 自動翻譯替代方案

快速且準確文件的最佳 X 自動翻譯替代方案

三星 AI 翻譯在伊朗無法使用?實用解決方法

三星 AI 翻譯在伊朗無法使用?實用解決方法

波斯語翻譯工具:加速且精準工作的實用指南

波斯語翻譯工具:加速且精準工作的實用指南

深度且具引用的研究最佳Grok替代方案

深度且具引用的研究最佳Grok替代方案

您真正會用到的 AI 圖像生成器 15 大功能

您真正會用到的 AI 圖像生成器 15 大功能