引言:为何压缩现在成为LLM的超能力
如果您曾尝试将一周的聊天记录、遥测数据或多系统应用追踪信息塞入提示词中,您就会遇到上下文窗口的硬性上限。通常的做法——总结、修剪、分块——在信号丢失开始出现之前,只能帮您到这里。DeepSeek-OCR 引入了一个引人注目的转折:使用 OCR-VLM 管道将文本压缩为视觉 token,从而显著缩小上下文,而不会丢失含义。早期的社区报告引用了数量级的压缩效率,通过利用视觉 token 而不是原始文本 token,一些分析将这种模式描述为“上下文光学压缩”,并将“数千个文本 token 压缩为数百个视觉 token”,用于长上下文工作流程。
在这个实用的、循序渐进的 DeepSeek-OCR 教程中,您将学习如何为 LLM 压缩聊天记录、日志和数据,同时保持检索精度——以及如何将基于 OCR 的压缩与总结、分层分块和 RAG 相结合,以实现强大的、低延迟的提示。
本指南面向的读者
- 必须摄取大量聊天记录和活动轨迹的 AI 助手构建者
- 为 LLM 推理整理日志、追踪信息和指标的数据工程师
- 在预算有限的情况下,构建超长上下文工作流程原型的研究人员
一句话概括:如果您可以将庞大的文本转换为 LLM 可以读取的紧凑视觉表示,您就可以在不牺牲推理线索的情况下,重新获得上下文预算。
什么是 DeepSeek-OCR 压缩?核心思想
- 视觉 token 压缩:将密集的文本跨度转换为高信息量的视觉嵌入;视觉 token 比等效的文本 token 更便宜、更紧凑。
- 上下文光学压缩:使用 OCR/VLM 将大型文本上下文编码为图像或视觉结构化布局,在减少 token 数量的同时,保留语义结构。
- 长上下文工作流程:将数千个 token 压缩为数百个视觉 token,从而为规划、工具使用或多轮推理提供更大的工作集。
何时使用它
在本教程中,您将构建什么
您将实现一个管道来:
- 通过 DeepSeek-OCR 生成紧凑的视觉表示。
第 1 节 - 数据准备:使混乱的历史记录对模型友好
- 规范化时间戳和角色:例如,{timestamp}{role}:{message}。
- 缺点:需要 VLM 支持;需要渲染和图像 I/O。
- 使用场景:您需要长上下文保真度、图表/表格或精确的措辞保留时。
- 保留“骨架”文本摘要以进行锚定 + 附加压缩的视觉卡片以获取深度。
- 这平衡了检索精度(文本)和召回率/保真度(视觉)。
第 3 节 - 使用 DeepSeek-OCR 构建视觉上下文卡片
目标:将 5–20 KB 的文本跨度转换为针对 OCR/VLM 阅读优化的 512–1024 像素图像。
模板建议
- 两列布局:左列用于关键轮次/日志;右列用于突出显示(错误、决策、命令、指标)。
- 对比度友好的主题;避免使用小字体(1 倍比例下 <11–12 磅)。
渲染技巧
- 使用 HTML/CSS 生成干净、一致的卡片(例如,Puppeteer/Playwright 截图)。
- 包括稳定的锚点(行号、ID)以引用提示中的特定项目。
- 每张卡片限制为约 200–400 个单词;为每个会话创建一个卡片堆栈。
DeepSeek-OCR 通过
- 运行 DeepSeek-OCR 以确保往返保真度:卡片 → OCR 文本。这会仔细检查您的布局和字体是否能准确解码。
- 如果 OCR 文本发散,请调整字体、间距或将密集代码分解为多个卡片。
为什么这有效
社区和第三方的文章指出,在将文本上下文压缩为视觉 token 的同时保持可读性时,可以获得有意义的效率提升。
第 4 节 - 总结层:保留骨架,存储肌肉
实现分层摘要,以便您可以仅在需要时扩大分辨率。
- L0:原子行/轮次标签——角色、时间戳、类型(错误、注释、代码)、嵌入。
- L1:每个 20–40 轮次或 2–5 分钟日志的微摘要(1–2 句话)。
- L2:会话摘要(5–8 个项目符号),包含决策、阻碍因素、结果和指向视觉卡片的链接。
实用启发法
- 始终包含逐字锚点:错误代码、SQL ID、追踪 ID、提交 SHA。
- 在抽象摘要之前使用提取摘要;然后使用抽象摘要进行改进以提高可读性。
- 添加“自上次会话以来发生了什么变化”项目符号以加快追赶提示。
第 5 节 - 混合 RAG 的索引和检索
元数据模式
- doc_id、session_id、time_range、roles、topic labels
- importance score, error severity, component/service
- links: {summary, card images}
- 将基于 OCR 的压缩与分层摘要和 RAG 相结合,以实现精度和深度。
下一步
- 对 10 个典型查询进行仅文本与混合压缩的 A/B 测试。
常见问题解答
Q1:什么是 DeepSeek-OCR,为什么要使用它来压缩 LLM 的聊天记录?
DeepSeek-OCR 实现了上下文光学压缩——将大型文本跨度编码为 VLM 可以有效处理的视觉 token。与仅文本摘要相比,这可以缩小 token 预算并更好地保留结构,同时保持长上下文的高保真度。
Q2:视觉 token 压缩与文本摘要相比如何?
视觉 token 压缩通常实现更高的有效压缩,同时保留布局和精确措辞,这有助于处理引用、代码和错误字符串。摘要更快更简单,但可能会省略罕见细节或引入抽象错误。
Q3:我可以将 DeepSeek-OCR 与 RAG 混合用于日志和聊天吗?
是的。使用文本摘要进行快速召回,并附加 OCR 验证的视觉卡片以获取深度。两阶段检索器可以首先获取摘要,然后获取最相关的卡片,从而平衡精度和上下文覆盖范围。
Q4:哪些布局最适合 OCR 压缩的上下文卡片?
使用干净的 HTML/CSS,其中包含标题栏、两列内容、代码的等宽块和突出显示内容的清晰项目符号。每张卡片保留 200–400 个单词,11–12 磅或更大的字体,并通过 OCR 往返验证可读性。
Q5:如何衡量压缩是否丢失重要信息?
针对一组黄金标准事实跟踪 Fidelity@K,通过行号引用跟踪证据覆盖率,以及延迟/成本指标。目标是 ≥95% 的事实保留率,并确保大多数答案引用卡片行或锚点 ID。