Sider.ai
  • 聊天
  • Wisebase
  • 工具
  • 浏览器插件
  • 客户端
  • 价格
立即下载
登录

通过Sider更快学习、更深入思考、更聪明成长。

产品
应用
  • 扩展程序
  • iOS
  • Android
  • Mac OS
  • Windows
Wisebase
  • Wisebase
  • Deep Research
  • Scholar Research
  • Math Solver
  • Rec NoteNew
  • Audio To Text
  • Gamified Learning
  • Interactive Reading
  • ChatPDF
工具
  • 网站生成器New
  • AI PPTNew
  • 写作大师
  • Nano Banana Pro
  • Nano Banana Infographic
  • 图片生成
  • 意大利脑洞
  • 背景移除
  • 背景替换
  • 区域抹除
  • 文字移除
  • 局部重绘
  • 画质提升
  • 创作者
  • 文本翻译
  • 图片翻译
  • PDF翻译
Sider
  • 联系我们
  • 帮助中心
  • 下载
  • 价格
  • 教育优惠
  • 新功能
  • 博客
  • 社区
  • 合作伙伴
  • 联盟
  • 邀请
©2026 版权所有
使用条款
隐私政策
  • 首页
  • 博客
  • AI 工具
  • DeepSeek-OCR 教程:为 LLM 压缩聊天记录、日志和数据

DeepSeek-OCR 教程:为 LLM 压缩聊天记录、日志和数据

更新于 2025年10月23日

5 分钟


引言:为何压缩现在成为LLM的超能力 如果您曾尝试将一周的聊天记录、遥测数据或多系统应用追踪信息塞入提示词中,您就会遇到上下文窗口的硬性上限。通常的做法——总结、修剪、分块——在信号丢失开始出现之前,只能帮您到这里。DeepSeek-OCR 引入了一个引人注目的转折:使用 OCR-VLM 管道将文本压缩为视觉 token,从而显著缩小上下文,而不会丢失含义。早期的社区报告引用了数量级的压缩效率,通过利用视觉 token 而不是原始文本 token,一些分析将这种模式描述为“上下文光学压缩”,并将“数千个文本 token 压缩为数百个视觉 token”,用于长上下文工作流程。
在这个实用的、循序渐进的 DeepSeek-OCR 教程中,您将学习如何为 LLM 压缩聊天记录、日志和数据,同时保持检索精度——以及如何将基于 OCR 的压缩与总结、分层分块和 RAG 相结合,以实现强大的、低延迟的提示。
本指南面向的读者
  • 必须摄取大量聊天记录和活动轨迹的 AI 助手构建者
  • 为 LLM 推理整理日志、追踪信息和指标的数据工程师
  • 在预算有限的情况下,构建超长上下文工作流程原型的研究人员
一句话概括:如果您可以将庞大的文本转换为 LLM 可以读取的紧凑视觉表示,您就可以在不牺牲推理线索的情况下,重新获得上下文预算。
什么是 DeepSeek-OCR 压缩?核心思想
  • 视觉 token 压缩:将密集的文本跨度转换为高信息量的视觉嵌入;视觉 token 比等效的文本 token 更便宜、更紧凑。
  • 上下文光学压缩:使用 OCR/VLM 将大型文本上下文编码为图像或视觉结构化布局,在减少 token 数量的同时,保留语义结构。
  • 长上下文工作流程:将数千个 token 压缩为数百个视觉 token,从而为规划、工具使用或多轮推理提供更大的工作集。
何时使用它
  • 具有重复措辞或可预测结构的聊天记录
  • 系统日志、追踪信息、构建输出或分析转储
  • 文档快照、仪表板或半结构化报告
在本教程中,您将构建什么 您将实现一个管道来:
  1. 规范化和分割聊天/日志数据。
  1. 选择压缩策略(OCR-视觉、文本总结或混合)。
  1. 通过 DeepSeek-OCR 生成紧凑的视觉表示。
  1. 使用元数据进行索引以便检索。
  1. 使用接受文本和图像的混合 RAG 提示进行查询。
  1. 评估保真度和成本。
第 1 节 - 数据准备:使混乱的历史记录对模型友好
  • 规范化时间戳和角色:例如,{timestamp}{role}:{message}。
  • 缺点:需要 VLM 支持;需要渲染和图像 I/O。
  • 使用场景:您需要长上下文保真度、图表/表格或精确的措辞保留时。
  • 混合(推荐)
  • 保留“骨架”文本摘要以进行锚定 + 附加压缩的视觉卡片以获取深度。
  • 这平衡了检索精度(文本)和召回率/保真度(视觉)。
第 3 节 - 使用 DeepSeek-OCR 构建视觉上下文卡片 目标:将 5–20 KB 的文本跨度转换为针对 OCR/VLM 阅读优化的 512–1024 像素图像。
模板建议
  • 标题栏:会话 ID、时间范围、主题标签。
  • 两列布局:左列用于关键轮次/日志;右列用于突出显示(错误、决策、命令、指标)。
  • 代码/日志行的等宽块;上下文的项目符号摘要。
  • 对比度友好的主题;避免使用小字体(1 倍比例下 <11–12 磅)。
渲染技巧
  • 使用 HTML/CSS 生成干净、一致的卡片(例如,Puppeteer/Playwright 截图)。
  • 包括稳定的锚点(行号、ID)以引用提示中的特定项目。
  • 每张卡片限制为约 200–400 个单词;为每个会话创建一个卡片堆栈。
DeepSeek-OCR 通过
  • 运行 DeepSeek-OCR 以确保往返保真度:卡片 → OCR 文本。这会仔细检查您的布局和字体是否能准确解码。
  • 如果 OCR 文本发散,请调整字体、间距或将密集代码分解为多个卡片。
为什么这有效 社区和第三方的文章指出,在将文本上下文压缩为视觉 token 的同时保持可读性时,可以获得有意义的效率提升。
第 4 节 - 总结层:保留骨架,存储肌肉 实现分层摘要,以便您可以仅在需要时扩大分辨率。
  • L0:原子行/轮次标签——角色、时间戳、类型(错误、注释、代码)、嵌入。
  • L1:每个 20–40 轮次或 2–5 分钟日志的微摘要(1–2 句话)。
  • L2:会话摘要(5–8 个项目符号),包含决策、阻碍因素、结果和指向视觉卡片的链接。
  • L3:线程之线——每周或项目级别的汇总。
实用启发法
  • 始终包含逐字锚点:错误代码、SQL ID、追踪 ID、提交 SHA。
  • 在抽象摘要之前使用提取摘要;然后使用抽象摘要进行改进以提高可读性。
  • 添加“自上次会话以来发生了什么变化”项目符号以加快追赶提示。
第 5 节 - 混合 RAG 的索引和检索 元数据模式
  • doc_id、session_id、time_range、roles、topic labels
  • importance score, error severity, component/service
  • links: {summary, card images}
  • 将基于 OCR 的压缩与分层摘要和 RAG 相结合,以实现精度和深度。
  • 优化布局、字体和索引,以保持高保真度和低延迟。
  • 将压缩卡片视为一流证据并在提示中引用它们。
下一步
  • 在一个聊天项目或日志数据集上构建最小管道的原型。
  • 对 10 个典型查询进行仅文本与混合压缩的 A/B 测试。
  • 根据保真度指标调整卡片设计、检索器组合和预算。
  • 通过缓存、ACL 和监控扩展到团队工作流程。

常见问题解答

Q1:什么是 DeepSeek-OCR,为什么要使用它来压缩 LLM 的聊天记录? DeepSeek-OCR 实现了上下文光学压缩——将大型文本跨度编码为 VLM 可以有效处理的视觉 token。与仅文本摘要相比,这可以缩小 token 预算并更好地保留结构,同时保持长上下文的高保真度。
Q2:视觉 token 压缩与文本摘要相比如何? 视觉 token 压缩通常实现更高的有效压缩,同时保留布局和精确措辞,这有助于处理引用、代码和错误字符串。摘要更快更简单,但可能会省略罕见细节或引入抽象错误。
Q3:我可以将 DeepSeek-OCR 与 RAG 混合用于日志和聊天吗? 是的。使用文本摘要进行快速召回,并附加 OCR 验证的视觉卡片以获取深度。两阶段检索器可以首先获取摘要,然后获取最相关的卡片,从而平衡精度和上下文覆盖范围。
Q4:哪些布局最适合 OCR 压缩的上下文卡片? 使用干净的 HTML/CSS,其中包含标题栏、两列内容、代码的等宽块和突出显示内容的清晰项目符号。每张卡片保留 200–400 个单词,11–12 磅或更大的字体,并通过 OCR 往返验证可读性。
Q5:如何衡量压缩是否丢失重要信息? 针对一组黄金标准事实跟踪 Fidelity@K,通过行号引用跟踪证据覆盖率,以及延迟/成本指标。目标是 ≥95% 的事实保留率,并确保大多数答案引用卡片行或锚点 ID。

最近文章
如何掌握 ChatPDF:快速洞察密集文档

如何掌握 ChatPDF:快速洞察密集文档

快速、精准文档的最佳X自动翻译替代方案

快速、精准文档的最佳X自动翻译替代方案

三星AI翻译在伊朗无法使用?实用解决方法

三星AI翻译在伊朗无法使用?实用解决方法

波斯语翻译工具:实现更快更准确工作的实用指南

波斯语翻译工具:实现更快更准确工作的实用指南

深度、有引用研究的最佳Grok替代方案

深度、有引用研究的最佳Grok替代方案

你真正会用的AI图像生成器15大功能

你真正会用的AI图像生成器15大功能