Sider.ai
  • 聊天
  • Wisebase
  • 工具
  • 浏览器插件
  • 客户端
  • 价格
立即下载
登录

通过Sider更快学习、更深入思考、更聪明成长。

产品
应用
  • 扩展程序
  • iOS
  • Android
  • Mac OS
  • Windows
Wisebase
  • Wisebase
  • Deep Research
  • Scholar Research
  • Math Solver
  • Rec NoteNew
  • Audio To Text
  • Gamified Learning
  • Interactive Reading
  • ChatPDF
工具
  • 网站生成器New
  • AI PPTNew
  • 写作大师
  • Nano Banana Pro
  • Nano Banana Infographic
  • 图片生成
  • 意大利脑洞
  • 背景移除
  • 背景替换
  • 区域抹除
  • 文字移除
  • 局部重绘
  • 画质提升
  • 创作者
  • 文本翻译
  • 图片翻译
  • PDF翻译
Sider
  • 联系我们
  • 帮助中心
  • 下载
  • 价格
  • 教育优惠
  • 新功能
  • 博客
  • 社区
  • 合作伙伴
  • 联盟
  • 邀请
©2026 版权所有
使用条款
隐私政策
  • 首页
  • 博客
  • AI 工具
  • DeepSeek-OCR 在长文本语境中的表现:哪些是真正有效的

DeepSeek-OCR 在长文本语境中的表现:哪些是真正有效的

更新于 2025年10月23日

12 分钟


关于“长文本AI”,每个人都信誓旦旦地说自己拥有这项技术——但当你问到关于第47页的详细问题时,它突然就变成了只有头部受伤的金鱼的记忆力。DeepSeek-OCR 的出现恰好解决了这个问题,它提出了一个简单却真实的声明:压缩重要的内容,保持结构,停止像2023年那样浪费token。它承诺的不是“更好的OCR”,而是尊重布局且拒绝用噪音来膨胀上下文窗口的OCR。
没错,这正是大多数所谓的长文本pipeline的错误之处。他们将原始文本一股脑地塞进模型,然后就万事大吉了。结果很快就以幻觉告终。
让我们深入了解如何将 DeepSeek-OCR 集成到真正的长文本pipeline中——一个可以实际扩展、无需流泪支付计算费用,并且在 PDF 包含表格、脚注或(天哪,保佑你)法律证据时不会崩溃的pipeline。
为什么 DeepSeek-OCR 与众不同(且有用)
  • 布局即数据:长文档不仅仅是文本,它们还是空间论证。标题、列、表格、图标题——所有这些都具有含义。DeepSeek-OCR 旨在将这种结构作为一等公民来保留,这正是长文本模型在不迷失方向的情况下跨数百页进行推理所需要的。
  • 无脑叶切除的压缩:重点不是将所有内容都塞进一个 8K 窗口,而是保留信号——密集、结构化、可导航——并降低其余部分的成本。
  • 它可以与下游步骤很好地配合:RAG、摘要、长文本transformer,甚至agent。你的OCR层越好,你的检索和推理层就越不需要为它道歉。
你将构建的内容:一个有主干的长文本Pipeline
将pipeline视为五个部分,每个部分都做得很好:
  1. 摄取和规范化
  • 输入类型:PDF(原生数字和扫描版)、图像、来自扫描仪的 TIFF、混乱的office导出文件。
  • 预处理:如果需要,进行去倾斜、去噪、二值化,并一致地分割页面。保留每页的元数据——页码、源文件、章节锚点。
  • 输出目标:具有稳定 DPI 的可预测格式(PNG 或 JPEG)的图像或页面canvas。
  1. 具有结构的OCR
  • 在每个页面上运行 DeepSeek-OCR 以提取:
  • 带有边界框(x, y, 宽度, 高度)的文本跨度
  • 块类型:标题、段落、列表、表格、图形、脚注
  • 阅读顺序和分层结构(文档树)
  • 同时保留原始文本和布局特征。如果它可以导出token级别的映射,请保留它。表格应该是结构化的(CSV/HTML),并且还要链接回它们的坐标。
  1. 布局感知的压缩
  • 诀窍:按块的重要性而不是通过朴素的token截断来进行压缩。
  • 真正有效的启发式方法:
  • 标题和章节摘要:逐字保留。
  • 段落:使用轻量级排序器(BM25/ColBERT 风格或小型本地编码器)进行句子级别的选择。
  • 表格:保留标题和前 k 个统计上不同的行;完整保留数字列;将完整表格隐藏在带外。
  • 标题和脚注:保留;低token,高含义。
  • 生成两个artifact:
  • 一个紧凑的、布局感知的叙述性上下文:原始token的10-20%,连贯,可导航。
  • 一个 sidecar 索引:从压缩跨度到完整保真度块的指针。
  1. 检索和路由(像成年人一样完成 RAG)
  • 索引构建:
  • 用于语义搜索的句子/段落的密集向量。
  • 用于精确查找的稀疏 (BM25) 索引——代码、引用、标识符。
  • 表格感知索引:每个行和每个单元格的嵌入,用于数字查询。
  • 路由器:
  • 关键词多的问题 → 首先稀疏,然后用密集重新排序。
  • 分析性或“为什么”的问题 → 首先密集,然后用稀疏锚点重新排序。
  • 表格/数学查询 → 直接查询表格索引,并提供行/列来源。
  1. 长文本推理
  • 选择你的工具:
  • 用于整体提示的长文本 LLM(政策文档、RFP、研究论文)。
  • 用于多跳任务的逐步、工具调用的agent:检索 → 分析 → 验证 → 引用。
  • 永远不要将整个紧凑的叙述性内容塞进模型中。即时组装上下文:按意图排列的顶部章节、相关表格和附近的段落。用面包屑(章节名称、页码、图ID)缝合。
输出内容:带有收据的答案。每个声明都链接回一个块ID、页码和一个你可以在原始 PDF 中突出显示的坐标范围。这就是你获得信任的方式。
实用蓝图:从原始 PDF 到长文本答案
阶段 1:文档摄取
  • 验证文件:如果受密码保护或已损坏,则快速失败。
  • 以固定的 DPI 将其渲染为页面图像(300 没问题;200 用于提高速度)。
  • 保留页面级别的哈希值,以便你可以缓存 OCR。
阶段 2:DeepSeek-OCR 传递
  • 批量处理页面以提高 GPU 吞吐量。
  • 提取块和阅读顺序。将坐标标准化到一致的页面空间。
  • 发出:
  • JSON:带有类型、文本、bbox、页面的块列表。
  • 表格作为 CSV/HTML,加上每个单元格的 bbox 映射。
  • 一个可选的缝合markdown,带有布局提示(## 表示标题,:::table 表示表格等)。
阶段 3:OCR 后清理
  • 合并跨行断开的连字符连接的单词。
  • 解析列:如果页面有两列,请确保阅读顺序尊重列。
  • 如果未提供,则通过字体/大小启发式方法检测标题;构建 TOC 树。
  • 删除重复的页眉/页脚(在扫描的合同中很常见)。
阶段 4:具有结构的压缩
  • 对段落进行句子分割。使用在你自己的领域上训练的廉价排序器对句子进行评分。
  • 保留高分句子;始终保留每个标题下的第一个句子。
  • 对于表格:保留标题行 + 按方差/重要性排列的前 k 行,以及对完整表格的引用。
  • 生成紧凑的叙述性内容和索引 sidecar,将每个保留的句子链接到其原始内容。
阶段 5:索引
  • 句子的密集嵌入(如果需要,使用强大的多语言模型)。
  • 完整语料库上的稀疏索引(标题、章节, 代码、引用、标识符、单位)。
  • 行和单元格级别的表格嵌入;保留数字统计信息(最小值、最大值、平均值)以进行快速过滤。
  • 存储来源:doc_id、页面、bbox、block_id。
阶段 6:查询路由和检索
  • 对查询意图进行分类:查找 vs 分析 vs 表格数学 vs 比较。
  • 运行适当的检索方案:
  • 查找:稀疏 → 密集重新排序。
  • 分析:密集 → 章节邻居。
  • 表格数学:表格索引 + 行过滤器;附加附近的文本以获取上下文。
  • 编译提示包:
  • 系统简介
  • 任务框架
  • 3-6 个检索到的段落(带有标题和页码)
  • 如果需要,1-2 个小型表格或计算出的统计数据
  • 将提示保持在模型特定的最佳点之下。长文本不是无限文本。
阶段 7:带有引用的答案合成
  • 要求结构化输出:分节答案和内联引用,如 [Doc §2.3, p. 47, tbl A]。
  • 对于棘手的声明,触发验证传递:重新检索精确的跨度,重新提出有针对性的问题,协调冲突。
  • 返回带有用户可以点击的来源跟踪的答案。
可以节省真金白银的性能说明
  • 不要随意使用 GPU:OCR 在奇怪的交替中受 I/O 限制和 GPU 限制。按页数批量处理并标准化图像大小,以最大程度地重复利用内核。
  • 积极缓存:如果源文档没有更改,则不要重新 OCR。对页面位图进行内容哈希,而不是对文件进行哈希。
  • 表格是地雷:它们会推高token数量并降低质量。干净地提取它们,除非问题需要,否则不要将它们放在你的常规上下文中。
  • 分块不是一种宗教:按布局(标题、段落)而不是按token长度分块。按token长度分块会让你失去论证结构。
  • 在总结之前进行验证:在检索缩小上下文之前,不要总结模棱两可的段落;你会压缩错误的内容。
错误处理:重要但不吸引人的部分
  • 损坏的 PDF:尝试光栅化回退。如果仍然损坏,则返回诊断artifact。无声的失败比没有答案更糟糕。
  • 垃圾扫描(传真级别):尝试去噪/对比度提升;如果置信度降到阈值以下,则标记以供人工审核。承认你不知道的事情。
  • 非拉丁文字:确保 OCR 模型支持你的脚本集;否则,将其路由到专门的 OCR 变体。
  • 看起来像艺术的表格:如果表格检测失败,请不要假装。将其视为带有标题的图像,并返回“需要手动提取”的通知。
数据模型:保留带有区域的地图
  • 文档
  • pages: [page_id]
  • 页面
  • width/height, dpi, hash
  • blocks: [block_id]
  • 块
  • type: heading/paragraph/list/table/figure/footnote
  • text (optional), bbox, order, style hints
  • links: children, parent
  • 表格
  • rows, cols, cell texts, cell bboxes, header flags
  • 来源
  • doc_id, page, block_id, offsets, bbox
安全与合规
  • 除非你的策略允许,否则不要将敏感 PDF 上传到第三方 API。如果必须这样做,请在传输和静止时对其进行加密。
  • 如果可能,在 OCR 步骤中编辑 PII——边界框编辑比事后字符串屏蔽更强大。
  • 记录检索和答案生成,但禁止记录内容。保留哈希值和 ID,而不是原始文本。
长文本模型选择(没有炒作)
  • 如果你的问题主要是“X 在哪里说”,那么优先考虑检索和引用,而不是纯粹的上下文长度。简短、准确的上下文胜过 1Mtoken的幻觉。
  • 如果你的文档是叙述性的(研究、报告),长文本模型会有所帮助,但只有在章节结构指导下。
  • 表格密集型工作流程需要一个分离的头脑:用于散文的语言模型,用于算术和过滤的轻量级程序。
版本控制和漂移
  • OCR 变得更好;文档发生变化;嵌入漂移。对所有内容进行版本控制:
  • OCR 引擎版本和配置
  • 嵌入模型版本
  • 索引架构版本
  • 当任何版本更改时,以增量方式重新索引。在新旧版本保持并行,直到你证明奇偶校验。
开发者集成草图
  • Worker 1: 摄取 → 渲染页面 → 入队。
  • Worker 2 (GPU): 每个页面的 DeepSeek-OCR → 结构化 JSON → 表格。
  • Worker 3: 清理 + 布局树 → 压缩。
  • Worker 4: 索引构建(密集 + 稀疏 + 表格) → 发布。
  • 服务: 查询路由器 → 检索 → 提示组装 → LLM → 验证 → 响应。
  • 存储: 用于页面图像和 sidecar 的对象存储;用于块和来源的数据库;向量和稀疏索引。
关于不会造成混乱的工具的一句话
最不花哨的部分通常会构成pipeline。紧凑的 OCR,可以尊重布局;索引可以说“我不知道”;以及拒绝过度填充的提示构建器。这就是工作。如果你想将其融入实际的工作流程中——例如,总结合同、梳理 300 页的 RFI 或审核 SOP 手册——Sider.AI 实际上可以用作 OCR、检索和长文本提示之间的粘合层,尤其是当你像对待有条不紊的工头而不是巫师一样对待它时。使用它来协调:摄取任务、分块策略、模型选择以及“先验证后信任”循环。当你需要跨团队扩展这些作业并保持结果可重现时,它会为你带来回报。
你将在周五遇到的“陷阱”
  • 过度压缩:你削减太多,答案失去了细微差别。观察答案长度/覆盖率指标;添加一个回退来获取完整块,当置信度下降时。
  • 过度检索:你将 60 个块拖到提示中并超出上下文。限制它并偏向邻接(相邻部分是黄金)。
  • 表格错觉:该模型令人信服地引用了一个数字——但来自错误的行。始终在提示中将表格片段与行键配对。
  • 重复页面:扫描工作流程喜欢重复。对页面进行哈希处理;在你支付 OCR 费用之前,在页面级别进行重复数据删除。
  • 交叉引用和脚注:它们带有法律意义的警告。永远不要在政策/法律文档中删除脚注;将它们保留在低token通道中。
不会说谎的质量指标
  • Top-k 引用准确率:引用的块是否实际支持该声明?
  • 表格单元格精度:数字答案中正确单元格引用的比率。
  • 压缩保真度:压缩叙述与每个部分的原始叙述之间的 ROUGE/LFQA 风格的重叠。
  • 负载下的查询延迟:P95 端到端,而不仅仅是 LLM 时间。
  • 人类信任评分:用户是否在第一眼就接受或拒绝答案?这是唯一可以预测采用率的指标。
一个最小的工作示例(概念性的)
  • 输入:一份 180 页的采购规范,带有附录和五个 gnarly 表格。
  • 你运行 DeepSeek-OCR;它发出带有框和忠实 TOC 的结构化块。
  • 压缩保留所有标题、第一句话和表格中的基本行。Sidecar 指向所有内容。
  • 用户问:“哪个部分设置了电气组件的保修期限?”
  • 路由器选择稀疏 → 密集。
  • 检索返回两个章节和一个附录。
  • 提示提供带有内联引用的标题 + 段落。
  • 模型回答:“第 4.2.1 节,第 67 页:‘电气组件的最低保修期为 36 个月……’”带有突出显示确切跨度的链接。
  • 用户问:“整个机架的总功率预算是多少?”
  • 路由器选择表格索引。它提取正确的行,用一个简单的工具对两列求和,并引用带有行键的表格 B-3。没有幻觉数学。
为什么这行得通而其他人却不行
因为它将 OCR、检索和推理视为它们之间的合同的独立工作。DeepSeek-OCR 为你提供结构;压缩保留含义;检索获取正确的证据;长文本模型将其联系在一起,而不会淹没在填充物中。行业默认是将所有内容都塞进一个更大的窗口并祈祷。祈祷不是一种策略。
如果你要偷工减料,最后再偷工减料
  • 表格提取:如果你在这里偷工减料,每个下游步骤都会继承混乱。
  • 来源管道:用户原谅缓慢甚至偶尔的错误答案;他们不原谅他们无法验证的答案。
  • 缓存和哈希:如果你做得对,你的云账单会原谅你。
辩证的一点:你甚至需要长文本吗?
一个辛辣的想法:有时长文本是糟糕检索的拐杖。如果你的问题狭隘而精确,请投资于更好的索引和更小的上下文。当问题要求你跨章节进行综合时,长文本会发光——政策例外、交叉引用的条款、文献综述。否则,你就是在为不需要的注意力付费。
如果你真的需要“阅读整个内容”的理解?不要强迫模型将所有内容都保存在工作记忆中。分阶段进行:概述 → 检索 → 证明。甚至人类也是这样做的。
总结:带上收据,否则就别麻烦了
将 DeepSeek-OCR 集成到长文本pipeline中不是崇拜更大窗口的祭坛。而是尊重文档作为空间论证,有品味地压缩,有目的地检索,并用收据回答。做到这一点,你的pipeline就会停止假装记住第 47 页——并开始证明它。
Sider.AI,如果使用得当,可以使这成为现实:协调各个阶段,保持提示诚实,并执行长文本工作实际需要的纪律。如果这听起来不那么性感,那就对了。性感的部分是你信任的答案。

常见问题解答

Q1:将 DeepSeek-OCR 集成到长文本pipeline中的最快方法是什么? 将 OCR 视为具有严格缓存的 GPU 批处理服务,然后在检索之前按布局(标题、段落、表格)进行压缩。添加混合索引(密集 + 稀疏 + 表格)并即时组装提示,而不是转储整个文档。
Q2:如果我使用 DeepSeek-OCR,我真的需要长文本模型吗? 不一定。如果你的问题很精确,那么更好的检索和引用胜过强力上下文。当你需要在各章节之间进行综合时,长文本会得到回报,而不是当你正在寻找第 67 页上的一个条款时。
Q3:如何在不增加token数量的情况下处理表格? 以结构化方式提取表格,保留标题和一些高信号行,并将完整表格存储在带外。将表格问题路由到表格索引,并且仅在提示中包含必要的单元格。
Q4:哪些指标证明pipeline实际上有效? 跟踪引用准确率、表格单元格精度、每个部分的压缩保真度以及 P95 端到端延迟。最能说明问题的是人类信任评分——用户是否在不挖掘证据的情况下接受答案?
Q5:Sider.AI 在此设置中的作用是什么? 作为协调层:它安排 OCR,执行分块和检索策略,并保持提示的规范性。把它想象成工头,而不是巫师——它使所有其他部分都按时并带有收据地出现。

最近文章
如何掌握 ChatPDF:快速洞察密集文档

如何掌握 ChatPDF:快速洞察密集文档

快速、精准文档的最佳X自动翻译替代方案

快速、精准文档的最佳X自动翻译替代方案

三星AI翻译在伊朗无法使用?实用解决方法

三星AI翻译在伊朗无法使用?实用解决方法

波斯语翻译工具:实现更快更准确工作的实用指南

波斯语翻译工具:实现更快更准确工作的实用指南

深度、有引用研究的最佳Grok替代方案

深度、有引用研究的最佳Grok替代方案

你真正会用的AI图像生成器15大功能

你真正会用的AI图像生成器15大功能