How do I translate a scanned PDF with Sider AI?

First run OCR to extract text page-by-page, then feed the cleaned text into Sider’s PDF Translator for a side-by-side translation. This two-step OCR translation approach improves accuracy on scanned files.

Can Sider AI handle images or screenshots for OCR translation?

Yes, you can upload an image or screenshot to Sider’s OCR tool to extract text, then translate it. This works well for photos of documents, menus, or receipts.

What’s the best prompt for OCR translation of scanned files?

Use a two-phase prompt: Phase 1 for structured OCR extraction (preserve headings, tables, formulas), Phase 2 for translation with glossary and QA checks. Include formatting rules and ambiguity flags.

How do I keep tables and formulas accurate during OCR translation?

Ask Sider to rebuild tables as pipe-delimited text and wrap equations in [FORMULA] blocks. In translation, keep variables as-is while translating surrounding text.

Does Sider AI translate PDFs while showing the original alongside?

Yes. Sider’s AI PDF Translator provides a side-by-side view of the original and translated text, making it easy to review and correct.

OCR翻译精通：用于扫描文件的Sider AI提示词

简介：将无法翻译的扫描件转换为清晰的双语文档是否尝试过翻译扫描的PDF或模糊的合同照片，却发现它只是一张图片？没有可选择的文本，无法复制粘贴，而你常用的翻译工具也无能为力。这就是OCR翻译的用武之地——它结合了首先提取文本（光学字符识别），然后准确翻译它的双重功能。借助的OCR和PDF翻译工具，你可以从“被扫描件困住”转变为“完成翻译”，所有这些都在一个工作流程中完成。让我们掌握提示、流程和陷阱，以便你的扫描文件能够干净、一致且快速地翻译。

在扫描文件上的应用

从图像/屏幕截图中提取文本：使用的OCR从照片、扫描件或屏幕截图中提取文本，甚至包括数学公式。

并排翻译PDF：的PDF翻译器允许你上传文档，并在单个界面中比较原文和译文。

构建混合工作流程：对于扫描的PDF，首先运行OCR（如果需要），然后将干净的文本提供给翻译器，以提高准确性。

为什么OCR翻译不同（且棘手）扫描文件是图像，而不是文本。这意味着：

OCR敏感性：低对比度、倾斜的页面或奇怪的字体会降低识别率。

布局复杂性：表格、脚注和多列布局可能会混淆文本流。

语言和脚本检测：混合语言或非拉丁脚本需要明确的指导。

翻译保真度：一旦提取了文本，语气和术语仍然需要仔细的提示。

OCR翻译提示（复制、自定义、使用）在处理需要精确提取和翻译的扫描文件时，请将此主提示与结合使用。将其与正确的步骤（如下）配对，以获得最佳效果。

提示：OCR + 翻译主模板目标：从扫描文件或图像中提取准确的文本，然后以清晰的格式和词汇表控制进行翻译。

阶段1 — OCR提取 “你是一名OCR助手。逐页分析上传的图像或扫描的PDF。按照以下规则输出干净、可选择的文本：

保留阅读顺序和章节标题。

重建列表、表格（作为带有清晰分隔符的纯文本）和段落分隔。

保留特殊字符（°, ±, µ, →）和数学公式。对于公式，用<FORMULA>包裹

对于具有复杂布局的扫描PDF：考虑逐页OCR提取以保持顺序。保存每页的EXTRACTED TEXT。

清理OCR输出

修复明显的字符错误（I vs l，0 vs O）。

将表格重建为带有分隔符的纯文本。

用<UNREADABLE>标记无法读取的部分

如果并排格式不是必需的，请将你的EXTRACTED TEXT粘贴到聊天窗口中，然后运行阶段2翻译提示。

应用术语表以确保一致性

准备一个简短的术语表，用于品牌名称、产品术语、法律短语或医学术语。

将其添加到提示中，以便强制执行一致的翻译。

执行质量保证检查

要求检查数字、日期、单位和名称。确认结构与源文件一致。

对于多语言扫描，验证每个语言段是否已正确翻译并标记。

导出和润色

导出翻译并进行快速人工检查，特别是对于法律、医疗或合规性要求高的文档。

真实用例和小剧本

合同和法律扫描件

OCR提示：强调段落编号和条款引用。

翻译风格：正式、保守的语气。包括已定义术语的词汇表。

质量保证重点：条款编号、已定义术语、日期。

学术论文和论文

OCR提示：保留标题、引文、脚注；将公式用<FORMULA>包裹

AI PDF翻译器：并排显示原文和译文，以便于审阅和更正。

值得注意的是：如果你正在处理混合了语言、表格和图像的扫描PDF，的OCR与并排PDF翻译器的结合使用可加快验证速度。你可以查看结构、跟踪术语并内联修复错误，而无需使用多种工具。

完整示例：从扫描到最终翻译场景：一份12页的德语扫描技术手册，包含表格和公式；目标语言是英语。

逐页OCR PDF

提示阶段1，使用<FORMULA>，<UNREADABLE>

下一步

尝试的OCR对单个扫描图像进行处理，并检查EXTRACTED TEXT输出。

将你的下一个扫描PDF上传到PDF翻译器，并比较并排结果。

将上面的主提示保存为可重用的模板，用于将来所有扫描文件的翻译。

常见问题解答

问题1：如何使用翻译扫描的PDF？首先运行OCR逐页提取文本，然后将清理后的文本输入的PDF翻译器进行并排翻译。这种两步OCR翻译方法提高了扫描文件的准确性。

问题2：是否可以处理图像或屏幕截图以进行OCR翻译？是的，你可以将图像或屏幕截图上传到的OCR工具以提取文本，然后进行翻译。这对于文档、菜单或收据的照片非常有效。

问题3：扫描文件的OCR翻译的最佳提示是什么？使用两阶段提示：阶段1用于结构化OCR提取（保留标题、表格、公式），阶段2用于使用词汇表和质量检查进行翻译。包括格式规则和模糊标志。

问题4：如何在OCR翻译期间保持表格和公式的准确性？要求将表格重建为管道分隔的文本，并将公式用[FORMULA]块括起来。在翻译中，保持变量不变，同时翻译周围的文本。

问题5：是否在翻译PDF的同时显示原始文本？是的。的AI PDF翻译器提供原始文本和翻译文本的并排视图，从而可以轻松查看和更正。