简介:翻译是一个工作流程问题,而非词典问题
人工智能的每一次转变都会犯同样的错误:我们专注于模型,却忽略了工作流程。翻译就是一个很好的例子。2024 年的难题不是将单词从一种语言转换成另一种语言——最先进的模型在消费者规模上已经非常擅长这一点。真正的难题是在翻译的同时保留结构和格式:标题、项目符号、表格、代码块、设计令牌和品牌声音。换句话说,困难之处在于保持原始文档的完整性。
这既是一个业务问题,也是一个技术问题。企业购买的不是翻译,而是吞吐量和保真度——内容跨语言移动的速度有多快,而不会破坏布局、风格指南或审查周期。本文的论点很简单:如何使用 AI 进行翻译并保持原始格式,关键在于控制模型和文档之间的接口。成功的系统将格式视为数据,而不是装饰。
本文是为从业者准备的实操指南,但更深层次的视角是战略性的。我将概述一个实用的工作流程、其背后的原则,以及为什么 AI 翻译领域的赢家会将格式保留作为一项一流的功能来集成,而不是作为后期处理步骤。
背景:从字符串翻译到结构化翻译
传统的翻译堆栈是线性的:提取文本,发送给语言学家或引擎,重新插入文本,修复格式,重复。瓶颈在于质量和成本。神经机器翻译 (NMT) 提高了质量;云交付降低了成本。但两者都没有解决人类语言和文档结构之间的结构性不匹配问题。段落有含义,项目符号层次结构、表格模式或带有 {{FirstName}} 等令牌的模板也有含义。
AI LLM 引入了两个机会:
- 令牌感知:如果约束是明确的,则可以引导模型尊重标记。
- 上下文窗口:模型可以读取结构线索(标题、列表、HTML 标签),并在正确指示时模仿模式。
风险同样显而易见:不受约束的模型在设计上具有创造性。创造性会破坏格式。因此,关键问题不仅在于“如何使用 AI 进行翻译”,还在于“如何使用 AI 进行翻译并保持原始格式的完整性”。答案是使结构明确,使用模板约束输出,并将格式伪像保留在模型的自由度之外。
方法论:一种实用、可重复的工作流程
这是使用 AI 翻译并保留格式的最简单、最具防御性的工作流程。它适用于文档(Word、Google Docs、PDF)、网页(HTML/Markdown)和结构化内容(Notion、维基、知识库)。
步骤 1:提取内容-结构映射
- 目标:在不破坏原始布局的情况下,将内容与结构分离。
- 方法:将文档表示为一组内容块,每个内容块都有一个 ID 和一个结构描述符(例如,H1、H2、p、li、table-cell[r,c]、code-block、alt-text、caption)。
- 工具:对于 HTML/Markdown,使用 DOM/AST;对于 DOCX,使用 OOXML;对于 PDF,使用具有布局感知功能的解析器,该解析器使用坐标重建阅读顺序;对于 CMS 内容,获取带有内容类型的 JSON。
- {id: "b1", type: "h1", content: "How to Translate with AI and Keep Your Original Formatting"}
- {id: "b2", type: "p", content: "This guide explains…"}
- {id: "t1:r2c3", type: "table-cell", schema: "pricing-table", content: "$29"}
关键在于,原始格式(类型、模式、顺序)作为元数据被保留。我们将要求模型仅翻译内容字段。
步骤 2:定义输出约束和模板
- 方法:提供严格的模式,并要求模型仅输出翻译字段,而不是结构本身。在受保护的形式中包含令牌和变量({{name}}、%d、HTML 实体)。
- “您正在进行翻译。完全保留所有标记、令牌、占位符和大小写。不要添加或删除标签或令牌。仅翻译标签之间的文本。返回与输入 ID 匹配的 JSON。不要更改数字、代码或设计令牌。”
这在功能上等同于软件中的类型接口:如果模型试图改变结构,它会发出很大的错误。
步骤 3:在不破坏结构的情况下进行分段以获取上下文
- 目标:在避免上下文窗口溢出的同时,保持翻译的连贯性(习语、代词)。
- 方法:按逻辑部分(H2 + 其段落和列表)批量处理内容块。如果表格共享标题,则将它们放在一起。对于长文档,通过具有重叠上下文(前面的/后面的标题作为参考线索)的模型流式传输部分。这平衡了上下文和可靠性。
步骤 4:预处理和后处理规则
- 保留品牌术语:提供词汇表(禁止翻译和首选翻译),并运行预处理以使用不可翻译的跨度标记术语。
- 保护代码和内联公式:用模型不得修改的标签包围代码跨度和数学公式。
- 规范化空格和标点符号:在翻译后强制执行特定于语言环境的排版规则(例如,法语中在«:»之前的非断行空格;日语中在相关位置使用全角标点符号)。
- 验证链接和锚点:确保 ID 和 href 未被模型更改。
步骤 5:自动 QA:模式、差异和布局检查
- 模式验证:确认所有 ID 匹配,没有缺少字段,也没有出现多余字段。
- 字符串差异:突出显示不可翻译的令牌移动或被更改的位置。
- 布局渲染:使用注入的翻译重建文档,并运行启发式方法(例如,行溢出、表格单元格被裁剪、项目符号嵌套被保留)。对于 Web 内容,无头浏览器快照可以标记溢出和 RTL/LTR 问题。
步骤 6:在重要的地方进行人工编辑
- 高影响力的部分(标题、CTA、法律)值得人工审核;一旦保护措施通过,长尾内容可以仅由机器处理。
- 为编辑提供块级上下文和预览。编辑应流回 JSON 结构,而不是直接在渲染输出中,以保持系统完整性。
步骤 7:发布和缓存翻译记忆库
- 将源块 → 翻译块的配对存储为具有上下文(类型、父标题)的翻译记忆库。未来的更新仅重新翻译已更改的块。
框架:为什么这有效
三个视角解释了这种方法。
- 前提:LLM 是概率性的。保持格式的唯一可靠方法是减少模型在重要工作上的自由度:翻译文本。
- 机制:严格的模式、受保护的令牌和块 ID 强制执行语言和布局之间的接口。这反映了软件工程:类型接口可以防止下游错误。
- 前提:控制工作流程用户界面的实体——用户如何加载文档、审阅翻译和发布——会捕获需求。引擎是可互换的;工作流程不是。
- 含义:“如何使用 AI 进行翻译并保持原始格式”与其说是选择完美的模型,不如说是拥有即用型界面,其中格式保留是一项内置功能。
- 前提:当价值单位是完成的、格式化的资产时,单个句子的质量不如系统吞吐量质量重要。
- 含义:围绕结构、验证和记忆的自动化比交换模型带来的边际收益产生更多的商业价值。
选择合适的模型——以及为什么它是次要的
模型之间存在有意义的差异(幻觉率、指令遵循、长上下文)。但是,仅靠模型升级无法解决格式问题。优先考虑:
- 指令遵守:模型是否尊重“不要触摸标签/令牌”的约束?
- 延迟/成本:您能否运行足够的并行调用来满足周转 SLA?
在实践中,使用带有路由层的多模型方法是务实的:对于结构化内容,使用遵循指令的模型;对于需要细微差别的营销文案,使用更大的模型;对于法律或医疗内容,使用针对领域调整的模型。接口和验证层保持相同,这是重点:将工作流程与模型更迭分离。
边缘情况以及如何处理它们
- 带有合并单元格的表格:在元数据中表示合并,并在翻译后验证单元格计数。如果目标语言扩展了文本,请考虑动态列宽或来自样式词汇表的缩写。
- RTL 语言:在块级别显式标记方向,并在浏览器中测试渲染。确保在后处理中应用标点符号镜像规则。
- 连字符和换行符:禁用输出中的可选手动连字符;让 CSS 或文字处理器处理换行。
- 代码块和 YAML/JSON 片段:冻结它们。如果注释需要翻译,请将它们与代码语法隔离。
- Alt 文本和可访问性:在上下文中翻译 Alt 文本,但保留 ARIA 属性和角色。
- 数字和单位:规范化为语言环境标准(小数分隔符、千位分隔符、测量单位),但固定“硬”值(ID、SKU、货币代码)。
商业案例:速度、保真度和控制
为什么保留原始格式如此重要?因为格式就是成本。每个损坏的布局都会触发手动修复:调整文本框大小、修复项目符号级别、重排表格或重写 CTA 以适应按钮。忽略结构的纯 AI 翻译只会将成本转移到下游。
三个指标可以捕获 ROI:
- 首次发布率:不需要手动布局编辑的翻译资产的百分比。
优化这些指标需要在接口层执行。正确的系统使“如何使用 AI 进行翻译并保持原始格式”不是一项英勇的努力,而是默认结果。
一个具体、可重用的提示模式
以下是为格式安全翻译设计的实用系统/用户提示组合。将其适应您的堆栈。
- “您是一名专业翻译。仅输出有效的 JSON。对于每个项目,从输入中复制 id 和 type;翻译 content 值。不要更改令牌、标签、数字、变量或代码跨度。保留换行符。如果某个段落不可翻译,请保持不变。”
- 包含块、词汇表条目、受保护的令牌和语言环境规则的输入 JSON。包括:{locale: "fr-FR", glossary: {“Sign In”: “Se connecter”, “Free Plan”: “Offre gratuite”}, protected: ["{{name}}", ""]}
添加一个验证器,拒绝缺少 ID、更改的令牌或额外键的输出。如果需要,使用更严格的指令重试(例如,“不要添加评论;仅限 JSON”)。
工具说明:为什么编辑器内翻译很重要
从战略角度来看,解决翻译格式问题的最具防御性的地方是用户已经工作的地方:在浏览器中、在文档编辑器中或在 CMS 内部。考虑 Sider.AI:它位于用户的日常工作流程中,可以获取当前页面结构 (DOM),让用户选择块或整个页面,并返回无需破坏格式即可直接使用的翻译。优势不仅仅在于便利性,还在于聚合。通过拥有工作流程中的“执行”按钮,编辑器内翻译成为默认设置,并且系统可以在简单的 UI 下透明地分层内存、词汇表管理和 QA。 在实践中,“Sider 提示”非常简单:
- 使用页面感知模式来捕获 DOM 和内容角色(H1、列表项、表格单元格)。
- 使用约束触发翻译:保留标签,保持链接完整,保持代码片段不变。
- 在实时预览中查看标记换行和 RTL 问题的更改,然后直接提交更改。无需复制粘贴,没有丢失的样式。
分步指南:如何使用 AI 进行翻译并保持原始格式
这是大多数团队的实践顺序。
- 定义哪些语言环境重要以及每个语言环境的品牌特定样式规则。
- 对于文档:转换为结构感知格式 (DOCX/HTML/Markdown)。对于 Web:确保语义标签(正确的标题、列表、表格)。对于 PDF:在可能的情况下,从源重新生成,而不是翻译扁平化布局。
- 使用解析器生成 ID 和类型。标记不可翻译的内联跨度(令牌、代码、产品名称)。保存干净的 JSON。
- 构建一个最简单的词汇表和语调指南。将术语标记为禁止翻译或首选等效项。
- 将块批次发送到具有严格模式和受保护令牌的模型。包括相邻的块以获取上下文。
- 运行模式检查、令牌差异和渲染预览。标记 UI 组件中的过长字符串。
- 标题、CTA、法律声明和敏感副本接受编辑审核。批量内容可以在自动 QA 上发布。
- 将翻译重新注入到原始容器(文档、HTML、CMS)中。验证格式是否未更改。
- 跟踪首次发布率、发布时间和词汇表合规性。相应地调整提示、词汇表和分段策略。
常见错误——以及如何避免它们
- 将格式视为后处理:到那时已经太晚了;损坏已经传播。预先明确结构。
- 批量翻译 HTML:模型会“helpful”地修复您的 HTML。只给他们文本。
- 忽略语言环境排版:弯引号、不间断空格和日期格式会影响易读性和布局。
- 过度依赖单一模型:使用路由来防止回归并平衡成本和质量。
多模态模型会改变什么
“看到”布局的多模态模型改变了 PDF、幻灯片和带有嵌入文本的图像的计算方式。他们可以推断阅读顺序,并且由于字体大小和粗细而理解标题是标题。关键在于确定性。对于关键任务型工作流程,将多模态提取(理解结构)与确定性重建(模式 + ID)和标准翻译约束相结合。换句话说:使用视觉来阅读,而不是编写布局。
战略意义
- 差异化转移到工作流程所有权:位于创建和发布内容的位置——并且默认保留格式——的实体会积累需求和数据。
- 翻译记忆成为产品粘合剂:通过缓存块级对和上下文,您可以稳定质量并随着时间的推移降低成本,从而增加优势。
- 治理变得更容易:使用结构化块和审计跟踪,合规性审查更快、更具防御性。
这就是为什么“如何使用 AI 进行翻译并保持原始格式”不仅仅是一个技巧——它是一种运营模式。最好的系统使格式成为接口的属性,而不是模型的责任。
结论:保留格式的界面
AI 翻译中的最大错误是假设更好的模型会修复损坏的布局。他们不会。前进的道路是将格式视为数据,强制执行模式,并缩小模型的范围:翻译文本,仅此而已。这样做,管道的其余部分——QA、审查、发布——开始看起来像一个普通的软件系统,其中保证是明确的,可靠性可以扩展。
从这个角度来看待 Sider.AI:它是一种在编辑器内、结构感知的翻译工作流程,优先考虑保真度和速度。“技巧”不是花招,而是一种原则。掌控界面,保护结构,约束模型,并衡量系统质量。这就是如何使用 AI 进行翻译并保持原始格式——始终如一地、大规模地,并获得能够证明投资合理性的业务成果。 附录:团队快速检查清单
常见问题解答
Q1: 如何在使用 AI 翻译时避免破坏 HTML 或 Markdown 格式?
将文本提取到结构化的块映射(ID 和类型)中,仅翻译内容字段,然后重新插入结果。强制执行一个模式,以便模型无法修改标签、链接或令牌,从而默认保留原始格式。
Q2: 在 AI 翻译中保持原始格式的最佳工作流程是什么?
将格式视为数据:将结构与副本分开,使用约束性提示,并运行自动 QA(模式检查、差异和渲染预览)。此工作流程可在保持标题、列表、表格和链接完整的同时,加快发布速度。
Q3: 在使用 AI 翻译时,我可以保留表格和列表吗?
是的——将每个表格单元格和列表项表示为具有稳定 ID 的单独块,然后仅翻译文本。在发布之前,验证单元格计数和列表层次结构是否未更改,以保持原始格式。
Q4: 在翻译过程中,如何处理品牌术语、代码块和占位符?
使用词汇表来固定品牌术语,将代码和变量(例如,{{name}})包装在不可翻译的跨度中,并指示模型保持它们不变。翻译后,运行令牌级别的差异,以确保没有任何内容被更改。
Q5: Sider.AI 在 AI 翻译工作流程中的作用是什么?
Sider.AI 在使用点(编辑器或网页内部)集成——从 DOM 捕获结构并返回可以嵌入到位的翻译。这减少了复制粘贴错误,保护了格式,并通过记忆和 QA 提高了价值。