是否曾尝试整理一个像小精灵一样迅速增殖的术语表?
我曾经打开一个客户“最终”的术语列表,发现“onboarding”有 14 个版本——on-boarding、on boarding、OnBoarding,甚至还有人用了个奇怪的变体“User Ignition”。如果你曾经清理过厨房的杂物抽屉,你就能体会到那种感觉。构建一致的术语库就是这样——除非你把这个烂摊子交给 AI 驱动的术语提取,并配以一个好的、高级的 Sider 用户提示。
这并不是又一篇“AI 将改变一切”的布道文。而是“AI,请提取对我的产品真正重要的术语,不要产生幻觉,并在午餐前帮助我交付一份干净的术语表”。让我们让 AI 驱动的术语提取不仅智能,而且可重复、可审计,并且少一些“小精灵”特性。
我们在这里做什么(以及为什么它很重要)
你拥有大量的内容:产品文档、法律文件、用户体验字符串、发布说明,以及某人在凌晨 1 点做的随机命名头脑风暴。AI 驱动的术语提取可以扫描整个“干草堆”,并从中提取出“针”:关键名词、领域特定的动词、首字母缩略词、产品名称,以及那些狡猾的短语(“单点登录”、“速率限制”、“零样本提示”),你的翻译人员和作者肯定会在稍后问及。
诀窍在于提示。不是诗意的提示。而是一个结构化的、故意显得枯燥的、高级的 Sider 用户提示,它可以每次都获得一致、可靠的术语提取结果。
给没耐心的人
- 你需要一个结构化的、可审计的提示,告诉 AI 提取什么,忽略什么。
- 首先要求机器可读的输出(JSON 或 TSV),其次是人类可读的注释。
- 强制执行规则:词性、领域过滤器、频率阈值和上下文窗口。
- 始终进行去重、规范化,并明确设置样式决策(大小写、连字符)。
- 按源领域运行提取,然后进行协调。不要将财务术语与开发者文档混在一起。
入门套件:AI 驱动的术语提取实际上是如何工作的
将 AI 驱动的术语提取想象成单词的快速约会。模型会遇到每个 token,问几个问题(你是一个领域术语吗?人们关心你吗?你在不同的上下文中会改变含义吗?),并且只会给那些值得带回家放到术语表中的单词送上一朵玫瑰。
在底层,大型语言模型擅长:
- 发现多词术语和变体:“two-factor authentication”(双因素认证)、“2FA”、“two step verification”(两步验证)。
- 选择领域特定的含义:AI 中的“agent”(代理)与房地产中的“agent”(经纪人)。
它们不太擅长:
- 了解你的团队对“log in”(动词)与“login”(名词)的偏好。
- 不过度提取每个大写的名词,就好像它们是夜总会的 VIP 一样。
所以我们用提示来解决这个问题。一个非常具体的提示。
用于 AI 驱动的术语提取的高级 Sider 用户提示
复制它。编辑它。把它贴在你项目经理的键盘上。目标:一致、干净的术语输出,你可以把它交给本地化、文档、用户体验和市场营销团队,而不会引发术语表内战。
H2: 高级提示:用于产品和文档的 AI 驱动的术语提取
系统/角色
“你是一位细致的术语分析师。你识别领域特定的术语及其变体,简洁地定义它们,并提供用法说明。你输出经过验证的、机器可读的数据,具有清晰的推理,并且没有幻觉。”
任务
“从提供的内容中提取与领域相关的术语。优先考虑产品名称、功能名称、技术名词、首字母缩略词和稳定的多词表达。排除通用语言、模糊的营销短语和非领域形容词。”
约束
- 名为 terms 的 JSON 数组,包含以下字段:
- term(字符串,规范形式,小写,除非是专有名词)
- domain(字符串:例如,security、billing、analytics)
- definition(<= 25 个单词,具体,没有营销内容)
- usage_example(10-20 个单词,简单的句子)
- context_snippets(来自源的 1-3 个简短引语数组)
- notes:应用的规范化规则的简短项目符号列表(连字符、大小写、缩写扩展)
- 对多词术语进行分组(例如,“role-based access control”)。
- 映射变体:单数/复数、连字符、驼峰式大小写、首字母缩略词扩展。
过滤器
- 排除:通用形容词、时间参考、公司样板文字、标语、人名(除非对产品至关重要)、没有领域上下文的模糊单字。
格式化
- 为 terms 块返回有效的 JSON。JSON 前后没有注释。
评分
- 通过证据密度对置信度进行评分:频率、与定义的接近程度、标题、类似术语表的用法。
输入
- 你将收到分段的内容。对于每个段,提取术语并合并到现有集合中。
验证
- 如果无法从上下文中定义术语,则标记为 confidence < 0.5,并在 Notes 中添加请求以提供更多示例。
示例输出(缩写)
terms: [
{
"term": "two-factor authentication",
"variants": ["2fa", "two-step verification"],
"pos": "noun",
"domain": "security",
"definition": "A login process requiring two independent proofs of identity.",
"usage_example": "Enable two-factor authentication for admin accounts in settings.",
"context_snippets": ["Enable 2FA in the Security tab", "two-step verification emails"],
"confidence": 0.92
}
]
注释:
- 规范化了“role-based access control”的连字符。
- 大写了专有名词:“PostgreSQL”、“OAuth 2.0”。
就这样。这是你的可重用引擎。让它枯燥。让它一致。让它成为你未来的自己在本地化截止日期的晚上 11:59 感谢你的东西。
真实世界的工作流程:停止混合你的汤
你不会把你的番茄汤和你的冰咖啡混合在一起。(如果你会,我们需要谈谈。)这里也是一样:保持来源分离,然后进行协调。
- 第一轮:仅在产品文档上运行 AI 驱动的术语提取。导出 JSON。
- 第三轮:在法律/政策文档上运行。导出 JSON,但要真正地过滤掉营销术语。
- 协调:合并 JSON 数组。按规范形式去重。按领域保留变体。如果“token”在安全和计费方面意味着不同的东西,则保留两者,并清楚地界定范围。
专业提示:在提取过程中添加“source”字段,这样当有人大喊“谁把‘magic sauce’添加到 API 中了?”时,你总是知道术语来自哪里。
评分和置信度:因为不是所有东西都值得成为术语表的一员
如果一个术语在脚注中出现两次,而从未在标题中出现,那么它就不是 VIP。使用三信号评分:
如果一个术语得分较低,但利益相关者坚持保留它(你好,“platform”),则添加它并附上用法说明:“避免通用的营销用法;更喜欢具体的功能名称。”
规范化规则:每个人都在争论的部分
AI 驱动的术语提取完成了繁重的工作,但规范化维护了和平:
- 大小写:专有名词大写 (OAuth 2.0),功能名称小写,除非是品牌。
- 连字符:选择一个方向。role-based access control (RBAC),而不是“role based”。
- 名词 vs 动词:login(名词),log in(动词)。是的,这很重要。是的,你的应用程序混合了它们。
- 首字母缩略词:首先以完整术语(role-based access control)引入,然后是首字母缩略词 (RBAC)。
- 复数:规范形式通常是单数,除非该术语本质上是复数(credentials)。
将这些规则添加到你的提示 Notes 中,以便模型加强它们。
多语言?不要翻译术语。管理它们。
对于本地化团队来说,术语表就是法律。首先以源语言提取,然后为目标语言创建术语条目,包含以下字段:
- source_term, locale_term, part_of_speech, gender/grammar notes, do-not-translate flag, forbidden forms.
- 添加文化注意事项。AI 中的“Agent”与西班牙语客户支持中的“agente”——不同的氛围。
AI 可以帮助构建目标语言建议,但对产品名称、系统变量和代码元素保持“do not translate”。你未来的 QA 团队会感谢你的。
我看到的最糟糕的错误(以及如何避免它们)
- 过度提取大写的单词:使用过滤器修复:“专有名词仅限于产品/服务或标准(例如,OAuth, Kubernetes)。”
- 模糊的定义:强制限制在 25 个单词以内,并带有可测试的行为(“限制每个用户每分钟的请求数”)。
- 没有示例:始终包含 usage_example。人们通过观察来学习。
- 混合领域:按术语标记领域。你可以稍后进行协调,但不要假装“key”在任何地方都意味着相同的东西。
- 没有版本控制:术语表会改变。保留版本戳。为旧名称添加“deprecated”字段。
使用示例段落进行快速测试
假设你的文档说:“Enable two-factor authentication for admin users. Our role-based access control (RBAC) lets you assign custom roles. API keys must be rotated every 90 days.”
一个好的提取返回:
- two-factor authentication (variants: 2FA, two-step verification) — domain: security
- role-based access control (RBAC) — domain: security
- admin user (variants: administrator) — domain: identity
- API key — domain: security/devops
- key rotation — domain: security
一个糟糕的提取返回:
- enable; users; days; custom; rotation (请不要这样)
谁应该拥有这个?提示:不是“每个人”。
AI 是永不休眠的实习生。人类仍然设定规则。
值得注意的是:Sider.AI 可以成为你的提取自动驾驶仪
如果你宁愿花一个下午喝咖啡,也不愿与 CSV 作斗争,Sider.AI 可以在多个文档中运行这个高级提示,合并 JSON,并让你比你说“谁发明了驼峰式大小写?”更快地进行抽查。在我的测试中,UI 的并排视图(用于变体和置信度分数)可以防止你在一页上批准“log-out”,而在另一页上批准“logout”。这不是魔法——只是良好的防护措施。 注意:你仍然需要像老板一样编写提示并设置你的规范化规则。工具不能解决犹豫不决的问题。它们只是让它变得明显。
如何在没有戏剧性的情况下将其插入到你的内容管道中
- 将提取添加到你的 PR/合并清单中。新功能?新术语。
- 在更改的文档上每晚运行。Diff JSON。专注于新的/低置信度条目。
- 根据术语表的完整性来确定翻译。没有术语,就没有工单。
- 跟踪决策日志:当“Spaces”变为“Projects”时,记录下来。你未来的自己无法读懂心思。
趋势:AI 驱动的术语提取的下一步是什么
- 上下文感知治理:自动检测冲突含义并建议领域拆分的模型。
- 实时 UI 绑定:直接同步到你的设计系统和组件库的术语表条目。
- 检索增强验证:该模型引用它在哪里看到该术语以及为什么它很重要。
- 质量评分:当一个术语过于通用而无用时,会发出预测性标志。
是的,其中一些以碎片形式存在。有趣的部分是使其变得枯燥和可靠。
简单的清单(将其覆膜)
- 使用严格的 JSON 输出运行高级 Sider 提示。
- 规范化:大小写、连字符、首字母缩略词、名词/动词。
- 锁定本地化的“do not translate”项目。
总结:减少小精灵,增加清晰度
AI 驱动的术语提取不会使你的产品更简单。但它会使你的语言一致——一致性是你停止争论“log in”的同时交付功能的方式。从高级提示开始。保持它的枯燥。当有人在规范中放入“User Ignition”时,你的系统会礼貌地问:“请定义一下。”
现在去清理那个术语表抽屉吧。橡皮筋可以留下。过期的酱油?不是术语。绝对过期了。
常见问题解答
Q1:用简单的英语来说,什么是 AI 驱动的术语提取?
它是使用 AI 扫描你的内容并提取重要的领域术语——如功能名称、首字母缩略词和多词短语——然后定义和规范化它们。可以把它想象成自动管理一个干净、可用的术语表。
Q2:如何编写高级 Sider 用户提示以获得更好的术语提取?
具体而枯燥:要求 JSON 输出,定义包含/排除规则,要求定义和示例,并标记领域。添加规范化注释,以便模型应用一致的大小写、连字符和首字母缩略词处理。
Q3:如何避免 AI 过度提取随机大写的单词?
使用过滤器,该过滤器仅允许产品名称、标准和具有上下文的明确的多词术语。需要频率阈值和置信度分数,以便过滤掉通用或一次性单词。
Q4:我应该一次从所有文档中提取术语吗?
按领域运行提取——产品文档、开发者文档、法律——然后合并和去重。这保留了上下文,并防止了像“token”在团队中意味着五种不同含义的冲突。
Q5:Sider.AI 在此工作流程中的哪个环节提供帮助?
Sider.AI 允许你在多个文件中运行高级提示,合并输出,并快速审查置信度和变体。它不会为你决定样式,但它使执行你的规则变得轻松。