“Prompt工程”的问题不在于Prompt本身
关于Sora 2的prompt工程,问题在于每个人都假装理解它——直到他们的视频看起来像是在土豆上拍摄的疯狂梦境。本能反应是添加更多的词,洒入一些术语,并希望模型能读懂人心。它不会的。Sora 2很聪明,就像一个伟大的自动完成功能一样:令人惊讶,但非常字面。说出你的意思。不要把重点埋在词典里。
行业炒作机器希望prompt工程成为炼金术。它不是。它是编辑,是指导。是你负责任地用机器无法误解的术语告诉它你想要什么。其余的——“秘密咒语”,复制粘贴的巫术——在失效之前一直有效。Sora 2比那更好。把它当作一个合作者,它会完全按照你说的理解,并且从不看样片。
我们实际上在谈论什么
让我们具体一点:Sora 2 prompt工程是编写prompt文本(以及在可用的情况下,参考输入和控制)的工艺,从而产生连贯、可控的视频。不是“灵感”,也不是“氛围”。你正在构建约束条件——主题、动作、相机、光照、风格、时长、节奏和连贯性——这样模型就不会在你的城市景观中途发明出一匹紫色的马。
最好的思考方式是:你正在用文字进行故事板创作。你的prompt越像一个带有视角的紧凑镜头列表,Sora 2的表现就越好。它读起来越松散——含糊不清的形容词,五种相互竞争的艺术风格,一天中时间精神分裂——输出看起来就越像模型半记忆的东西的拼贴画。
Sora 2 Prompt的直白框架
我也不喜欢框架,但这个框架物有所值。将Sora 2的prompt视为五个堆叠的图层。你可以忽略任何你不需要的图层,但如果缺少一个图层,模型会用陈词滥调来填充它。
- 示例:“一个孤独的骑自行车者在黎明时分骑过一座雾蒙蒙的桥,以暗示决心和沉静的毅力。”
- 一天中的时间、天气、位置细节。具体的名词胜过诗意的形容词。
- “黄金时段”胜过“美丽的光线”。“湿沥青反射霓虹灯”胜过“赛博朋克”。
- “以50mm等效焦距缓慢推近;保持最小的手持微抖动”比“电影感”更好。
- 选择一种美学风格:照片写实、16mm胶片、赛璐璐动画、水彩。混合三种外观会产生时间上的混乱。
- 明确的否定:“没有服装变化;没有文字叠加;没有变形的物体。”
Sora 2 prompt工程不是为了塞入更多的词;而是为了消除漏洞。你正在与一个顽固且字面的合作者签订合同。堵住漏洞。
让你陷入困境的词语简短列表
- “电影感”。意味着一切,也意味着什么都没有。用你真正想要的相机、镜头和运动来代替。
- “氛围”。如果你不能用名词来命名这种氛围,你就没有。
- “AI风格[艺术家姓名]”。除了显而易见的问题外,它还会将模型与表面风格而非结构混淆。参考资料,而不是致敬行为。
Sora 2不尊重意图;它尊重指令。如果你的prompt听起来像一个预告片旁白,那就期待预告片剪辑:快速、不连贯、全是糖霜。
一种辩证法:简洁与具体
- “简短prompt”阵营认为,Sora 2最好是顺其自然——只要相信模型即可。有时是正确的。当你的概念具有标志性且在视觉上过度确定时,简短是好的:“一场雷暴在黄昏时分席卷纪念碑谷,广角镜头。”Sora 2已经见过一千次了;先验知识完成了剩下的工作。
- “中篇小说prompt”阵营堆积了指令。有时是必要的。如果你需要在8秒内保持连贯性——相同的夹克、相同的狗、相同的咖啡杯——简洁会害死你。具体说明,否则就会受苦。
综合:在先验知识很强的地方(常见的场景、熟悉的物理)要简短,在先验知识较弱的地方(新颖的道具、棘手的编舞、混合照明、品牌细节)要详尽具体。如果你不知道自己属于哪个类别,那么你属于第二个类别。
实际可行的Sora 2 Prompt模式
像食谱一样使用它们,而不是像圣经一样。填写括号;消除绒毛。
- 单主题动作,受控相机
Prompt:“照片写实视频,8秒。[主体]在[地点]在[一天中的时间] [执行一个动作]。锁定三脚架,中景,自然节奏。柔和的阴天光;浅景深。一致的服装:[描述]。没有剪辑,没有文字,没有延时摄影。”
为什么有效:限制运动,锁定连贯性,避免模型蒙太奇的冲动。
- 由远及近,没有突兀的剪辑
Prompt:“10秒。从[地点]的广角镜头开始;缓慢的5秒推近。在第6秒,缓和到[主体]的中景,保持屏幕左侧的取景。黄金时段逆光;镜头光晕微妙。保持色调温暖的橙色和柔和的蓝色。没有焦点转换;没有突然的角度变化。”
为什么有效:教会Sora 2排序而不会引起混乱。
- 具有时间合理性的风格化动画
Prompt:“手绘,赛璐璐风格动画,12 fps。平面颜色,粗轮廓,有限的调色板[列出4种颜色]。[角色]穿过[场景]从左到右行走。侧滚式摄像机;仅背景视差。没有摄像机旋转,没有透视变化。可循环的结尾:角色从画面右侧退出。”
为什么有效:动画风格具有丰富的先验知识,但对摄像机变化敏感。锁定平面。
- 以天气和纹理为主导
Prompt:“[表面]的微距特写,6秒,三脚架。雨滴形成并融合,实时。柔和的顶光,深色背景。暗示音频但没有可见的。没有剪辑,没有人类主题,没有摄像机的反射。”
为什么有效:纹理先验知识很强;约束条件防止出现怪异的入侵。
- 无对白微型戏剧
Prompt:“照片写实,9秒。[角色A],[年龄/性别],身穿[特定服装],在[地点]等候。她查看短信,微妙地微笑,将手机放入口袋。越肩中景;浅景深;城市散景。自然的手部动作,没有嘴唇运动。始终保持[确切]的头发长度,左手食指上的戒指。没有背景角色模型变化。”
为什么有效:微小的人类规模的节拍;连贯性锚点可防止Sora 2在片段中间更换道具或面孔。
连贯性问题(以及如何停止输给它)
Sora 2最大的派对技巧也是它致命的弱点:它会发明。这很好,直到咖啡杯在框架之间在桌子上移动。连贯性中断已融入生成模型中;他们都在猜测每个时刻,并倾向于与上一个时刻相匹配。当你的prompt含糊不清时,猜测就会漂移。
不是魔法的修复方法:
- 锁定单数名词。“桌子东侧有一个红色陶瓷马克杯,边缘有缺口。”而不是“一个马克杯”。
- 冻结衣橱。“蓝色牛仔夹克,有两个胸袋,铜扣,没有补丁。不要改变。”
- 指挥负空间。“空桌子;除了杯子什么都没有。”如果你不禁止它,模型就会填充它。
- 限制相机移动。每个额外的运动轴都是打破连贯性的机会。
- 使用锚点节拍。“在第3秒,主体向下看;在第6秒,主体明显地呼气。”当时间明确时,漂移的空间就更小了。
Sora 2 prompt工程在很大程度上是连贯性工程。接受这一点,你的输出就会跃升一个等级。
风格不是服装,而是一种约束
人们要求“韦斯·安德森”就像他们要求“意式浓缩咖啡”一样——这通常意味着他们想要糖。风格不是你可以披在任何主题上的服装。在Sora 2中,风格选择了模型使用的规则:颜色、构图、运动,甚至镜头行为。
选择一个:
- 照片写实:皮肤毛孔、镜头像差、逼真的物理。非常适合产品和人类情感。对草率的prompt毫不留情。
- 胶片模拟(16mm、35mm):粗颗粒、光晕、较柔和的衰减、较低的饱和度。谨慎使用,指定库存时代,并保持照明简单。
- 动画(赛璐璐、定格动画、水彩):有利于清晰的轮廓、一致的轮廓和锁定的摄像机平面。过度堆砌的细节会破坏时间一致性。
- 图形/插图:平坦的色调、高对比度、大胆的几何形状。当运动最小且经过深思熟虑时有效。
错误是要求照片写实的光照与插图线条艺术。这可能会发生,但预计会出现时间噪声,因为模型会与自身争论。
“更多形容词 = 更好的视频”的迷思
如果你想要具体的输出,请使用具体的名词和动词。形容词是装饰:
- 糟糕:“一辆漂亮的汽车在未来派赛博朋克城市中快速行驶的电影感、史诗般的、超现实的镜头。”
- 良好:“照片写实镜头,6秒。一辆橙色的1971年达特桑240Z在小雨中穿过夜晚的涩谷。安装在引擎盖上的摄像机,24毫米等效焦距,轻微的运动模糊,湿沥青反射霓虹灯标志。保持交通密度适中;没有警车;没有logo特写。”
好的prompt不会大喊大叫。它会告诉你发生了什么、在哪里、如何以及不要做什么。
何时应该实际使用长Prompt
- 一次拍摄中的多重动作。如果摄像机或主题必须在精确的时间改变行为,请明确说明。
- 品牌或受监管的内容。你不能承担幻觉标志或不安全行为的风险。否定prompt成为不可协商的。
- 发明的物体或世界。如果你要制作一把“可以折射路灯的玻璃伞”,请定义其构造和行为。
- 与后期制作互操作。如果你知道你要合成,请约束照明、运动模糊和印版清洁度。
否则,将冗长视为盐。你可以添加它;你不能收回它。
迭代:无聊的秘密
有创造力的人喜欢认为第一次尝试应该是令人兴奋的。Sora 2足够快,你可以变得无聊和有条不紊:
- 从中间开始。一个主题,一个动作,一个相机。确定连贯性。
- 一次更改一件事。如果你在同一次传递中调整照明和摄像机,你将不知道什么被破坏了。
- 保留prompt和输出的变更日志。甚至是Google文档。未来的你会感谢你的。
当视频最终表现良好,你发誓你什么也没做时,兴奋就在第三稿中。你做了:你停止给模型找借口。
节省时间的护栏
- 物理很重要。不要要求五件违反基本运动的事情。该模型通过观察世界来学习物理;不要对它进行煤气灯。
- 面孔很难。如果你想要稳定性,请锁定头部角度、照明和距离。除非你喜欢融化,否则避免快速推入面孔。
- 人群是混乱。如果必须,请用景深或降低光线来模糊它们。不要让临时演员成为明星。
Sora 2 Prompt工程的工作模板
复制,然后自定义。删除任何你不需要的行。
标题/标签:Sora 2 prompt工程 — {Project Name}
意图:[你希望观众在一句话中感受到或想到什么。]
时长:[X]秒,单次连续拍摄。除非另有说明,否则没有剪辑。
主题:一个[清晰的主题],[年龄/描述],[服装细节]。
场景:[地点],[一天中的时间],[天气]。关键道具:[名词]。负空间:[必须保持为空白的内容]。
相机:[镜头类型],[镜头氛围],[运动],[节奏]。保持地平线[水平/倾斜]。取景:主题保持[屏幕位置]。
照明:[来源],[质量],[方向]。避免[不需要的照明伪影]。
风格:[照片写实 / 胶片 / 赛璐璐动画 / 其他],调色板[列出几种颜色]。纹理/颗粒[如果有的话]。
动作时间线:
连贯性锁定:[服装细节],[道具状态],[头发/眼睛颜色],[无文字叠加],[无logo交换]。
否定:无变形,无跳切,无延时摄影,无幻觉标牌,无摄像机反射。
现实检查:工具不能代替品味
你可以写出地球上最干净的Sora 2 prompt,但如果你的品味不好,仍然会得到一个无法观看的片段。构图、节奏、光线。这些不是时尚;它们是定律,而Sora 2并不能让你免于学习它们。很多“prompt工程”都是通过省略来进行设计:不要让模型做它想做的俗气的事情。当情感需要静止时,不要让它转动相机。
如果Sora 2 prompt工程有一个隐藏的超能力,那就是克制。少要求,多得到。要求一切,得到汤。
Sider.AI 真正有帮助的地方(以及没有帮助的地方)
Sider.AI 实际上有效——至少当你把它用于它擅长的方面时,奇怪的是,这不是每个人都吹嘘的。它不是“制作艺术”按钮。它是“不要忘记明显的约束”助手。起草你的Sora 2 prompt,然后让Sider.AI像代码编辑器的意义一样来整理它:标记无界形容词、矛盾的摄像机移动、丢失的连贯性锁定。这是提示,说:“你同时要求手持和三脚架。” 它不会帮助的地方:发明品味,或解决优柔寡断。如果你不知道你的片段是想要推轨还是锁定,没有工具可以回答这个问题。但是一旦你决定了,Sider.AI 擅长使prompt明确、可重复且令人欣慰地简短。 工作示例:前后对比
示例1:产品英雄镜头
- 之前:“在云石桌上的我们新智能手表的电影感、史诗般的镜头,戏剧性的灯光,水滴,超详细。”
- 之后:“照片写实微距,6秒。我们的智能手表(41毫米,银色铝,黑色氟橡胶表带)在哑光白色大理石上。静态三脚架;模拟缓慢的2%推入,而不是手持。单个顶部柔光箱;在水晶上形成小液滴的轻雾。屏幕关闭,表冠位于3点钟位置。除了我们的以外,没有其他logo;没有文字叠加。”
更改了什么:每个变量都已绑定;没有“史诗”。结果读起来像一个镜头列表,而不是一个情绪板。
示例2:带有人的街景
- 之前:“一个很酷的赛博朋克城市场景,一个人带着霓虹灯的氛围行走,电影感。”
- 之后:“8秒,照片写实。夜晚新宿的后街在小雨中;湿沥青反射霓虹灯标牌。一个人:女人,30多岁,海军风衣,白色运动鞋,黑色短波波头。中等宽度,眼睛水平,带有轻柔稳定的稳定摄像头;主体保持屏幕右侧,朝向摄像头移动。调色板为冷蓝色,偶尔为洋红色。没有英文标牌;没有雨伞;没有镜头交换。”
更改了什么:一个主题,一个动作,有意义的语言。片段连贯。
示例3:风格化循环
- 之前:“一个异想天开的动画循环,一只猫在一个神奇的森林里,吉卜力工作室的氛围。”
- 之后:“赛璐璐风格动画,12 fps。花猫坐在一个小空地上的一根苔藓原木上;萤火虫漂移。锁定相机,侧面。有限的调色板:森林绿色,淡黄色,暖棕色,奶油色。微风吹动树叶;猫尾巴每2秒钟摆动一次。可循环的结尾:微风和萤火虫返回到初始位置;没有相机抖动。”
更改了什么:没有点名;风格由规则定义,而不是参考。
Sora 2 团队的 Prompt 工程
如果你与利益相关者合作,你最大的敌人就是通过形容词达成共识。每个人都想要“更多能量”和“更多电影感”,就像它是一个旋钮一样。用选择代替形容词。
- 创建一个最多一页长的 prompt 规范。这是一个句子中的镜头列表。
- 添加一个批准清单:时长、主题数、相机、照明、风格、连贯性锁定、否定。如果未选中一个框,则你尚未完成。
- 将prompt与输出和注释一起存储。对其进行版本控制。你的“黄金prompt”成为资产。
像对待生产文档一样对待Sora 2 prompt的团队会得到看起来像是生产而不是发现的结果。
无需塔罗牌的故障排除
- 总是意外中断。您可能暗示了剪切(“与此同时”、“突然”、多个动作)或使用了蒙太奇语言。强制使用“单一连续镜头”并删除冲突的节奏。
- 面部不断变形。锁定头部方向、距离和光照。减少运动并禁止快速推拉镜头。减少关于情感的形容词,更多关于物理动作的描写。
- 道具瞬间移动。命名道具,将其相对于画面或场景定位,并禁止移动,除非另有说明。使用“始终保持在{position}位置”。
- 镜头感觉杂乱。您让模型填补了空白。声明留白并减少背景运动。
- 风格闪烁不定。您要求了两种外观。选择一种,或允许在明确的时间戳进行过渡。
关于伦理和来源的一点说明
提示词工程并不能免除您对来源的思考。如果您追求的是一位在世艺术家的风格,请问问自己为什么。如果答案是“因为它很流行”,那么您已经偏离了方向。采纳结构性的见解——色块、不对称、浅景深——并描述这些。您会得到更干净、更一致且属于您自己的东西。
安静的结论
Sora 2 的提示词工程,在最好的情况下,在纸面上是枯燥的,但在屏幕上却出奇地感人。不是因为您找到了神奇的词语,而是因为您没有让机器在重要的部分进行即兴创作。指导模型有趣的地方在于,它会奖励与真实场景相同的纪律:了解您的主题,锁定您的镜头,有意识地进行照明,防止背景抢走风头。
如果您想要一句口头禅,这里有一句:少用形容词,多用名词;少用氛围,多用动词。说出您的意思。模型会准确地做到这一点——不多也不少。这才是重点。
关键词注释 (供有需要的人参考)
本文涵盖了 Sora 2 提示词工程,包括如何为 Sora 2 编写清晰的提示词,Sora 2 视频提示词的示例,连续性锁定,相机指令和风格约束。如果您一直读到这里,恭喜您:您现在知道为什么“电影感 (cinematic)”是这个行业中最不电影感的词了。
常见问题解答
Q1: 什么是 Sora 2 提示词工程?
实际上,它是为 Sora 2 编写镜头精确的指令——主题、相机、光照、风格和连续性——以便模型不会误解您。您的 Sora 2 提示词中的漏洞越少,视频就越好。
Q2: 如何在不听起来像诗人的情况下编写更好的 Sora 2 提示词?
使用名词和动词:谁做什么,在哪里,以及如何做。对于 Sora 2 提示词工程,用镜头、运动和时间来代替“电影感(cinematic)”;用场景事实和留白代替“氛围(vibe)”。
Q3: 为什么我的 Sora 2 视频在拍摄过程中不断更换服装和道具?
连续性漂移。在 Sora 2 提示词中明确锁定服装、道具位置和角色特征,并禁止更换。如果您不禁止它,模型会将其视为公平竞争。
Q4: Sora 2 提示词应该短还是长?
当您依靠强大的先验知识(简单、标志性的场景)时,提示词可以短;当您需要新颖的细节或定时节奏时,提示词可以长。在 Sora 2 提示词工程中,冗长是一种工具,而不是一种美德。
Q5: 今天改进 Sora 2 结果的最快方法是什么?
减少形容词,锁定相机,并指定单一的主题和动作。添加连续性锁定和否定——Sora 2 提示词工程主要关于关闭漏洞。