「提示工程」的問題不在於提示本身
關於 Sora 2 的提示工程,每個人都假裝理解——直到他們的影片看起來像是在馬鈴薯上拍攝的發燒夢。本能反應是添加更多的詞,撒上一些術語,並希望模型能讀懂人心。它不會。Sora 2 的智慧就像一個出色的自動完成功能一樣:驚人,但非常字面。說出你的意思。不要把重點埋在詞庫裡。
業界的炒作機器希望提示工程成為煉金術。它不是。它是編輯。它是指導。它是你負責告訴機器你想要什麼,用它不可能誤解的術語。剩下的——「秘密咒語」、複製貼上的巫術——在失效之前一直有效。Sora 2 比那更好。把它當作一個合作者,它會完全相信你所說的一切,而且從不看樣片。
我們實際上在談論什麼
讓我們具體一點:Sora 2 的提示工程是編寫提示文字(以及在可用的情況下,參考輸入和控制)的技巧,以產生連貫、可控的影片。不是「靈感」。不是「氛圍」。你正在構建約束條件——主題、動作、相機、光線、風格、持續時間、節奏和連貫性——所以模型不會在你的城市景觀中途創造出一匹紫色的馬。
思考這個問題的最佳方式:你正在用文字製作故事板。你的提示越像一個帶有觀點的緊湊鏡頭列表,Sora 2 的表現就越好。它讀起來越鬆散——含糊的形容詞、五種相互競爭的藝術風格、精神分裂的時間——輸出的結果就越像模型半記憶的東西的拼貼。
Sora 2 提示的直白框架
我也不喜歡框架,但這個框架物有所值。將 Sora 2 提示視為五個堆疊的層。你可以忽略任何你不需要的層,但如果缺少一個層,模型會用陳腔濫調填充它。
- 範例:「一個孤獨的自行車手在黎明時分騎過一座霧氣瀰漫的橋,以暗示決心和安靜的毅力。」
- 一天中的時間、天氣、地點細節。具體的名詞勝過詩意的形容詞。
- 「黃金時段」勝過「美麗的光線」。「潮濕的瀝青反射霓虹燈」勝過「賽博龐克風格」。
- 「以 50 毫米等效焦距緩慢地推軌;保持最小的手持微抖動」優於「電影感」。
- 選擇一種美學方向:照片寫實、16 毫米膠片、賽璐璐動畫、水彩。混合三種外觀會導致時間上的混亂。
- 明確的否定:「沒有服裝變化;沒有文字疊加;沒有變形物體。」
Sora 2 的提示工程不是關於塞入更多的詞;而是關於消除漏洞。你正在與一個頑固地字面的合作者簽訂合同。堵住漏洞。
讓你陷入麻煩的詞語簡短列表
- 「電影感」。意味著一切和什麼都沒有。用你真正想要的相機、鏡頭和運動來代替。
- 「氛圍」。如果你不能用名詞來命名氛圍,你就沒有氛圍。
- 「AI 風格 [藝術家的名字]」。除了明顯的問題之外,它還會用表面風格而不是結構來混淆模型。參考材料,而不是致敬表演。
Sora 2 不尊重意圖;它尊重指示。如果你的提示聽起來像預告片旁白,那就期待預告片剪輯:快速、不連貫、全是糖霜。
一種辯證法:簡潔與具體
- 「簡短提示」陣營認為,Sora 2 在獨自工作時效果最佳——只需相信模型即可。有時是真的。當你的概念具有標誌性且在視覺上過於確定時,簡短是好的:「黃昏時分,雷暴席捲紀念碑谷,廣角鏡頭。」 Sora 2 已經見過一千次了;先驗知識完成了其餘的工作。
- 「中篇小說提示」陣營堆積了大量指令。有時是必要的。如果你需要在 8 秒內保持連貫性——相同的夾克、相同的狗、相同的咖啡杯——簡潔會害死你。指定或受苦。
綜合:在先驗知識強的地方(常見場景、熟悉的物理學)簡短,在先驗知識弱的地方(新穎的道具、棘手的編舞、混合照明、品牌細節)詳盡地具體。如果你不知道你屬於哪個桶,你就屬於第二個桶。
實際有效的 Sora 2 提示模式
像食譜一樣使用這些,而不是像聖經一樣。填寫括號;消除多餘的部分。
- 單一主體動作,受控相機
提示:「照片寫實影片,8 秒。[主體] 在 [地點] 的 [一天中的時間] [執行單一動作]。鎖定三腳架,中景鏡頭,自然節奏。柔和的陰天光線;淺景深。一致的服裝:[描述]。沒有剪切,沒有文字,沒有延時攝影。」
有效原因:限制運動,鎖定連續性,避免模型組裝的衝動。
- 沒有快速剪切的建立到細節
提示:「10 秒。從 [地點] 的廣角鏡頭開始;緩慢的 5 秒推軌。在第 6 秒,輕鬆過渡到 [主體] 的中景鏡頭,保持螢幕左側的取景。黃金時段逆光;鏡頭光暈微妙。保持調色盤溫暖的橙色和柔和的藍色。沒有追焦;沒有突然的角度變化。」
有效原因:教導 Sora 2 排序而不引起混亂。
- 具有時間健全性的風格化動畫
提示:「手繪、賽璐璐風格動畫,12 fps。扁平的顏色,粗線條,有限的調色盤 [列出 4 種顏色]。[角色] 從 [設置] 中從左到右走。側滾動條相機;僅背景有視差。沒有相機旋轉,沒有透視圖變化。可循環的結尾:角色從右側退出畫面。」
有效原因:動畫風格具有豐富的先驗知識,但對相機變化敏感。鎖定平面。
- 天氣和紋理作為主角
提示:「[表面] 的微距特寫,6 秒,三腳架。雨珠形成和合併,即時。柔和的頂光,深色背景。暗示音訊但沒有可見的音訊。沒有剪切,沒有人類主體,沒有相機的反射。」
有效原因:紋理先驗知識很強;約束條件可防止怪異的入侵。
- 無對白微型戲劇
提示:「照片寫實,9 秒。[角色 A],[年齡/性別],穿著 [特定服裝],在 [地點] 等待。她檢查簡訊,微微一笑,把手機放入口袋。過肩中景鏡頭;淺景深;城市散景。自然的手部動作,沒有嘴唇移動。始終保持頭髮長度 [確切],左手食指上的戒指。沒有背景角色模型變化。」
有效原因:微小的人類規模節拍;連續性錨點可防止 Sora 2 在剪輯中間切換道具或面孔。
連續性問題(以及如何停止輸給它)
Sora 2 最大的派對技巧也是其致命弱點:它會發明。這很棒,直到咖啡杯在幀之間在桌子上移動。連續性中斷已烘焙到生成模型中;他們在猜測每一刻,並帶有匹配最後一刻的偏見。當你的提示含糊不清時,猜測會漂移。
不是魔法的修復:
- 鎖定單數名詞。「桌子東側的一個帶有缺口的紅色陶瓷杯。」不是「一個杯子」。
- 凍結服裝。「帶有兩個胸前口袋、銅鈕扣、沒有補丁的藍色牛仔夾克。不要更改。」
- 命令負空間。「空桌子;除了杯子什麼都沒有。」如果你不禁止它,模型就會填充它。
- 限制相機移動。每個額外的運動軸都是打破連續性的機會。
- 使用錨點節拍。「在第 3 秒,主體向下看;在第 6 秒,主體明顯呼氣。」當時間明確時,漂移的空間較小。
Sora 2 的提示工程在很大程度上是連續性工程。接受這一點,你的輸出就會跳一級。
風格不是服裝,而是一種約束
人們要求「魏斯·安德森」的方式就像他們要求「濃縮咖啡」一樣——這通常意味著他們想要糖。風格不是你可以披在任何主題上的服裝。在 Sora 2 中,風格選擇了模型使用的規則:顏色、構圖、運動,甚至鏡頭行為。
選擇一個:
- 照片寫實:皮膚毛孔、鏡頭像差、逼真的物理學。非常適合產品和人類情感。對草率的提示毫不留情。
- 膠片模擬(16 毫米、35 毫米):粗顆粒、光暈、較柔和的衰減、較低的飽和度。謹慎使用,指定庫存時代,並保持照明簡單。
- 動畫(賽璐璐、定格動畫、水彩):有利於清晰的輪廓、一致的輪廓和鎖定的相機平面。過多的細節會破壞時間一致性。
- 圖形/插圖:平坦的色調、高對比度、大膽的幾何形狀。當運動最小且經過深思熟慮時有效。
錯誤是要求照片寫實照明和插圖線條藝術。它可能會發生,但預計會出現時間噪音,因為模型會與自身爭論。
「更多形容詞 = 更好的影片」的神話
如果你想要特定的輸出,請使用特定的名詞和動詞。形容詞是裝飾:
- 錯誤:「一輛美麗的汽車在未來賽博龐克城市中快速行駛的電影感、史詩般的、超寫實的鏡頭。」
- 正確:「照片寫實鏡頭,6 秒。一輛橙色的 1971 年日產 240Z 在晚上在澀谷在小雨中穿行。安裝在引擎蓋上的相機,24 毫米等效焦距,輕微的運動模糊,潮濕的瀝青反射霓虹燈標誌。保持交通密度適中;沒有警車;沒有商標特寫。」
好的提示不會大喊大叫。它會告訴你確切發生了什麼,在哪裡,如何,以及不要做什麼。
當你真的應該使用長提示時
- 一次拍攝中的多節拍動作。如果相機或主體必須在精確的時間改變行為,請詳細說明。
- 品牌或受監管的內容。你不能承擔幻覺的標誌或不安全的行為。否定提示變得不容商議。
- 發明的物體或世界。如果你要製作「一個折射街燈的玻璃雨傘」,請定義結構和行為。
- 與後製互通。如果你知道你要合成,請約束照明、運動模糊和圖版清潔度。
否則,將冗長視為鹽。你可以添加它;你不能把它拿回來。
迭代:無聊的秘密
有創造力的人喜歡認為第一次嘗試應該令人興奮。Sora 2 速度夠快,你可以變得無聊且有條不紊:
- 從中性開始。一個主題,一個動作,一個相機。釘牢連續性。
- 一次更改一件事。如果你在同一次傳遞中調整照明和相機,你將不知道什麼壞了。
- 保留提示和輸出的變更日誌。甚至是 Google 文件。未來的你會感謝你。
當影片最終表現良好並且你發誓你什麼也沒做時,快感就在第三稿中。你做到了:你停止給模型藉口。
節省時間的防護措施
- 物理學很重要。不要要求五件事違反基本運動。模型通過觀察世界來學習物理學;不要對它進行煤氣燈。
- 臉很難。如果你想要穩定性,請鎖定頭部角度、照明和距離。避免在臉上快速推入,除非你喜歡融化。
- 人群是混亂的。如果你必須,用景深或降低光線來模糊它們。不要讓臨時演員成為明星。
Sora 2 提示工程的工作範本
複製,然後自定義。刪除任何你不需要的行。
標題/標籤:Sora 2 提示工程 — [專案名稱]
意圖:[你希望觀眾在一句話中感受或思考什麼。]
持續時間:[X] 秒,單次連續拍攝。除非另有說明,否則沒有剪切。
主題:一個 [清晰的主題],[年齡/描述],[服裝細節]。
場景:[地點],[一天中的時間],[天氣]。主要道具:[名詞]。負空間:[必須保持空白的內容]。
相機:[鏡頭類型],[鏡頭氛圍],[運動],[節奏]。保持地平線 [水平/傾斜]。取景:主題保持 [螢幕位置]。
照明:[來源],[品質],[方向]。避免 [不需要的照明偽影]。
風格:[照片寫實 / 膠片 / 賽璐璐動畫 / 其他],調色盤 [列出幾種顏色]。紋理/顆粒 [如果有的話]。
動作時間線:
連續性鎖定:[服裝細節],[道具狀態],[頭髮/眼睛顏色],[沒有文字疊加],[沒有標誌交換]。
否定:沒有變形、沒有跳切、沒有延時攝影、沒有幻覺的標牌、沒有相機反射。
現實檢查:工具無法取代品味
你可以編寫地球上最乾淨的 Sora 2 提示,但如果你的品味不好,仍然會得到一個無法觀看的剪輯。構圖、節奏、光線。這些不是一時的流行;它們是定律,Sora 2 並不免除你學習它們。許多「提示工程」都是通過省略進行設計:不要讓模型做它想做的俗氣的事情。不要讓它在情感需要靜止時轉動相機。
如果 Sora 2 提示工程有一個隱藏的超能力,那就是克制。少要,多得。什麼都要,一團糟。
Sider.AI 真正有幫助的地方(以及沒有幫助的地方)
Sider.AI 實際上有效——至少當你將其用於擅長的地方時,奇怪的是,這並不是每個人都在吹噓的地方。它不是「製作藝術」按鈕。它是「不要忘記明顯的約束」助手。起草你的 Sora 2 提示,然後讓 Sider.AI 像意義的代碼編輯器一樣對其進行 lint:標記無界的形容詞、矛盾的相機移動、缺失的連續性鎖定。它是說「你同時要求手持和三腳架」的提示。 它在哪裡沒有幫助:發明品味,或解決優柔寡斷。如果你不知道你的剪輯是想要一個推軌還是鎖定,沒有工具可以回答這個問題。但是一旦你決定了,Sider.AI 擅長使提示明確、可重複且非常簡短。 已完成的範例:之前和之後
範例 1:產品英雄鏡頭
- 之前:「我們的新智慧手錶在大理石桌上的電影感、史詩般的鏡頭,戲劇性的照明,水滴,超詳細。」
- 之後:「照片寫實微距,6 秒。我們的智慧手錶(41 毫米,銀色鋁製,黑色氟橡膠錶帶)在啞光白色大理石上。靜態三腳架;模擬緩慢的 2% 推入,不是手持。單個頂部柔光箱;水晶上形成小水滴的薄霧。螢幕關閉,表冠位於 3 點鐘位置。除了我們的標誌外,沒有其他標誌;沒有文字疊加。」
改變了什麼:每個變數都被綁定;沒有「史詩」。結果讀起來像一個鏡頭列表,而不是一個情緒板。
範例 2:帶有人類節拍的街道場景
- 之前:「一個很酷的賽博龐克城市場景,一個人在霓虹燈氛圍中行走,電影感。」
- 之後:「8 秒,照片寫實。小雨中的夜間新宿小巷;潮濕的瀝青反射霓虹燈標誌。一個人:女人,30 多歲,海軍藍風衣,白色運動鞋,黑色短鮑伯髮型。中廣角,視線水平,帶有輕微穩定功能的穩定器;主體保持螢幕右側向相機移動。調色盤冷藍色,偶爾有洋紅色。沒有英文標誌;沒有雨傘;沒有鏡頭交換。」
改變了什麼:一個主題,一個運動,有意義的語言。剪輯連貫。
範例 3:風格化循環
- 之前:「一個異想天開的動畫循環,一隻貓在一個神奇的森林裡,吉卜力工作室的氛圍。」
- 之後:「賽璐璐風格動畫,12 fps。花貓坐在一個小空地上的一根苔蘚原木上;螢火蟲漂流。鎖定相機,側面。有限的調色盤:森林綠色、淡黃色、暖棕色、奶油色。微風吹動樹葉;貓尾巴每 2 秒擺動一次。可循環的結尾:微風和螢火蟲回到初始位置;沒有相機抖動。」
改變了什麼:沒有點名;風格由規則定義,而不是參考。
Sora 2 團隊的提示工程
如果你與利益相關者合作,你最大的敵人是形容詞的共識。每個人都想要「更多能量」和「更多電影感」,就像它是一個旋鈕一樣。用選擇代替形容詞。
- 創建一個最長一頁的提示規範。這是一個句子中的鏡頭列表。
- 添加一個批准清單:持續時間、主題計數、相機、照明、風格、連續性鎖定、否定。如果未選中一個框,則表示你尚未完成。
- 將提示與輸出和註釋一起儲存。對它們進行版本控制。你的「黃金提示」成為資產。
像製作文件一樣對待 Sora 2 提示的團隊會獲得看起來像是製作出來而不是發現的結果。
不用塔羅牌進行故障排除
- 總是意外中斷。您可能暗示了剪接(「同時」、「突然」、多個動作)或使用了蒙太奇語言。強制使用「單一連續鏡頭」並移除衝突的節奏。
- 人臉不斷變形。鎖定頭部方向、距離和光線。減少運動並禁止快速推進鏡頭。減少關於情感的形容詞,多描述身體動作。
- 道具瞬間移動。命名道具,將其相對於畫面或場景定位,並禁止移動,除非另有說明。使用「始終保持在[位置]」。
- 鏡頭感覺很雜亂。您讓模型填補了空白。聲明留白並減少背景運動。
- 風格閃爍不定。您要求了兩種風格。選擇一種,或允許在明確的時間戳記進行轉換。
關於倫理和出處的說明
提示工程並不能免除您思考來源。如果您追求一位在世藝術家的風格,請自問為什麼。如果答案是「因為它很流行」,那麼您已經迷失了方向。提取結構性的見解——色彩分佈、不對稱、淺景深——並描述這些。您會得到更乾淨、更一致,並且屬於您自己的東西。
安靜的結論
Sora 2 提示工程,在其最佳狀態下,在紙上是乏味的,但在螢幕上卻出人意料地令人感動。不是因為您找到了神奇的詞語,而是因為您沒有讓機器在重要的部分進行即興創作。指導模型有趣的地方在於,它會獎勵與真實片場相同的自律:了解您的主題,鎖定您的鏡頭,有目的地打光,防止背景搶走畫面。
如果您想要一句口頭禪,這裡有一句:減少形容詞,增加名詞;減少氛圍,增加動詞。說出您的意思。模型會準確地做到——不多也不少。這才是重點。
關鍵字註釋(給那些關心的人)
本文涵蓋了 Sora 2 提示工程,包括如何為 Sora 2 編寫清晰的提示,Sora 2 影片提示的範例、連續性鎖定、相機指示和風格約束。如果您一直讀到這裡,恭喜您:您現在知道為什麼「電影感」是這個行業中最不具電影感的詞語了。
常見問題解答
Q1:什麼是 Sora 2 提示工程?
實際上,它是為 Sora 2 編寫精確到鏡頭的指令——主題、相機、光線、風格和連續性——以便模型不會誤解您。您的 Sora 2 提示中的漏洞越少,影片就越好。
Q2:如何編寫更好的 Sora 2 提示,而聽起來不像詩人?
使用名詞和動詞:誰在做什麼、在哪裡以及如何做。對於 Sora 2 提示工程,用鏡頭、運動和時間安排來取代「電影感」;用場景事實和留白來取代「氛圍」。
Q3:為什麼我的 Sora 2 影片在拍攝過程中不斷更換服裝和道具?
連續性漂移。在 Sora 2 提示中明確鎖定服裝、道具位置和角色特徵,並禁止更換。如果您不禁止它,模型會將其視為公平的遊戲。
Q4:Sora 2 提示應該短還是長?
當您依賴強先驗(簡單、標誌性的場景)時,提示應該短;當您需要新穎的細節或定時的節奏時,提示應該長。在 Sora 2 提示工程中,冗長是一種工具,而不是一種美德。
Q5:今天改進 Sora 2 結果的最快方法是什麼?
減少形容詞,鎖定相機,並指定單一的主題和動作。添加連續性鎖定和否定——Sora 2 提示工程主要關於關閉漏洞。