簡介:演示影片的問題
關於AI影片——尤其是Runway的Gen-3——的問題是,每個人都假裝理解它,直到他們必須實際將其用於實際發布的東西。演示影片像漫威預告片一樣登陸:光鮮、動感、勝利。然後你接觸產品,發現隱藏的最終Boss不是模型——而是你的想法和最終可觀看的片段之間的混亂。實際操作Runway Gen-3的感覺正是如此:一個真正令人印象深刻的文字轉影片引擎,第一次嘗試會讓你感到驚喜,但第三次嘗試會讓你感到謙卑,尤其是在你追求連貫性、時間控制和意圖時。
我花了一個星期生成、迭代和合成小的鏡頭——標題卡、產品B-roll、面部特寫,以及通常的“讓它像電影一樣”的內容。Gen-3在很多方面都做得非常出色。但它也會在演示影片中順暢滑過的場景連貫性、物理合理性和繁瑣的修改方面失誤。
H2:Runway Gen-3目前擅長之處
讓我們從讚揚開始,因為Gen-3值得讚揚。
- 材質和表面真實感:要求在柔和的攝影棚燈光下呈現拉絲鋁,你就能得到在柔和的攝影棚燈光下的拉絲鋁。膚色通常會偏向自然,而織物——牛仔布、緞面——乍一看也很正確。這種“第一眼的真實感”是與早期模型相比最大的飛躍。
- 運動風格:Gen-3擅長視覺動詞。你說“慢速跟蹤鏡頭經過一個冒著熱氣的杯子”,它會認真對待“慢速”、“跟蹤”和“冒著熱氣”。相機語法是它不為人知的優勢之一。
- 光線意圖:這一點被低估了。“陰鬱的逆光”與“平坦的日光”在Gen-3中是一個有意義的區別。你可以將其調整為黃金時段或賽博龐克霓虹燈,而無需扭曲每一幀。
- 快速構思:對於故事板和情緒板,Gen-3基本上是一個作弊碼。你可以在幾分鐘內確定一個色調,而過去需要半天的工具和一個擁有雲台的朋友。
H2:車輪搖晃的地方:連貫性、因果關係和時間
Gen-3的主要缺陷是時間。不是時鐘時間——而是敘事時間。要求一隻手拿起杯子、啜飲並放下它,你將獲得一個或兩個看似合理的動作,但因果關係鏈仍然會出錯。手指穿模,杯子瞬間移動半英寸,啜飲發生在錯誤的角度,就像觀看一個資金充足的夢境。
跨鏡頭的連貫性甚至更加棘手。如果你嘗試在一系列單獨的提示中匹配髮型、服裝或道具,Gen-3會將每個片段視為一個全新的幻覺。它會給你一條很棒的圍巾,只是每次都是一條不同的很棒的圍巾。這比之前的幾代產品要好——減少了混亂,增加了連貫性——但仍然不是你在將插入鏡頭與主角特寫鏡頭匹配時使用的工具。
H2:文字轉影片 vs. 影片轉影片:哪一個真正有效?
- 文字轉影片:有趣的一個。非常適合設定氛圍,不適合精確手術。如果你需要“一個滑板運動員帶著紅色無簷小便帽從路緣上進行豚跳”,你通常會得到滑板運動員、路緣,以及一些頭部附近的東西,偶爾是紅色的。豚跳?有時它會踢,有時它會翻轉。
- 圖片轉影片:這是可靠性模式。從參考靜止圖像開始——你的產品照片、你的logo——並從那裡開始動畫。該模型在有錨點的情況下表現更好,尤其是在顏色和構圖方面。運動仍然會漂移,但你的品牌橙色仍然是你的品牌橙色。
- 影片轉影片:帶有輔助輪的強大功能。提供清晰的運動,你將獲得保持時間控制的時尚重新詮釋。提供混亂的運動,該模型會創造自己的故事。Gen-3比過去的版本更服從輸入的編舞,但還沒有到你可以信任它進行對連貫性至關重要的編輯的地步。
H2:不會浪費你時間的提示
如果你把Gen-3當作精靈,它會實現三個願望並毀掉結局。把它當作初級攝影師,它會做得更好。
- 以相機和燈光為主,而不是形容詞。“50mm手持,淺景深,鎢絲燈實用燈具”勝過“華麗的電影傑作”。後者聽起來像是在乞求。
- 將動作限制為兩個動詞。“打開筆記本,抬頭”是可行的。“衝過街道,叫出租車,向無人機揮手,若有所思地微笑”會變成一鍋粥。
- 命名主角對象。“帶有發光綠色光條的啞光黑色筆記型電腦”比“筆記型電腦”更能堅持。該模型尊重名詞。
- 參考真實的光學元件。“變形鏡頭光暈”在這裡實際上會做一些事情。“史詩般的氛圍”則不然。
H2:物理問題,仍然存在
這是業界撒謊的地方。“物理學正在興起”的說法總是聽起來像“經過兩次事故後,房屋訓練進展順利”。液體晃動錯誤。當手臂穿過臉部時,陰影會斷開連接。布料的沉降方式就像它在不同的重力向量下持續一兩幀一樣。這些都不會破壞一次性的概念片段。所有這些都會破壞一個你需要玻璃杯落在桌子上而不是融化到桌子上的場景。
Gen-3顯然經過訓練,可以尊重光線和材料——現實的外觀——但運動的因果邏輯仍然是通過氛圍學習的。有些鏡頭出來的效果異常正確,這使得失誤更加詭異。如果你對視線、交接或物體恆常性很挑剔,你最終會進行合成。
H2:長度和連貫性:何時5秒就足夠了
大約3-6秒是文字轉影片的最佳時長。推到10秒以上,你會得到熵——模型會漫遊。如果你需要一個實際上說得通的20秒序列,你將回到以離散節拍進行故事板創作並在後期進行拼接。公平地說,這就是真人動作的工作方式。不同之處在於你不能“再拍一次”——你只能再次擲骰子。
H2:風格轉換和“讓它看起來像……”的誘惑
風格提示仍然是一個雷區,不僅僅是因為法律原因。你可以誘導出印象派的色調、顆粒度,甚至是鏡頭級別的散景圖案。你不能始終如一地做的是將風格與精確的動作融合在一起並保持兩者完好無損。給Gen-3三個優先事項,它會選擇兩個。
如果你的工作是品牌創意,明智的做法是標準化你的外觀——LUT、顆粒疊加、小插圖——並讓Gen-3提供原材料。在後期烘烤品牌,而不是在提示中。
H2:實踐工作流程:實際交付的內容
我運行了一個小型測試項目:一個模擬產品預告片,包含五個節拍——冷開場微距、寬廣的主角、手部互動、UI特寫、logo定格。五個片段中只有一個直接從Gen-3到時間軸。其他的則需要:
- 合成:隔離主體,更換背景,或穩定模型偷偷潛入的微小抖動;
- 重新定時:流暢的運動,錯誤的節奏。時間拉伸隱藏了抖動;
- 替換:一個在Gen-3中看起來總是不對勁的節拍變成了一個靜止圖像+視差工作。
總時間:比實際拍攝更快,比演示影片暗示的要慢。最快的途徑是將Gen-3視為鏡頭生成器,而不是場景生成器。
H2:在不喝酷愛飲料的情況下比較該領域
說Runway Gen-3站在文字轉影片包的最前沿並不具爭議。它以最少的提示按摩渲染出精美的鏡頭。但這個類別中的“最佳”每隔幾週就會發生變化,並且權衡取捨感覺更像是房屋風格,而不是絕對排名。一些競爭對手更好地鎖定運動,但會使紋理變平。其他人則傾向於角色保真度,但會塗抹背景。Gen-3選擇捍衛“漂亮的第一幀”山丘,對於營銷和構思來說,這是一個合理的選擇。
H2:控制是缺失的功能(每個人都知道)
專業人士需要的不是魔法,而是控制。關鍵幀、遮罩、運動路徑、約束求解器——這些枯燥的東西。AI影片的諷刺之處在於,模型越壯觀,你就越渴望那些不起眼的旋鈕。Runway Gen-3通過更好的條件反射和輸入參考朝著這個方向發展,但在“建議”和“指導”之間仍然存在差距。在我們能夠通過實際保證將手鎖定在杯子上,並將杯子鎖定在桌子上之前,該工具的上限仍然是概念工作和短篇花絮。
H2:你在演示中看不到的成本
- 花費時間重新生成變體,因為唯一完美的幀發生在第2.3秒,然後扭曲。
- 花時間修復其他很棒的片段,因為一個細節閃爍或消失——耳環、標籤上的文字、忘記相機存在的反射。
Gen-3降低了設置和硬件成本。它增加了品味成本——選擇、修復和決定的時間。這不是一個打擊;這只是賬單。
H2:真實項目的實用建議
- 以節拍而不是場景來思考。生成短鏡頭;自己組裝序列。
- 用參考錨定。提供清晰的靜止圖像或底圖以穩定顏色、構圖和幾何形狀。
- 將風格與本質分開。首先獲得運動和構圖;稍後進行評級和品牌化。
H2:Gen-3的結果:今天誰應該使用它?
- 製作演示文稿、情緒影片和預覽的創意人員。Gen-3是用於“展示,不要講述”的正確工具。
- 社交團隊發布3-6秒的時刻,其中連貫性不如氛圍重要。它在這裡大放異彩。
- 沒有相機但仍然需要運動的小團隊。如果你接受Frankenstein工作流程,你將贏得首次剪輯的時間。
如果你正在製作具有嚴格幾何形狀的、對連貫性要求很高的敘事或對品牌至關重要的產品鏡頭,Gen-3可以提供幫助——但作為圖層的來源,而不是成品的片段。它是一位紋理和照明方面的專家,並且輔修物理學。
H2:奇怪的真相:AI影片更接近Photoshop而不是Premiere
每個人都一直將這些模型與相機進行比較。它們不是。它們更像是帶有播放按鈕的隨機Photoshop。你朝著結果繪畫,而不是記錄它。這解釋了推動概率直到它點擊的感覺。它還解釋了截止日期前的生存恐懼:概率並不總是在你需要它時點擊。
H2:關於負責任的使用,沒有說教
兩點說明,因為我們生活在互聯網上:
- 不要偽造現實來傷害他人。這不是一個約束,這是基本的體面。
- 如果可以,請添加水印,在派生時註明出處,並且不要假裝模型完成了所有工作。編輯仍然是編輯。
Runway Gen-3在很大程度上處理了運動和光線,但痛苦通常在上游:提示、故事板、參考資產。如果你使用AI助手來迭代提示、生成風格指南或從腳本中提取鏡頭列表,你可以避免浪費最多額度的“我會即興發揮”的陷阱。Sider.AI實際上在這裡有所幫助——不是作為一個神奇的影片盒子,而是作為一個枯燥、有用的規劃器:將粗略的概念轉化為清晰的節拍表,將提示重構為以相機為先的方向,並保持一個有組織的參考幀庫。減少神秘感,減少重新滾動。 這並不性感,但這就是重點。使Gen-3歌唱的工作是偽裝成提示的預製作。任何降低該步驟摩擦的事情都可以節省你否則會捐贈給熵神的時間。
H2:充滿希望的部分(以及警告)
Gen-3是我目前為止使用AI影片最有趣的一次體驗。這也是最清晰的證明,模型正在我們首先注意到的邊緣(外觀)上改進,同時仍在學習我們最需要的邊緣(邏輯)。這種權衡對於捲軸和構思來說很好。對於長於一句話的任何內容來說,這都很痛苦。
警告是常年存在的:這個空間每週都在變化。如果你的項目今天發布,請使用今天有效的方法:短節拍、錨定的參考資料以及願意合成。如果你只是在探索,請享受這種景象,並保留失敗的收據。今天的失敗異常接近下個月的功能。
結論:誠實的看法
Runway Gen-3是一個英俊的騙子,以最好的方式:它很快讓你相信你比實際更接近完成的鏡頭。這不是一個缺陷,而是一個提醒你保持頭腦清醒。當它工作時,它是神奇的。當它不工作時,它是一個禮貌的推動,讓你回到實際的工藝——鏡頭列表、錨點以及在後期製作中保持穩定的手。
如果你期望一台相機,你會感到沮喪。如果你期望一台功能強大、有時令人惱火的想法機器,可以在正確的防護措施下吐出可用的鏡頭,你會感到印象深刻。只是不要讓演示影片說服你跳過那些枯燥的部分。枯燥的部分是Gen-3變成工具而不是玩具的地方。
H2:Runway Gen-3功能的實踐評論:備忘單
- 優勢:照明、材料真實感、相機語法、第一幀吸引力、快速構思。
- 弱點:多步驟因果關係、長篇連貫性、精確的手-物體互動、文字易讀性。
- 最佳用例:3-6秒的鏡頭、風格/情緒傳遞、互動最少的產品微距、社交循環。
- 工作流程提示:基於節拍的生成、圖像/影片錨定、後期驅動的品牌化、字面提示。
- 底線:一個出色的鏡頭生成器;還不是一個可靠的場景生成器。
常見問題解答
Q1:Runway Gen-3對於專業廣告來說是否足夠好?
對於短節拍,是的。Runway Gen-3擅長照明和紋理,但連貫性和物理學仍然不穩定,因此將其視為你將合成的鏡頭生成器——而不是完全取代完整製作的替代品。
Q2:我如何提示Runway Gen-3以獲得一致的結果?
以相機和燈光為主,將動作保持在兩個動詞,並用參考圖像錨定。該模型尊重名詞和光學元件,而不是形容詞,這就是為什麼“50mm手持,鎢絲燈實用燈具”勝過“電影傑作”。
Q3:文字轉影片還是影片轉影片:哪一個在Gen-3中效果更好?
文字轉影片非常適合氛圍和第一幀;影片轉影片保持時間和編舞。如果你需要品牌一致性,請從圖像轉影片或底圖開始,讓Gen-3圍繞你的錨點進行風格化。
Q4:Runway Gen-3可以處理螢幕上的文字和UI鏡頭嗎?
有時可以,但它不穩定。在後期製作中使用疊加層或合成清晰的UI底圖——Gen-3的優勢是運動和情緒,而不是在多秒內清晰的排版。
Q5:Runway Gen-3片段的最佳長度是多少?
三到六秒。超過十秒,熵就會蔓延,因果關係就會崩潰。以節拍而不是場景來思考,並自己拼接序列。