مقدمه: مشکل دموی نمایشی
نکتهای که در مورد ویدیوهای تولید شده با هوش مصنوعی وجود دارد - و به طور خاص Gen-3 از Runway - این است که همه طوری وانمود میکنند که آن را میفهمند تا زمانی که مجبور شوند واقعاً از آن برای چیزی که قرار است ارائه شود استفاده کنند. دموی نمایشی مانند تریلرهای مارول ارائه میشوند: براق، پرانرژی و پیروزمندانه. سپس محصول را لمس میکنید و متوجه میشوید که غول مرحله آخر، مدل نیست، بلکه آشفتگی بین ایده شما و یک کلیپ تمامشده و قابل تماشا است. کار کردن با Runway Gen-3 دقیقاً همین حس را دارد: یک موتور متن به ویدیو واقعاً چشمگیر که در نگاه اول شما را شگفتزده میکند و در سومین تلاش شما را فروتن میکند، بهخصوص زمانی که برای تداوم، زمانبندی و هدف تلاش میکنید.
من یک هفته را صرف تولید، تکرار و ترکیب شاتهای کوچک کردم - کارتهای عنوان، b-roll محصول، کلوزآپهای چهره و موارد معمول "آن را سینمایی کنید". Gen-3 بسیاری از کارها را به طرز شگفتانگیزی خوب انجام میدهد. همچنین در جاهایی که دموی نمایشی میلغزند، دچار مشکل میشود: انسجام صحنه در طول زمان، باورپذیری فیزیکی و فرآیند طاقتفرسای بازبینی.
H2: Gen-3 از Runway در حال حاضر در چه زمینههایی موفق است
بیایید با تعریف شروع کنیم، زیرا Gen-3 سزاوار آن است.
- بافت و واقعگرایی سطح: درخواست آلومینیوم برسخورده زیر نور ملایم استودیویی بدهید و آلومینیوم برسخورده زیر نور ملایم استودیویی دریافت میکنید. رنگ پوست بیشتر اوقات طبیعی به نظر میرسد و پارچهها - جین، ساتن - در یک نگاه درست به نظر میرسند. این "باورپذیری در نگاه اول" بزرگترین جهش نسبت به مدلهای قبلی است.
- سبک حرکت: Gen-3 در افعال بصری خوب است. شما میگویید "نمای آهسته از کنار یک فنجان بخاردار"، و آن "آهسته"، "حرکت" و "بخاردار" را جدی میگیرد. دستور زبان دوربین یکی از نقاط قوت خاموش آن است.
- هدف نورپردازی: این دست کم گرفته شده است. "نور پسزمینه تیره" در مقابل "نور روز تخت" یک تفاوت معنادار در Gen-3 است. شما میتوانید آن را به سمت ساعت طلایی یا نئون سایبرپانک متمایل کنید بدون اینکه با هر فریم درگیر شوید.
- ایدهپردازی سریع: برای استوریبردها و عبورهای حسی، Gen-3 اساساً یک کد تقلب است. شما میتوانید در عرض چند دقیقه لحنی را ایجاد کنید که قبلاً نصف روز زمان و یک دوست که گیمبال دارد را میگرفت.
H2: نقاط ضعف: تداوم، علت و معلول و زمان
نقص اصلی Gen-3 زمان است. نه زمان ساعتی - زمان روایی. از آن بخواهید دستی یک فنجان را بردارد، جرعهای بنوشد و آن را بگذارد، و شما یک یا دو مورد از این اعمال را به طور باورپذیر دریافت خواهید کرد، اما زنجیره علت و معلول هنوز هم دچار مشکل میشود. انگشتان بریده میشوند، فنجانها نیم اینچ جابجا میشوند و جرعهنوشی در زاویه اشتباه رخ میدهد، مانند تماشای یک رویای پرهزینه.
تداوم بین شاتها حتی دشوارتر است. اگر سعی کنید مو، لباس یا وسایل را در یک توالی از prompts جداگانه مطابقت دهید، Gen-3 با هر کلیپ مانند یک توهم جدید رفتار میکند. به شما یک روسری فوقالعاده میدهد، فقط هر بار یک روسری فوقالعاده متفاوت. این بهتر از نسلهای قبلی است - هرج و مرج کمتر، سازگاری بیشتر - اما هنوز هم ابزاری نیست که هنگام تطبیق شاتهای درج شده با یک کلوزآپ قهرمان استفاده کنید.
H2: متن به ویدیو در مقابل ویدیو به ویدیو: کدام یک واقعاً کار میکند؟
- متن به ویدیو: مورد سرگرمکننده. عالی برای تنظیم حس، ضعیف برای دقت جراحی. اگر به "یک اسکیتباز که با کلاه بافتنی قرمز از روی جدول کنار خیابان کیکفلیپ میکند" نیاز دارید، اغلب اسکیتباز، جدول کنار خیابان و چیزی در مجاورت سر دریافت خواهید کرد که گهگاه قرمز است. کیکفلیپ؟ گاهی اوقات لگد میزند، گاهی اوقات میچرخد.
- تصویر به ویدیو: این حالت قابلیت اطمینان است. با یک تصویر مرجع شروع کنید - شات محصول شما، لوگوی شما - و از آنجا انیمیشن ایجاد کنید. مدل با یک لنگر بهتر عمل میکند، بهخصوص برای رنگ و ترکیببندی. حرکت هنوز هم منحرف میشود، اما نارنجی برند شما، نارنجی برند شما باقی میماند.
- ویدیو به ویدیو: ویژگی قدرتمند با چرخهای کمکی. حرکت تمیز را وارد کنید و تفسیر مجدد شیک دریافت خواهید کرد که زمانبندی را حفظ میکند. حرکت آشفته را وارد کنید و مدل داستان خود را ابداع میکند. Gen-3 نسبت به ورودی رقص نسبت به نسخههای قبلی مطیعتر است، اما نه تا حدی که بتوانید به آن برای یک ویرایش حساس به تداوم اعتماد کنید.
H2: Prompting که وقت شما را تلف نمیکند
اگر با Gen-3 مانند یک غول چراغ جادو رفتار کنید، سه آرزو برآورده میکند و پایان را خراب میکند. با آن مانند یک فیلمبردار جوان رفتار کنید و بهتر میشود.
- با دوربین و نور شروع کنید، نه با صفتها. "50mm handheld, shallow depth, tungsten practicals" بهتر از "شاهکار سینمایی باشکوه" است. دومی مانند التماس کردن به نظر میرسد.
- عمل را به دو فعل محدود کنید. "دفترچه را باز میکند، نگاه میکند" قابل انجام است. "در عرض خیابان میدود، تاکسی میگیرد، برای پهپاد دست تکان میدهد، با حسرت لبخند میزند" تبدیل به سوپ میشود.
- نام شیء قهرمان را ذکر کنید. "یک لپتاپ مشکی مات با یک نوار نورانی سبز" بهتر از "یک لپتاپ" میچسبد. مدل به اسمها احترام میگذارد.
- به اپتیک واقعی ارجاع دهید. "Anamorphic lens flare" در اینجا واقعاً کاری انجام میدهد. "حس حماسی" هیچ کاری انجام نمیدهد.
H2: مشکل فیزیک، هنوز
در اینجا جایی است که صنعت دروغ میگوید. این ادعا که "فیزیک در حال ظهور است" همیشه به نظر میرسد که "آموزش خانه بعد از دو حادثه به خوبی پیش میرود." مایعات اشتباه میریزند. سایهها وقتی بازوها از روی صورت عبور میکنند، قطع میشوند. پارچه طوری قرار میگیرد که انگار برای یک یا دو فریم زیر یک بردار گرانشی متفاوت قرار دارد. هیچکدام از اینها یک کلیپ مفهومی یکباره را خراب نمیکند. همه اینها نقطهای را خراب میکند که در آن شما نیاز دارید یک لیوان روی یک میز فرود بیاید و در آن ذوب نشود.
Gen-3 به وضوح آموزش دیده است تا به نور و مواد - ظاهر واقعیت - احترام بگذارد، اما منطق علّی حرکت هنوز از طریق حس آموخته میشود. برخی از شاتها به طرز عجیبی درست از آب در میآیند، که اشتباهات را وهمآورتر میکند. اگر در مورد خطوط دید، تحویلها یا ثبات شیء حساس هستید، در نهایت مجبور به ترکیببندی خواهید شد.
H2: طول و انسجام: چه زمانی 5 ثانیه کافی است
حدود 3-6 ثانیه نقطه شیرین برای متن به ویدیو است. 10+ ثانیه فشار دهید و آنتروپی دریافت خواهید کرد - مدل سرگردان میشود. اگر به یک سکانس 20 ثانیهای نیاز دارید که واقعاً منطقی باشد، به استوریبرد کردن به عنوان ضربات گسسته و دوختن در مرحله پس از تولید برمیگردید. که، انصافاً، نحوه کار اکشن زنده است. تفاوت این است که شما نمیتوانید "فقط یک برداشت دیگر انجام دهید" - فقط میتوانید دوباره تاس بیندازید.
H2: انتقال سبک و وسوسه "شبیه به ... درست کردن"
Promptهای سبک همچنان یک میدان مین هستند، و نه فقط به دلایل قانونی. شما میتوانید یک درجه امپرسیونیستی، یک نمایه دانه، حتی الگوهای بوکه در سطح لنز را وادار کنید. کاری که نمیتوانید به طور مداوم انجام دهید این است که یک سبک را با یک عمل دقیق ترکیب کنید و هر دو را دست نخورده نگه دارید. به Gen-3 سه اولویت بدهید و دو تا را انتخاب میکند.
اگر شغل شما خلاقیت برند است، بازی هوشمندانه این است که ظاهر خود را استاندارد کنید - LUTها، پوششهای دانه، وینیتها - و اجازه دهید Gen-3 مواد خام را تامین کند. برند را در مرحله پس از تولید بپزید، نه در prompt.
H2: گردش کار عملی: چه چیزی واقعاً ارائه شد
من یک پروژه آزمایشی کوچک را اجرا کردم: یک تیزر محصول ساختگی با پنج ضربه - ماکروی ابتدایی سرد، قهرمان عریض، تعامل دست، کلوزآپ رابط کاربری، حل لوگو. فقط یکی از پنج کلیپ مستقیماً از Gen-3 به جدول زمانی آمد. بقیه به یکی از موارد زیر نیاز داشتند:
- ترکیببندی: جدا کردن سوژه، جایگزینی پسزمینه، یا تثبیت یک لرزش کوچک که مدل در آن پنهان کرده بود؛
- تغییر زمانبندی: حرکت نرم، آهنگ اشتباه. کشش زمان لرزش را پنهان کرد؛
- جایگزینی: یک ضربه که هرگز در Gen-3 درست به نظر نمیرسید، تبدیل به یک کار ثابت + اختلاف منظر شد.
زمان کل: سریعتر از یک فیلمبرداری واقعی، کندتر از آنچه تیزرهای تبلیغاتی نشان میدهند. سریعترین مسیر این است که با Gen-3 به عنوان یک تولید کننده شات رفتار کنید، نه یک تولید کننده صحنه.
H2: مقایسه میدان بدون نوشیدن Kool-Aid
گفتن اینکه Runway Gen-3 در نزدیکی جلوی بسته متن به ویدیو قرار دارد، بحثبرانگیز نیست. با کمترین دستکاری prompt، فیلمهای خوشتیپ ارائه میدهد. اما "بهترین" در این دسته هر چند هفته یکبار تغییر میکند، و بدهبستانها بیشتر شبیه سبکهای خانه هستند تا رتبهبندیهای مطلق. برخی از رقبا حرکت را بهتر قفل میکنند اما بافتها را صاف میکنند. دیگران به وفاداری شخصیت متمایل میشوند اما پسزمینهها را لکهدار میکنند. Gen-3 تپه "اولین فریم زیبا" را برای دفاع انتخاب میکند، و این یک انتخاب منطقی برای بازاریابی و ایدهپردازی است.
H2: کنترل ویژگی گمشده است (و همه این را میدانند)
متخصصان به اندازه جادو به کنترل نیاز ندارند. فریمهای کلیدی، ماسکها، مسیرهای حرکتی، حلکنندههای محدودیت - چیزهای خستهکننده. کنایه آمیز بودن ویدیوی هوش مصنوعی این است که هرچه مدل تماشاییتر باشد، بیشتر هوس دکمههای کسلکننده را میکنید. Runway Gen-3 با شرطیسازی بهتر و مراجع ورودی به سمت این حرکت کرده است، اما هنوز هم یک شکاف بین "پیشنهاد" و "هدایت" وجود دارد. تا زمانی که نتوانیم یک دست را به یک فنجان و یک فنجان را به یک میز با تضمینهای واقعی قفل کنیم، سقف ابزار همچنان کار مفهومی و شکوفههای کوتاه خواهد بود.
H2: هزینههایی که در دموها نمیبینید
- زمان صرف شده برای تولید مجدد تغییرات به این دلیل که یک فریم عالی در ثانیه 2.3 رخ میدهد و سپس تغییر شکل میدهد.
- زمان صرف شده برای نوشتن promptهایی که واقعاً لیست شاتها در لباس مبدل هستند.
- زمان صرف شده برای تعمیر کلیپهای عالی در غیر این صورت، زیرا یک جزئیات چشمک میزند یا از بین میرود - گوشوارهها، متن روی برچسب، انعکاسهایی که فراموش میکنند دوربین وجود دارد.
Gen-3 هزینههای نصب و سختافزار را کاهش میدهد. هزینههای ذوق را افزایش میدهد - ساعتهای انتخاب، رفع و تصمیمگیری. این یک ضربه نیست؛ این فقط صورتحساب است.
H2: مشاوره عملی برای پروژههای واقعی
- به ضربات فکر کنید، نه صحنهها. شاتهای کوتاه تولید کنید؛ توالی را خودتان مونتاژ کنید.
- با مراجع لنگر بیندازید. استیلها یا صفحات تمیز را برای تثبیت رنگ، ترکیببندی و هندسه وارد کنید.
- سبک را از محتوا جدا کنید. ابتدا حرکت و قاببندی را دریافت کنید؛ بعداً درجهبندی و برندسازی کنید.
- لفظی باشید. افعال و اسمها بر حس و عالیها.
- برای وصلهکاری بودجه در نظر بگیرید. انتظار داشته باشید که دستها، صورتها و عناصر متن را ترکیب کنید.
H2: نتیجه Gen-3: چه کسی باید امروز از این استفاده کند؟
- افراد خلاقی که در حال ساخت deckهای pitch، فیلمهای حسی و پیشنمایش هستند. Gen-3 ابزار مناسبی برای "نشان دادن، نه گفتن" است.
- تیمهای اجتماعی که لحظات 3-6 ثانیهای را ارسال میکنند که در آن انسجام کمتر از حس اهمیت دارد. اینجا میدرخشد.
- تیمهای کوچکی که دوربین ندارند و هنوز به حرکت نیاز دارند. اگر گردش کار فرانکشتاین را بپذیرید، در زمان رسیدن به اولین برش برنده خواهید شد.
اگر در حال تولید روایتهای سنگین تداوم یا شاتهای محصول حساس به برند با هندسه دقیق هستید، Gen-3 میتواند کمک کند - اما به عنوان منبع لایهها، نه کلیپهای تمام شده. این یک نابغه بافت و نورپردازی است که در فیزیک تخصص فرعی دارد.
H2: حقیقت عجیب: ویدیوی هوش مصنوعی بیشتر به Photoshop نزدیک است تا Premiere
همه این مدلها را با دوربین مقایسه میکنند. اینطور نیستند. آنها بیشتر شبیه یک Photoshop تصادفی با یک دکمه پخش هستند. شما به سمت یک نتیجه نقاشی میکنید، نه اینکه آن را ضبط کنید. این احساس فشار دادن احتمال را تا زمانی که کلیک کند، توضیح میدهد. همچنین ترس وجودی را در ضربالاجل توضیح میدهد: احتمال همیشه وقتی به آن نیاز دارید، کلیک نمیکند.
H2: در مورد استفاده مسئولانه بدون موعظه
دو نکته، زیرا ما در اینترنت زندگی میکنیم:
- برای آسیب رساندن به مردم، واقعیت را جعل نکنید. این یک محدودیت نیست، بلکه نزاکت اساسی است.
- اگر میتوانید علامتگذاری کنید، هنگام مشتق شدن اعتبار دهید و وانمود نکنید که یک مدل همه کارها را انجام داده است. یک ویرایش هنوز یک ویرایش است.
H2: Sider.AI کجا قرار میگیرد (و کجا قرار نمیگیرد) تا جایی که Runway Gen-3 از عهده حرکت و نور بر میآید، درد اغلب در بالادست است: prompt، استوریبرد، داراییهای مرجع. اگر از یک دستیار هوش مصنوعی برای تکرار promptها، تولید راهنماهای سبک یا استخراج لیست شاتها از اسکریپتها استفاده میکنید، از تله "من فقط آن را بال میگیرم" که بیشترین اعتبار را هدر میدهد، اجتناب میکنید. Sider.AI در واقع در اینجا کمک میکند - نه به عنوان یک جعبه ویدیوی جادویی، بلکه به عنوان یک برنامهریز خستهکننده و مفید: یک مفهوم خام را به یک برگه ضرب و شتم واضح تبدیل کنید، promptها را به دستورالعملهای اولویتدار دوربین تبدیل کنید و یک کتابخانه از فریمهای مرجع را سازماندهی کنید. رمز و راز کمتر، چرخش مجدد کمتر. جذاب نیست، اما نکته همین است. کاری که باعث میشود Gen-3 بدرخشد، پیش تولیدی است که به عنوان prompting پنهان شده است. هر چیزی که اصطکاک این مرحله را کاهش دهد، در زمان صرفهجویی میکند که در غیر این صورت به خدایان آنتروپی اهدا میکردید.
H2: قسمت امیدوارکننده (و احتیاط)
Gen-3 سرگرمکنندهترین تجربهای است که تا به حال با ویدیوی هوش مصنوعی داشتهام. همچنین واضحترین نمایش این است که مدلها در لبههایی که ابتدا متوجه میشویم - ظاهر - در حال بهبود هستند، در حالی که هنوز لبههایی را که بیشتر به آنها نیاز داریم - منطق - یاد میگیرند. این بدهبستان برای تیزرها و ایدهپردازی خوب است. برای هر چیزی طولانیتر از یک جمله دردناک است.
احتیاط همیشگی است: این فضا هر هفته تغییر میکند. اگر پروژه شما امروز ارائه میشود، از آنچه امروز کار میکند استفاده کنید: ضربات کوتاه، مراجع لنگر شده و تمایل به ترکیب. اگر فقط در حال کاوش هستید، از تماشا لذت ببرید و رسیدهای آنچه را که شکست میخورد، نگه دارید. شکست امروز به طرز مشکوکی نزدیک به ویژگی ماه آینده است.
نتیجهگیری: برداشت صادقانه
Runway Gen-3 یک دروغگوی خوشتیپ به بهترین شکل ممکن است: به سرعت شما را متقاعد میکند که به یک شات تمام شده نزدیکتر از آنچه هستید، هستید. این یک نقص نیست، بلکه یادآوری برای حفظ سر خود است. وقتی کار میکند، جادویی است. وقتی کار نمیکند، یک فشار مودبانه به سمت صنایع دستی عملی است - لیست شاتها، لنگرها و یک دست ثابت در مرحله پس از تولید.
اگر با انتظار دوربین وارد شوید، ناامید خواهید شد. اگر با انتظار یک ماشین ایدهآل بسیار توانمند، گاهی اوقات آزاردهنده وارد شوید که میتواند با محافظهای مناسب، شاتهای قابل استفاده تولید کند، تحت تأثیر قرار خواهید گرفت. فقط اجازه ندهید دموی نمایشی شما را به رد کردن قسمتهای خستهکننده سوق دهد. قسمتهای خستهکننده جایی هستند که Gen-3 به جای یک اسباب بازی، به یک ابزار تبدیل میشود.
H2: بررسی عملی قابلیتهای Runway Gen-3: برگه تقلب
- نقاط قوت: نورپردازی، واقعگرایی مواد، دستور زبان دوربین، جذابیت اولین فریم، ایدهپردازی سریع.
- نقاط ضعف: علیت چند مرحلهای، انسجام طولانی، تعاملات دقیق دست و شیء، خوانایی متن.
- بهترین موارد استفاده: شاتهای 3-6 ثانیهای، عبورهای سبک/حسی، ماکروی محصول با حداقل تعامل، حلقههای اجتماعی.
- نکات گردش کار: تولید مبتنی بر ضرب، لنگر انداختن تصویر/ویدیو، برندسازی پس از محور، promptهای لفظی.
- نتیجه نهایی: یک تولید کننده عالی شات؛ هنوز یک تولید کننده قابل اعتماد صحنهها نیست.
سوالات متداول
Q1: آیا Runway Gen-3 برای تبلیغات حرفهای به اندازه کافی خوب است؟
برای ضربات کوتاه، بله. Runway Gen-3 نورپردازی و بافت را به خوبی انجام میدهد، اما تداوم و فیزیک هنوز هم دچار مشکل میشوند، بنابراین با آن به عنوان یک تولید کننده شات که آن را ترکیب میکنید رفتار کنید - نه جایگزینی قطرهای برای یک تولید کامل.
Q2: چگونه Runway Gen-3 را برای نتایج ثابت prompt کنم؟
با دوربین و نور شروع کنید، اقدامات را به دو فعل محدود کنید و با یک تصویر مرجع لنگر بیندازید. مدل به اسمها و اپتیکها بیشتر از صفتها احترام میگذارد، به همین دلیل است که "50mm handheld, tungsten practicals" بهتر از "شاهکار سینمایی" است.
Q3: متن به ویدیو یا ویدیو به ویدیو: کدام یک در Gen-3 بهتر کار میکند؟
متن به ویدیو برای حس و فریمهای اول عالی است؛ ویدیو به ویدیو زمانبندی و رقص را حفظ میکند. اگر به ثبات برند نیاز دارید، با تصویر به ویدیو یا صفحات شروع کنید و به Gen-3 اجازه دهید در اطراف لنگرهای شما سبکسازی کند.
Q4: آیا Runway Gen-3 میتواند از پس متن روی صفحه و شاتهای رابط کاربری برآید؟
گاهی اوقات، اما ناپایدار است. از پوششها در مرحله پس از تولید استفاده کنید یا صفحات رابط کاربری تمیز را ترکیب کنید - نقاط قوت Gen-3 حرکت و حس هستند، نه تایپوگرافی خوانا در طول چند ثانیه.
Q5: بهترین طول برای کلیپهای Runway Gen-3 چقدر است؟
سه تا شش ثانیه. پس از ده ثانیه آنتروپی وارد میشود و علیت از بین میرود. به ضربات فکر کنید، نه صحنهها، و توالی را خودتان بدوزید.