"प्रॉम्प्ट इंजिनीअरिंग" (Prompt Engineering) मधील समस्या प्रॉम्प्ट्स (Prompts) नाहीत.
Sora 2 प्रॉम्प्ट इंजिनीअरिंगबद्दल (Prompt Engineering) बोलायचं झाल्यास, प्रत्येकाला ते समजल्यासारखं वाटतं—जोपर्यंत त्यांचा व्हिडिओ बटाट्यावर काढलेल्या एखाद्या भयानक स्वप्नासारखा दिसत नाही. मग जास्त शब्द टाकणे, काही तांत्रिक शब्द वापरणे आणि मॉडेल (model) मनातलं वाचेल अशी आशा करणे, हे नेहमीच होतं. पण तसं होणार नाही. Sora 2 हे उत्तम ऑटो-कम्प्लीट फीचरसारखं (autocomplete) स्मार्ट (smart) आहे: आश्चर्यकारक, पण अतिशय शाब्दिक. तुम्हाला जे म्हणायचं आहे ते स्पष्ट सांगा. उगाच शब्दकोशात अर्थ शोधून क्लिष्ट शब्द वापरू नका.
इंडस्ट्रीतील (industry) प्रसिद्धी तंत्र प्रॉम्प्ट इंजिनीअरिंगला (prompt engineering) जादू समजतं. पण ते तसं नाही. हे एडिटिंग आहे, दिग्दर्शन आहे. तुम्ही मशीनला (machine) काय हवं आहे, हे अशा भाषेत सांगण्याची जबाबदारी घेता, जी त्याला अजिबात गोंधळात पाडू शकत नाही. बाकी 'गुप्त मंत्र', 'कॉपी-पेस्ट' (copy-paste) केलेले जादूटोणे, हे ठराविक वेळेपर्यंतच काम करतात. Sora 2 त्यापेक्षा चांगलं आहे. त्याच्याशी अशा सहकाऱ्यासारखं वागा, जो तुम्ही बोलता ते खरं मानतो आणि कधीच कामाचे 'डेली' (dailies) पाहत नाही.
आपण नेमकं कशाबद्दल बोलत आहोत?
स्पष्टपणे सांगायचं तर: Sora 2 प्रॉम्प्ट इंजिनीअरिंग (prompt engineering) म्हणजे प्रॉम्प्ट टेक्स्ट (prompt text) लिहिण्याची कला (आणि जिथे उपलब्ध असेल तिथे संदर्भ इनपुट्स (reference inputs) आणि कंट्रोल्स (controls) वापरण्याची कला), ज्यामुळे सुसंगत, नियंत्रणीय व्हिडिओ (video) तयार होतो. 'प्रेरणा' नव्हे. 'व्हायब्स' (vibes) नव्हे. तुम्ही काही बंधनं तयार करत आहात—विषय, कृती, कॅमेरा, प्रकाश, शैली, कालावधी, गती आणि सातत्य—त्यामुळे मॉडेल (model) तुमच्या शहराच्या दृश्यात (cityscape) मध्येच जांभळा घोडा तयार करणार नाही.
याबद्दल विचार करण्याचा सर्वोत्तम मार्ग: तुम्ही शब्दांमध्ये स्टोरीबोर्डिंग (storyboarding) करत आहात. तुमचा प्रॉम्प्ट (prompt) जितका नेमका शॉट लिस्टसारखा (shot list) दिसेल, तितकंच Sora 2 व्यवस्थित काम करेल. तो जितका सैलसर असेल—अस्पष्ट विशेषणं, पाच वेगवेगळ्या कला प्रकारांची (art styles) भेसळ, दिवसाच्या वेळेनुसार बदल—तितकंच आऊटपुट (output) मॉडेलला (model) अर्धवट आठवलेल्या गोष्टींच्या कोलाजसारखं (collage) दिसेल.
Sora 2 प्रॉम्प्टसाठी (Prompts) स्पष्टवक्तेपणाचे (Plainspoken) नियम
मलाही नियम आवडत नाहीत, पण हा नियम उपयोगी आहे. Sora 2 प्रॉम्प्ट्सकडे (Prompts) पाच स्तरांवर रचलेले थर (layers) म्हणून पाहा. तुम्हाला गरज नसलेला कोणताही थर तुम्ही सोडून देऊ शकता, पण जर एखादा थर नसेल, तर मॉडेल (model) तो cliche (पुराण्या कल्पना) वापरून भरेल.
- विषय आणि उद्देश ('काय' आणि 'का')
- एक मुख्य विषय. शक्यतो एक दुय्यम विषय. बस, एवढंच.
- उद्देश: दर्शकाला काय वाटायला पाहिजे किंवा काय समजायला पाहिजे.
- उदाहरण: "एकाकी सायकलस्वार (cyclist) पहाटे धुक्यातून एका पुलावरून (bridge) जात आहे, हे दृष्य निर्धार आणि शांत कणखरता दर्शवते."
- दृश्यातील तथ्य ('कुठे' आणि 'केव्हा')
- दिवसाची वेळ, हवामान, ठिकाणाची (location) माहिती. काल्पनिक विशेषणांपेक्षा (poetic adjectives) ठोस संज्ञा (concrete nouns) वापरा.
- "गोल्डन अवर" (golden hour) हे "सुंदर प्रकाश" पेक्षा चांगलं आहे. "ओल्या डांबरी रस्त्यावर निऑन लाईटचं रिफ्लेक्शन" (Wet asphalt reflecting neon) हे "सायबरपंक्की" (cyberpunky) पेक्षा चांगलं आहे.
- कॅमेरा आणि हालचाल ('कशी')
- शॉटचा प्रकार, लेन्सचा (lens) प्रकार, कॅमेऱ्याची हालचाल, गती.
- "50mm-इक्विव्हॅलेंटवर (50mm-equivalent) हळू डॉली-इन (dolly-in); कमीतकमी 'हँडहेल्ड' (handheld) सूक्ष्म-थरथर" हे "सिनेमॅटिक" (cinematic) पेक्षा चांगलं आहे.
- व्हिज्युअल स्टाईल (visual style) आणि बंधनं ('लुक')
- एखादा विशिष्ट प्रकार (aesthetic lane) निवडा: फोटो रिअल (photoreal), 16mm फिल्म, सेल ॲनिमेशन (cel animation), वॉटर कलर (watercolor). तीन प्रकार एकत्र केल्यास गोंधळ निर्माण होऊ शकतो.
- रंगसंगती, टेक्सचर (texture) आणि पूर्वीच्या गोष्टींचे संदर्भ मर्यादित ठेवा.
- सातत्य आणि काय टाळावे ( 'स्थिर ठेवा')
- पात्रांचे (character) गुणधर्म, प्रॉप्स (props) आणि महत्त्वाचे तपशील निश्चित करा.
- स्पष्ट नकारार्थी गोष्टी: "वेशभूषा बदलू नये; टेक्स्ट ओव्हरले (text overlays) नको; वस्तू बदलू नयेत."
Sora 2 प्रॉम्प्ट इंजिनीअरिंग (prompt engineering) म्हणजे जास्त शब्द भरणं नव्हे; तर त्रुटी काढणं आहे. तुम्ही एका हट्टी आणि अतिशय शाब्दिक सहकाऱ्यासोबत करार करत आहात. सगळ्या त्रुटी बंद करा.
अडचणीत आणणाऱ्या शब्दांची छोटी यादी
- "सिनेमॅटिक" (Cinematic). याचा अर्थ काहीही असू शकतो किंवा काहीच नाही. त्याऐवजी तुम्हाला हवा असलेला कॅमेरा, लेन्स (lens) आणि हालचाल सांगा.
- "एपिक" (Epic). "मी काही ठरवलं नाही", यासाठी वापरला जाणारा समानार्थी शब्द.
- "हायपररिॲलिस्टिक" (Hyperrealistic). त्वचेच्या छिद्रांवर जास्त लक्ष केंद्रित करतो, रचनेकडे दुर्लक्ष करतो.
- "व्हायब" (Vibe). जर तुम्ही संज्ञा वापरून 'व्हायब' (vibe) सांगू शकत नसाल, तर तो 'व्हायब' (vibe) नाही.
- "एआय-स्टाईल [कलाकाराचे नाव]" (AI-style [artist’s name]). यात उघड समस्या आहेतच, पण त्यासोबत हे मॉडेलला (model) बाह्य (surface) Style आणि रचनेत गोंधळात पाडते. आदरांजली वाहण्याऐवजी (tribute acts) संदर्भासाठी (reference) मटेरियल (material) वापरा.
Sora 2 हे हेतूला नव्हे, तर सूचनांना महत्त्व देते. तुमचा प्रॉम्प्ट (prompt) जर ट्रेलरच्या (trailer) व्हॉइसओव्हरसारखा (voiceover) वाटत असेल, तर ट्रेलर कटची (trailer cuts) अपेक्षा ठेवा: जलद, विसंगत आणि फक्त दिखाऊपणा.
एक युक्तिवाद: संक्षिप्तता विरुद्ध विशिष्टता
- "लहान प्रॉम्प्ट" (short prompt) चा वापर करणारे म्हणतात की, Sora 2 ला एकटं सोडल्यासच ते उत्तम काम करते—फक्त मॉडेलवर (model) विश्वास ठेवा. हे कधीकधी खरं असतं. जेव्हा तुमची संकल्पना (concept) खूप प्रसिद्ध (iconic) आणि स्पष्टपणे व्हिज्युअल (visually) असते, तेव्हा लहान प्रॉम्प्ट (short prompt) चांगला असतो: "संध्याकाळच्या वेळी मॉन्युमेंट व्हॅलीवरून (Monument Valley) गडगडाटी वादळ, वाइड शॉट" (wide shot). Sora 2 ने ते हजारो वेळा पाहिलं आहे; त्यामुळे बाकीचं काम आपोआप होतं.
- "मोठा प्रॉम्प्ट" (novella prompt) वापरणारे भरपूर सूचना देतात. हे कधीकधी आवश्यक असतं. जर तुम्हाला 8 सेकंदांपर्यंत सातत्य (continuity) टिकवायचं असेल—तोच जॅकेट, तोच कुत्रा, तोच कॉफीचा कप—तर लहान प्रॉम्प्ट (brevity) तुम्हाला अडचणीत आणू शकतो. स्पष्टपणे सांगा, अन्यथा सहन करा.
या दोघांचा समन्वय: जिथे गोष्टी माहीत आहेत (common scenes, परिचित फिजिक्स (physics)), तिथे लहान प्रॉम्प्ट (short) वापरा आणि जिथे माहिती कमी आहे (नवीन प्रॉप्स (props), अवघड कोरिओग्राफी (choreography), मिक्स लाईटिंग (mixed lighting), ब्रँडेड (branded) तपशील), तिथे अत्यंत स्पष्टपणे सांगा. जर तुम्हाला माहीत नसेल की तुम्ही कोणत्या गटात आहात, तर तुम्ही दुसऱ्या गटात आहात.
Sora 2 चे उपयोगी प्रॉम्प्ट पॅटर्न (Prompt Patterns) जे खरंच काम करतात
हे फक्त रेसिपीसारखे (recipes) वापरा, धार्मिक ग्रंथासारखे (scripture) नाही. कंसातील (brackets) माहिती भरा आणि अनावश्यक गोष्टी काढून टाका.
- एका विषयावर आधारित ॲक्शन, नियंत्रित कॅमेरा
प्रॉम्प्ट: "फोटो रिअल व्हिडिओ, ८ सेकंद. [विषय] [ठराविक ठिकाणी] [एका विशिष्ट वेळी] [एका ॲक्शनमध्ये] (action) दिसत आहे. कॅमेराlocked tripod वर स्थिर आहे, मध्यम शॉट, नैसर्गिक गती. Soft overcast light; shallow depth of field. Wardrobe (वेशभूषा) मध्ये सातत्य: [तपशील]. Cuts नको, text नको, time-lapse नको."
हे का काम करते: हालचाल मर्यादित करते, सातत्य (continuity) स्थिर ठेवते, montage बनवण्याची मॉडेलची (model) इच्छा टाळते.
- स्मॅश कटशिवाय (Smash Cut) एस्टॅब्लिशिंग-टू-डिटेल (Establishing-to-Detail)
प्रॉम्प्ट: "१० सेकंद. [ठिकाण] (location) दर्शवणारा वाइड शॉट (wide establishing shot); ५ सेकंद हळू डॉली-इन (dolly-in). ६ व्या सेकंदाला [विषय] (subject) मध्यम शॉटमध्ये (medium shot) दिसेल, स्क्रीन-लेफ्ट फ्रेमिंग (screen-left framing) कायम ठेवा. Golden-hour backlight; lens flares सूक्ष्म ठेवा. रंगांची निवड (color palette) warm oranges आणि muted blues ठेवा. No rack focus; angle मध्ये कोणताही बदल नको."
हे का काम करते: Sora 2 ला गोंधळ निर्माण न करता सिक्वेन्सिंग (sequencing) शिकवते.
- टेम्पोरल सॅनिटि (Temporal Sanity) असलेले स्टाईलिश ॲनिमेशन (Stylized Animation)
प्रॉम्प्ट: "Hand-drawn, cel-style ॲनिमेशन, 12 fps. Flat colors, thick outlines, रंगसंगती मर्यादित ठेवा [4 रंगांची यादी]. [पात्र] (character) [setting] मधून डावीकडून उजवीकडे चालत आहे. Side-scroller camera; parallax फक्त बॅकग्राउंडवर (background) ठेवा. Camera rotation नको, perspective shifts नको. Loopable ending: पात्र फ्रेमच्या (frame) उजवीकडून बाहेर जाईल."
हे का काम करते: ॲनिमेशन (animation) स्टाईल्समध्ये (styles) भरपूर माहिती असते, पण ते कॅमेऱ्यातील बदलांसाठी संवेदनशील असतात. त्यामुळे कॅमेऱ्याचा प्लेन (plane) लॉक (lock) करा.
- हवामान आणि टेक्सचर (Texture) मुख्य घटक म्हणून
प्रॉम्प्ट: "[Surface] चा macro close-up, ६ सेकंद, tripod. पावसाचे थेंब तयार होऊन एकत्र येणे, रिअल-टाइम (real-time). Soft top-light, dark background. ऑडिओ (audio) अपेक्षित आहे, पण काहीही दिसू नये. No cuts, human subject नको, camera चे रिफ्लेक्शन (reflection) नको."
हे का काम करते: texture मध्ये भरपूर माहिती असते; बंधनं (constraints) विचित्र गोष्टी (uncanny intrusions) टाळतात.
- संवादाशिवाय सूक्ष्म-नाट्य
प्रॉम्प्ट: "Photoreal, ९ सेकंद. [Character A], [वय/लिंग], [विशिष्ट वेशभूषा], [ठिकाण] येथे थांबलेली आहे. ती एक टेक्स्ट (text) चेक (check) करते, किंचित हसते, फोन खिशात ठेवते. Over-the-shoulder medium shot; shallow DOF; city bokeh. नैसर्गिकरित्या हात हलवा, ओठ (lip) हलवू नका. केसांची लांबी [नेमकी] तेवढीच ठेवा, डाव्या हाताच्या तर्जनीमध्ये (index finger) अंगठी (ring) हवी. पार्श्वभूमीतील (background) पात्रांचे मॉडेल (model) बदलू नये."
हे का काम करते: लहान, मानवी-स्केलचे (human-scale) क्षण; सातत्य (continuity) टिकवण्यासाठी Sora 2 ला clip च्या मध्ये प्रॉप्स (props) किंवा चेहरे (faces) बदलण्यापासून प्रतिबंधित करते.
सातत्य समस्या (Continuity Problem) (आणि ती कशी थांबवायची)
Sora 2 चा सर्वात मोठा trick हाच त्याची Achilles’ heel (कमकुवत बाजू) आहे: ते नविन गोष्टी तयार करते. हे खूप छान आहे, जोपर्यंत कॉफीचा मग (coffee mug) एका फ्रेममधून दुसऱ्या फ्रेममध्ये टेबलवर सरकत नाही, तोपर्यंत. सातत्यातील (continuity) त्रुटी जनरेटिव्ह मॉडेलमध्ये (generative models) तयार होतात; ते मागील क्षणाशी जुळवून घेण्याचा प्रयत्न करत प्रत्येक क्षणाचा अंदाज लावतात. जेव्हा तुमचा प्रॉम्प्ट (prompt) संदिग्ध (ambiguous) असतो, तेव्हा अंदाज भरकटतात.
जादुई नसलेले उपाय:
- एकावचनी संज्ञा (singular nouns) निश्चित करा. "टेबलच्या पूर्वेकडील बाजूला (east side) लाल रंगाचा (red) सिरॅमिकचा (ceramic) कप (mug), ज्याला rim ला चीप (chipped) आहे." नुसता "कप" (mug) नको.
- वेशभूषा (wardrobe) निश्चित करा. "निळ्या रंगाचा डेनिम जॅकेट (blue denim jacket), छातीवर दोन खिसे (chest pockets), तांब्याचे बटण (copper buttons), पॅच (patches) नको. बदलू नका."
- निगेटिव्ह स्पेसवर (negative space) लक्ष ठेवा. "टेबल रिकामा ठेवा; कपाशिवाय काही नको." जर तुम्ही मनाई नाही केली, तर मॉडेल (model) ते भरेल.
- कॅमेऱ्याची हालचाल मर्यादित करा. हालचालीचा प्रत्येक Axis सातत्य (continuity) तोडण्याची शक्यता वाढवतो.
- अँकर बीटचा (anchor beats) वापर करा. "३ऱ्या सेकंदाला (second) विषय खाली पाहतो; ६व्या सेकंदाला (second) विषय श्वास सोडतो." जेव्हा वेळ स्पष्ट असते, तेव्हा त्रुटीसाठी कमी जागा असते.
Sora 2 प्रॉम्प्ट इंजिनीअरिंग (prompt engineering) म्हणजे मोठ्या प्रमाणात सातत्य इंजिनीअरिंग (continuity engineering) आहे. हे मान्य करा आणि तुमचे आऊटपुट (outputs) एक ደረጃ वर जाईल.
स्टाईल (Style) म्हणजे फक्त वेशभूषा नाही, ती एक अट आहे.
लोक "वेस अँडरसन" (Wes Anderson) अशा प्रकारे विचारतात, जसे ते "एस्प्रेसो" (espresso) मागत आहेत—ज्याचा अर्थ त्यांना साखर हवी आहे. स्टाईल (style) म्हणजे तुम्ही कोणत्याही विषयावर टाकू शकता, असा पोशाख नाही. Sora 2 मध्ये स्टाईल (style), मॉडेल (model) कोणते नियम वापरायचे हे ठरवते: रंग, रचना, हालचाल, अगदी लेन्सचा (lens) वापर.
एकाची निवड करा:
- फोटो रिअल (Photoreal): त्वचेवरील छिद्र, लेन्स दोष (lens aberrations), वास्तववादी फिजिक्स (physics). उत्पादनं (products) आणि मानवी भावनांसाठी उत्तम. निष्काळजी प्रॉम्प्ट्सना (prompts) माफ करत नाही.
- फिल्म स्टॉक इम्युलेशन (Film stock emulation) (16mm, 35mm): खडबडीत grain, halation, softer rolloff, कमी saturation. जपून वापरा, स्टॉकचा (stock) जमाना (era) सांगा आणि लाईटिंग (lighting) सोपे ठेवा.
- ॲनिमेशन (Animation) (cel, stop motion, watercolor): स्पष्ट आऊटलाईन (clear silhouettes), सातत्यपूर्ण आऊटलाईन (consistent outlines) आणि लॉक कॅमेरा प्लेनला (locked camera planes) प्राधान्य देते. जास्त तपशील वेळेनुसार (temporal) सातत्य बिघडवतात.
- ग्राफिक/इलस्ट्रेटिव्ह (Graphic/illustrative): फ्लॅट टोन (flat tones), उच्च कॉन्ट्रास्ट (high contrast), बोल्ड भूमिती (bold geometry). जेव्हा हालचाल कमी आणि विचारपूर्वक असते, तेव्हा चांगले काम करते.
फोटो रिअल (photoreal) लाईटिंगची (lighting) मागणी करणे आणि इलस्ट्रेटिव्ह लाईन आर्ट (illustrative line art) वापरणे, ही चूक आहे. हे होऊ शकतं, पण मॉडेल (model) स्वतःशीच वाद घालत असल्यामुळे वेळेनुसार (temporal) गोंधळाची अपेक्षा ठेवा.
"जास्त विशेषणं = चांगला व्हिडिओ" हा गैरसमज आहे.
जर तुम्हाला विशिष्ट आऊटपुट (specific outputs) हवे असतील, तर विशिष्ट संज्ञा (nouns) आणि क्रियापदं (verbs) वापरा. विशेषणं फक्त सजावट आहेत:
- वाईट: "एका futuristic cyberpunk शहरातून वेगानं धावणारी सुंदर कारचा सिनेमॅटिक, एपिक, हायपररिअल शॉट."
- चांगले: "फोटो रिअल शॉट, ६ सेकंद. नारंगी रंगाची (orange) 1971 Datsun 240Z रात्री हलक्या पावसात शिबुयामधून (Shibuya) लेन (splits-lane) बदलते. माउंटेड हूड कॅमेरा (mounted hood camera), 24mm-इक्विव्हॅलेंट (24mm-equivalent), थोडा मोशन ब्लर (motion blur), ओल्या डांबरी रस्त्यावर निऑन (neon) लाईटचे रिफ्लेक्शन (reflection). ट्रॅफिक (traffic) मध्यम ठेवा; पोलिसांची गाडी (cop cars) नको; लोगोचे (logo) क्लोज-अप (close-ups) नको."
चांगला प्रॉम्प्ट (prompt) ओरडत नाही. तो तुम्हाला नेमकं काय होतंय, कुठे, कसं आणि काय करायचं नाही, हे सांगतो.
तुम्ही खरंच मोठे प्रॉम्प्ट्स (Long Prompts) कधी वापरायला पाहिजेत
- एकाच टेक मध्ये (take) मल्टी-बीट ॲक्शन (multi-beat action). जर कॅमेरा किंवा विषयाने (subject) विशिष्ट वेळी (precise times) वेगळ्या प्रकारे वागायला हवं असेल, तर ते स्पष्टपणे सांगा.
- ब्रँडेड (Branded) किंवा नियमित (regulated) केलेले कंटेंट (content). तुम्ही चुकीचे लोगो (hallucinated logos) किंवा असुरक्षित (unsafe) वर्तणूक (behaviors) परवडू शकत नाही. नकारात्मक (negative) प्रॉम्प्ट्स (prompts) अत्यावश्यक (non-negotiable) बनतात.
- कल्पित वस्तू (invented objects) किंवा जग (worlds). जर तुम्ही "काचेचा (glass) छत्री (umbrella) बनवत असाल, जी स्ट्रीट लाईट (streetlights) रिफ्रॅक्ट (refracts) करते", तर तिची रचना आणि कार्य (behavior) सांगा.
- पोस्टसोबत इंटरऑप (Interop with post). जर तुम्हाला कंपोझिट (composite) करायचं असेल, तर लाईटिंग (lighting), मोशन ब्लर (motion blur) आणि प्लेट क्लिनलिनेस (plate cleanliness) नियंत्रित करा.
नाहीतर, जास्त शब्दांचा वापर (verbosity) मिठासारखा करा. तुम्ही ते टाकू शकता, पण परत काढू शकत नाही.
इट्रेशन (Iteration): कंटाळवाणे रहस्य
सर्जनशील (creative) लोकांना असं वाटायला आवडतं की, पहिला प्रयत्न रोमांचक (thrilling) असायला हवा. Sora 2 इतकं जलद आहे की, तुम्ही कंटाळवाणे आणि पद्धतशीर (methodical) होऊ शकता:
- सुरुवात न्यूट्रल (neutral) करा. एक विषय, एक ॲक्शन (action), एक कॅमेरा. सातत्य (continuity) व्यवस्थित ठेवा.
- एका वेळी एक गोष्ट बदला. जर तुम्ही एकाच वेळी लाईटिंग (lighting) आणि कॅमेरा बदलला, तर काय बिघडलं हे तुम्हाला कळणार नाही.
- प्रॉम्प्ट्स (prompts) आणि आऊटपुटचा (outputs) चेंजलॉग (changelog) ठेवा. साध्या Google Doc मध्ये सुद्धा चालेल. भविष्यात तुम्हाला त्याचे फायदे समजतील.
- शक्य असल्यास सीड रियुजला (seed reuse) प्राधान्य द्या. नियंत्रणामुळे (control) अंदाज लावता येतो.
तिसऱ्या ड्राफ्टमध्ये (draft) रोमांच (thrill) येतो, जेव्हा व्हिडिओ व्यवस्थित काम करतो आणि तुम्ही शपथ घेऊन सांगता की, तुम्ही काहीच केलेलं नाही. तुम्ही केलं: तुम्ही मॉडेलला (model) कारणं देणं बंद केलं.
Guardrails जे तास वाचवतात
- टेम्पोरल भाषेला (temporal language) महत्त्व द्या. "४ थ्या सेकंदाला" हे "नंतर" पेक्षा चांगलं आहे.
- स्पेशिअल अँकरला (spatial anchors) महत्त्व द्या. "स्क्रीन-लेफ्ट" (screen-left) हे "डावीकडे" पेक्षा चांगलं आहे.
- फिजिक्सला (physics) महत्त्व द्या. मूलभूत हालचालींचं उल्लंघन करणाऱ्या पाच गोष्टींची मागणी करू नका. मॉडेलने (model) जग पाहून फिजिक्स (physics) शिकला आहे; त्याला mislead करू नका.
- चेहरे (faces) अवघड आहेत. जर तुम्हाला स्थिरता हवी असेल, तर डोक्याचा अँगल (angle), लाईटिंग (lighting) आणि अंतर निश्चित करा. चेहऱ्यावर जलद पुश-इन (fast push-ins) टाळा, नाहीतर तुम्हाला वितळलेले चेहरे (melting faces) बघायला मिळतील.
- गर्दी म्हणजे गोंधळ. गरज असल्यास, डेप्थ ऑफ फील्डने (depth of field) किंवा कमी लाईटमध्ये त्यांना अंधुक (blur) करा. एक्स्ट्रा कलाकारांना (extras) स्टार (star) बनवू नका.
Sora 2 प्रॉम्प्ट इंजिनीअरिंगसाठी (Prompt Engineering) उपयोगी टेम्प्लेट (Template)
कॉपी (copy) करा, मग तुमच्यानुसार बदला. तुम्हाला नको असलेली लाईन (line) काढून टाका.
शीर्षक/टॅग: Sora 2 प्रॉम्प्ट इंजिनीअरिंग — [प्रोजेक्टचे नाव]
हेतू: [दर्शकाला एका वाक्यात काय वाटायला पाहिजे किंवा काय विचार करायला पाहिजे ते लिहा.]
कालावधी: [X] सेकंद, एक Continuous shot. Cuts असतील तर सांगा.
विषय: एक [स्पष्ट विषय], [वय/तपशील], [वेशभूषेचा (wardrobe) तपशील].
दृश्य: [ठिकाण], [दिवसाची वेळ], [हवामान]. महत्त्वाचे प्रॉप्स (props): [संज्ञा]. निगेटिव्ह स्पेस (negative space): [काय रिकामा ठेवायचा आहे].
कॅमेरा: [शॉटचा प्रकार], [लेन्सचा (lens) प्रकार], [हालचाल], [गती]. क्षितिज (horizon) [समतल/तिरका] ठेवा. फ्रेमिंग (Framing): विषय [स्क्रीन पोझिशन] मध्ये राहील.
लाईटिंग: [स्रोत], [गुणवत्ता], [दिशा]. [नको असलेले लाईटिंग आर्टिफॅक्ट्स] टाळा.
शैली: [फोटो रिअल/फिल्म स्टॉक/सेल ॲनिमेशन/इतर], रंगसंगती [काही रंगांची यादी करा]. टेक्सचर/grain [असल्यास].
ॲक्शन टाइमलाइन (Action timeline):
सातत्य लॉक (Continuity locks): [वेशभूषेचे तपशील], [प्रॉपची (prop) स्थिती], [केस/डोळ्यांचा रंग], [टेक्स्ट ओव्हरले (text overlays) नको], [लोगो (logo) बदलू नये].
नकारात्मक गोष्टी: morphing नको, jump cuts नको, time-lapse नको, चुकीचे signage नको, camera reflections नको.
वास्तविकता पडताळणी: Tools चव (Taste) बदलू शकत नाहीत
तुम्ही जगातला सर्वात स्वच्छ Sora 2 प्रॉम्प्ट (prompt) लिहू शकता, पण तुमची चव (taste) बरोबर नसेल, तर तुम्हाला बघायला नको असलेला क्लिप (clip) मिळू शकतो. रचना, लय, प्रकाश. हे फॅशन (fads) नाहीत; ते नियम आहेत आणि Sora 2 तुम्हाला ते शिकण्यापासून सूट देत नाही. "प्रॉम्प्ट इंजिनीअरिंग" (prompt engineering) म्हणजे design by omission: मॉडेलला (model) चीझी (cheesy) गोष्ट करू देऊ नका, जी त्याला करायची आहे. जेव्हा भावनेला (emotion) शांततेची गरज असते, तेव्हा त्याला कॅमेरा फिरवू देऊ नका.
Sora 2 प्रॉम्प्ट इंजिनीअरिंगमधील (prompt engineering) सर्वात मोठी शक्ती संयम (restraint) आहे. कमी मागा, जास्त मिळवा. सगळं काही मागा, सूप (soup) मिळेल.
Sider.AI खरंच कुठे मदत करते (आणि कुठे नाही)
Sider.AI खरंच काम करते—किमान तुम्ही त्याचा योग्य कामासाठी वापर केला तर. हे विचित्र आहे, पण ज्या गोष्टीबद्दल प्रत्येकजण बढाई मारतो, ते हे नाही. हे "make art" (कला निर्माण करणे) बटण नाही. हे "स्पष्ट बंधनं (obvious constraints) विसरू नका" सांगणारं असिस्टंट (assistant) आहे. तुमचा Sora 2 प्रॉम्प्ट (prompt) तयार करा, मग Sider.AI ला तो कोड एडिटरसारखा (code editor) अर्थासाठी तपासायला सांगा: ते अमर्यादित विशेषणं, विरोधाभासी कॅमेऱ्याच्या हालचाली, नसलेले सातत्य लॉक (continuity locks) निदर्शनास आणून देतं. हे तुम्हाला सांगतं की, "तुम्ही एकाच वेळी हँडहेल्ड (handheld) आणि ट्रायपॉडसाठी (tripod) विचारलं आहे." हे कशात मदत करणार नाही: चव (taste) निर्माण करण्यात किंवा द्विधा मनःस्थिती (indecision) सोडवण्यात. तुमच्या क्लिपला (clip) डॉली (dolly) हवं आहे की लॉक-ऑफ (lock-off), हे जर तुम्हाला माहीत नसेल, तर कोणतंही tool तुम्हाला उत्तर देऊ शकत नाही. पण एकदा तुम्ही ठरवलं की, Sider.AI प्रॉम्प्ट (prompt) स्पष्ट, पुन्हा वापरण्यायोग्य (repeatable) आणि सोपा (short) बनवण्यात मदत करतं. उपयोगी उदाहरणे: पूर्वी आणि नंतर
उदाहरण १: प्रोडक्ट हिरो शॉट (Product Hero Shot)
- पूर्वी: "मार्बल टेबलवर (marble table) असलेल्या आमच्या नवीन स्मार्टवॉचचा (smartwatch) सिनेमॅटिक, एपिक शॉट, नाट्यमय प्रकाश, पाण्याचे थेंब, अल्ट्रा-डिटेल (ultra-detailed)."
- नंतर: "फोटो रिअल मॅक्रो (photoreal macro), ६ सेकंद. आमचं स्मार्टवॉच (41mm, silver aluminum, black fluoroelastomer band) matte white मार्बलवर (marble) आहे. स्टॅटिक ट्रायपॉड (static tripod); हळू २% पुश-इन (push-in) सिम्युलेटेड (simulated) आहे, हँडहेल्ड (handheld) नाही. सिंगल टॉप सॉफ्टबॉक्स (single top softbox); क्रिस्टलवर (crystal) लहान थेंब तयार करणारे हलके धुके (light mist). स्क्रीन बंद आहे, क्राउन ३ वाजता आहे. आमच्या लोगोशिवाय (logo) इतर कोणतेही लोगो (logos) नको; टेक्स्ट ओव्हरले (text overlays) नको.
काय बदललं: प्रत्येक गोष्ट निश्चित केली; "एपिक" (epic) नको. याचा परिणाम मूड बोर्डासारखा (mood board) नसून शॉट लिस्टसारखा (shot list) दिसतो.
उदाहरण २: मानवी क्षणासोबत स्ट्रीट सीन (Street Scene)
- पूर्वी: "एका छान सायबरपंक्की (cyberpunk) शहराचं दृश्य, जिथे एक व्यक्ती निऑन व्हायब्ससोबत (neon vibes) फिरत आहे, सिनेमॅटिक."
- नंतर: "८ सेकंद, फोटो रिअल. रात्रीच्या वेळी शिंजुकुच्या (Shinjuku) बाजूचा रस्ता (side street), हलका पाऊस; ओल्या डांबरी रस्त्यावर निऑन (neon) signage चं रिफ्लेक्शन (reflection). एक व्यक्ती: ३० वर्षांची (30s) स्त्री, नेव्ही रंगाचा (navy) trench, पांढरे स्नीकर्स (white sneakers), लहान काळे bob hairstyle. मध्यम-वाइड (medium-wide), डोळ्याच्या पातळीवर (eye-level), सौम्य स्टॅबिलायझेशनसहित (stabilization) steady-cam; विषय कॅमेऱ्याच्या दिशेने सरळ रेषेत (screen-right) दिसेल. रंगसंगती cool blues आणि magenta ठेवा. इंग्रजीमध्ये (English) signage नको; छत्र्या (umbrellas) नको; लेन्स स्वॅप्स (lens swaps) नको.
काय बदललं: एक विषय, एक हालचाल, भाषेचा अर्थ स्पष्ट आहे. क्लिप (clip) सुसंगत आहे.
उदाहरण ३: स्टाईलिश लूप (Stylized Loop)
- पूर्वी: "एका जादुई जंगलातील मांजरीचा whimsical animated लूप, स्टुडिओ घिबली व्हायब्स (Studio Ghibli vibes)."
- नंतर: "Cel-style ॲनिमेशन (animation), 12 fps. Calico मांजर एका लहान मोकळ्या जागेत mossy log वर बसलेली आहे; fireflies फिरत आहेत. Lock कॅमेरा, side-on. मर्यादित रंगसंगती: forest green, pale yellow, warm brown, cream. हळू वारा (gentle breeze) पाने हलवतो; मांजरीची शेपटी (tail) दर २ सेकंदांनी (seconds) हलते. Loopable ending: वारा आणि fireflies त्यांच्या सुरुवातीच्या स्थितीत परत येतात; कॅमेरा shake नको.
काय बदललं: नाव न घेता; शैली नियमांनुसार (rules) परिभाषित (defined) केली आहे, संदर्भांनुसार (references) नाही.
Sora 2 टीमसाठी (Team) प्रॉम्प्ट इंजिनीअरिंग (Prompt Engineering)
जर तुम्ही स्टेकहोल्डर्ससोबत (stakeholders) काम करत असाल, तर विशेषणांच्या (adjective) आधारावर एकमत (consensus) होणे हा तुमचा सर्वात मोठा शत्रू आहे. प्रत्येकाला "जास्त ऊर्जा" (more energy) आणि "जास्त सिनेमॅटिक" (more cinematic) हवं असतं, जणू काही तो knob च आहे. विशेषणांच्या (adjective) ऐवजी निवडी सांगा.
- जास्तीत जास्त एका पानाचा प्रॉम्प्ट स्पेक (prompt spec) तयार करा. हे वाक्यांमधील शॉट लिस्टसारखं (shot list) आहे.
- मंजुरीसाठी चेकलिस्ट (checklist) जोडा: कालावधी, विषयांची संख्या, कॅमेरा, लाईटिंग (lighting), शैली, सातत्य लॉक (continuity locks), नकारात्मक गोष्टी. जर एखादा बॉक्स (box) रिकामा असेल, तर तुमचं काम पूर्ण झालेलं नाही.
- प्रॉम्प्ट्स (prompts), आऊटपुट (outputs) आणि नोट्स (notes) सोबत साठवा. त्यांची version तयार करा. तुमचे "गोल्डन प्रॉम्प्ट्स" (golden prompts) ॲसेट्स (assets) बनतील.
ज्या टीम्स (teams) Sora 2 प्रॉम्प्ट्सला (prompts) प्रोडक्शन डॉक्युमेंट्ससारखं (production documents) वागवतात, त्यांना असे रिझल्ट (results) मिळतात, जणू काही ते तयार केले आहेत, शोधले नाहीत.
"टॅरो कार्ड्स" (Tarot Cards) शिवाय समस्या निवारण
- ते अनपेक्षितपणे कट (cut) होते. तुम्ही संभाव्यतः कट (cut) सूचित केला आहे ("दरम्यान", "अचानक", अनेक क्रिया) किंवा मॉंटेज भाषेचा (montage language) वापर केला आहे. "सिंगल कंटीन्युअस शॉट" (single continuous shot) सक्तीने वापरा आणि प्रतिस्पर्धी बीट्स (beats) काढा.
- चेहरे सतत बदलत (morph) आहेत. डोक्याची दिशा (head orientation), अंतर आणि प्रकाश स्थिर करा. हालचाल कमी करा आणि जलद पुश-इन्स (push-ins) टाळा. भावनांबद्दल कमी विशेषणे वापरा, शारीरिक क्रियेबद्दल अधिक सांगा.
- प्रॉप्स (Props) टेलीपोर्ट (teleport) होतात. प्रॉपचे (prop) नाव सांगा, फ्रेम (frame) किंवा सेटच्या (set) सापेक्ष त्याची स्थिती निश्चित करा आणि निर्दिष्ट केल्याशिवाय हालचाल करण्यास मनाई करा. "संपूर्ण [स्थिती] मध्ये राहतो" असे वापरा.
- शॉट (shot) खूप गजबजलेला वाटतो. तुम्ही मॉडेलला (model) रिकामा भाग भरू दिला. निगेटिव्ह स्पेस (negative space) घोषित करा आणि पार्श्वभूमीतील हालचाल कमी करा.
- शैली (style) फडफडते. तुम्ही दोन लूकची (look) मागणी केली. एक निवडा किंवा स्पष्ट टाइमस्टॅम्पवर (timestamp) बदलण्याची परवानगी द्या.
नीतिमत्ता आणि उत्पत्तीवर एक शब्द
प्रॉम्प्ट इंजिनीअरिंग (Prompt engineering) तुम्हाला स्त्रोतांबद्दल विचार करण्यापासून मुक्त करत नाही. जर तुम्ही एखाद्या जिवंत कलाकाराच्या लूकचे (look) ध्येय ठेवत असाल, तर स्वतःला विचारा की का? जर उत्तर "कारण ते लोकप्रिय आहे" असे असेल, तर तुम्ही आधीच कथानक गमावले आहे. रचनात्मक अंतर्दृष्टी घ्या—कलर ब्लॉकिंग (color blocking), असिमिट्री (asymmetry), शॅलो डीओएफ (shallow DOF)—आणि त्यांचे वर्णन करा. तुम्हाला काहीतरी स्वच्छ, अधिक सातत्यपूर्ण आणि तुमचे स्वतःचे मिळेल.
शांत निष्कर्ष
Sora 2 प्रॉम्प्ट इंजिनीअरिंग (prompt engineering), त्याच्या सर्वोत्तम स्थितीत, कागदावर कंटाळवाणे आणि स्क्रीनवर आश्चर्यकारकपणे प्रभावी आहे. कारण तुम्हाला जादूचे शब्द सापडले नाहीत, तर तुम्ही महत्त्वाच्या भागांवर मशीनला (machine)improvise करू दिले नाही. मॉडेलला (model) दिग्दर्शित करण्याबद्दल मजेदार गोष्ट ही आहे की ते खऱ्या सेटप्रमाणेच शिस्तीला बक्षीस देते: आपल्या विषयाला जाणून घ्या, आपला शॉट (shot) लॉक (lock) करा, हेतूने प्रकाश टाका, पार्श्वभूमीला दृश्य चोरण्यापासून वाचवा.
जर तुम्हाला मंत्र हवा असेल, तर हा घ्या: कमी विशेषणे, जास्त संज्ञा; कमी वाइब्स (vibes), जास्त क्रियापद. तुम्हाला काय म्हणायचे आहे ते सांगा. मॉडेल (model) तंतोतंत तेच करेल—ना जास्त, ना कमी. हेच उद्दिष्ट आहे.
कीवर्ड नोट्स (ज्यांना स्वारस्य आहे त्यांच्यासाठी)
हा लेख Sora 2 प्रॉम्प्ट इंजिनीअरिंगला (prompt engineering) समर्पित आहे, ज्यात Sora 2 साठी स्पष्ट प्रॉम्प्ट कसे लिहायचे, Sora 2 व्हिडिओ प्रॉम्प्टची उदाहरणे, सातत्य लॉक (continuity locks), कॅमेरा सूचना आणि शैली निर्बंध यांचा समावेश आहे. जर तुम्ही हे सर्व वाचले असेल, तर अभिनंदन: तुम्हाला आता समजले आहे की "सिनेमॅटिक" (cinematic) हा या व्यवसायातील सर्वात कमी सिनेमॅटिक (cinematic) शब्द का आहे.
FAQ
प्रश्न 1: Sora 2 प्रॉम्प्ट इंजिनीअरिंग (prompt engineering) म्हणजे काय?
Sora 2 साठी शॉट- अचूक सूचना लिहिणे—विषय, कॅमेरा, प्रकाश, शैली आणि सातत्य—जेणेकरून मॉडेल (model) तुम्हाला चुकीचे वाचू शकणार नाही. तुमच्या Sora 2 प्रॉम्प्टमध्ये (prompt) जितके कमी लूपहोल्स (loopholes) असतील, तितका व्हिडिओ चांगला.
प्रश्न 2: कवीसारखे न वाटता मी Sora 2 प्रॉम्प्ट (prompt) अधिक चांगले कसे लिहू?
संज्ञा आणि क्रियापदांचा वापर करा: कोण काय करतो, कुठे आणि कसे. Sora 2 प्रॉम्प्ट इंजिनीअरिंगसाठी (prompt engineering), "सिनेमॅटिक" (cinematic) च्या ऐवजी लेन्स (lens), हालचाल आणि वेळ वापरा; "व्हायब" (vibe) च्या ऐवजी दृश्यातील तथ्ये आणि निगेटिव्ह स्पेस (negative space) वापरा.
प्रश्न 3: माझ्या Sora 2 व्हिडिओमध्ये (video) शॉटच्या (shot) मध्ये पोशाख आणि प्रॉप्स (props) का बदलतात?
सातत्य विचलन (Continuity drift). Sora 2 प्रॉम्प्टमध्ये (prompt) पोशाख, प्रॉप्सची (props) स्थिती आणि पात्रांची वैशिष्ट्ये स्पष्टपणे लॉक (lock) करा आणि अदलाबदली करण्यास मनाई करा. जर तुम्ही मनाई केली नाही, तर मॉडेल (model) त्याला योग्य मानते.
प्रश्न 4: Sora 2 प्रॉम्प्ट (prompt) लहान असावे की मोठे?
लहान जेव्हा तुम्ही मजबूत प्रायर्सवर (priors) झुकता (साधे, प्रतिष्ठित दृश्य), मोठे जेव्हा तुम्हाला नवीन तपशील किंवा टाइमड बीट्सची (timed beats) आवश्यकता असते. Sora 2 प्रॉम्प्ट इंजिनीअरिंगमध्ये (prompt engineering), शब्दबंबाळपणा हे एक साधन आहे, सद्गुण नाही.
प्रश्न 5: आज Sora 2 चा निकाल सुधारण्याचा सर्वात वेगवान मार्ग कोणता आहे?
विशेषणे काढा, कॅमेरा लॉक (lock) करा आणि एकच विषय आणि क्रिया निर्दिष्ट करा. सातत्य लॉक (continuity locks) आणि नकारात्मकता जोडा—Sora 2 प्रॉम्प्ट इंजिनीअरिंग (prompt engineering) म्हणजे बहुतेक लूपहोल्स (loopholes) बंद करणे.