El problema amb l'"enginyeria de prompts" no són els prompts
El que passa amb l'enginyeria de prompts de Sora 2 és que tothom fingeix que l'entén, fins que el seu vídeo sembla un deliri febril gravat amb una patata. L'instint és afegir més paraules, esquitxar-hi una mica de jargon i esperar que el model llegeixi les ments. No ho farà. Sora 2 és intel·ligent com ho és un gran autocompletar: sorprenent, però molt literal. Digues què vols dir. No amaguis la idea principal dins d'un diccionari de sinònims.
La maquinària de promoció de la indústria vol que l'enginyeria de prompts sigui alquímia. No ho és. És edició. És direcció. Ets tu assumint la responsabilitat de dir-li a una màquina què vols, en termes que no pugui malinterpretar. La resta (els "encanteris secrets", el vudú de copiar i enganxar) funciona fins que deixa de fer-ho. Sora 2 és millor que això. Tracta'l com un col·laborador que pren tot el que dius al peu de la lletra i mai mira les còpies diàries.
De què estem parlant realment
Siguem concrets: l'enginyeria de prompts de Sora 2 és l'art d'escriure text de prompt (i, on estigui disponible, entrades de referència i controls) que produeix un vídeo coherent i controlable. No "inspiració". No "bones vibracions". Estàs component restriccions (tema, acció, càmera, il·luminació, estil, durada, ritme i continuïtat) perquè el model no inventi un cavall lila a mig paisatge urbà.
La millor manera de pensar-hi: estàs fent un guió gràfic amb paraules. Com més s'assembli el teu prompt a una llista de plans ajustada amb un punt de vista, més es comporta Sora 2. Com més vague sigui (adjectius ambigus, cinc estils artístics que competeixen, esquizofrènia de l'hora del dia), més s'assemblarà la sortida a un collage de coses que el model recorda a mitges.
El marc senzill per als prompts de Sora 2
Tampoc m'agraden els marcs, però aquest es guanya el sou. Pensa en els prompts de Sora 2 com cinc capes apilades. Pots ignorar qualsevol capa que no necessitis, però si falta una capa, el model l'omple amb tòpics.
- Tema i intenció (el "què" i el "per què")
- Un tema principal. Potser un tema secundari. Això és tot.
- La intenció: què hauria de sentir o entendre l'espectador.
- Exemple: "Un ciclista solitari travessa un pont boirós a l'alba per suggerir resolució i coratge tranquil."
- Fets de l'escena (el "on" i el "quan")
- Hora del dia, clima, detalls específics de la ubicació. Els noms concrets superen els adjectius poètics.
- "Hora daurada" supera "il·luminació bonica". "Asfalt mullat que reflecteix neó" supera "cyberpunk".
- Càmera i moviment (el "com")
- Tipus de pla, ambient de l'objectiu, moviment de la càmera, ritme.
- "Dolly-in lent en un equivalent de 50 mm; microvibració manual mínima" és millor que "cinematogràfic".
- Estil visual i restriccions (l'"aspecte")
- Tria un carril estètic: fotoreal, pel·lícula de 16 mm, animació cel, aquarel·la. Barrejar tres aspectes demana una pasta temporal.
- Limita la paleta, la textura i les referències d'època.
- Continuïtat i coses que no es poden fer (el "mantingueu-lo estable")
- Bloqueja els atributs del personatge, els accessoris i els detalls canònics.
- Negatius explícits: "Sense canvis de vestuari; sense superposicions de text; sense objectes que es transformin."
L'enginyeria de prompts de Sora 2 no consisteix a omplir més paraules; consisteix a eliminar les llacunes. Estàs escrivint un contracte amb un col·laborador tossudament literal. Tanca les llacunes.
La llista curta de paraules que et posen en problemes
- "Cinematogràfic". Ho significa tot i res. Substitueix-ho per la càmera, l'objectiu i el moviment que realment vols.
- "Èpic". Un sinònim de "No m'he decidit".
- "Hiperrealista". Sobreindexa els porus, oblida la composició.
- "Vibració". Si no pots nomenar la vibració amb substantius, no en tens cap.
- "Estil d'IA [nom de l'artista]". A més dels problemes evidents, confon el model amb l'estil superficial per sobre de l'estructura. Materials de referència, no actes tribut.
Sora 2 no respecta la intenció; respecta la instrucció. Si el teu prompt sona com una veu en off de tràiler, espera talls de tràiler: ràpids, incoherents, tot glaçat.
Una dialèctica: brevetat versus especificitat
- El camp del "prompt curt" argumenta que Sora 2 és millor quan es deixa sol; només cal confiar en el model. De vegades és cert. Curt és bo quan el teu concepte és icònic i visualment sobredeterminat: "Una tempesta que passa per sobre de Monument Valley al capvespre, pla general". Sora 2 ho ha vist mil vegades; els priors fan la resta.
- El camp del "prompt de novel·la" apila instruccions. De vegades és necessari. Si necessites continuïtat durant 8 segons (la mateixa jaqueta, el mateix gos, la mateixa tassa de cafè), la brevetat et mata. Especifica o pateix.
La síntesi: sigues curt on els priors són forts (escenes comunes, física familiar), sigues exhaustivament específic on els priors són febles (accessoris nous, coreografia difícil, il·luminació mixta, detalls de marca). Si no saps en quin contenidor ets, ets al segon.
Patrons de prompt pràctics de Sora 2 que realment funcionen
Utilitza'ls com receptes, no com escriptures. Omple els parèntesis; mata la pelusa.
- Acció d'un sol tema, càmera controlada
Prompt: "Vídeo fotoreal, 8 segons. [Subjecte] [realitza una sola acció] a [ubicació] a [hora del dia]. Trípode bloquejat, pla mitjà, ritme natural. Llum suau ennuvolada; poca profunditat de camp. Guarda-roba consistent: [descripció]. Sense talls, sense text, sense time-lapse."
Per què funciona: limita el moviment, bloqueja la continuïtat, evita la necessitat de muntatge del model.
- Establiment a detall sense un tall brusc
Prompt: "10 segons. Comença amb un pla general d'[ubicació]; dolly-in lent de 5 segons. Al segon 6, passa a un pla mitjà de [subjecte], mantenint l'enquadrament esquerre de la pantalla. Llum de fons de l'hora daurada; reflexos de l'objectiu subtils. Manteniu la paleta de colors amb taronges càlides i blaus apagats. Sense focus rack; sense canvis d'angle sobtats."
Per què funciona: ensenya la seqüenciació a Sora 2 sense convidar al caos.
- Animació estilitzada amb seny temporal
Prompt: "Animació dibuixada a mà, estil cel, 12 fps. Colors plans, contorns gruixuts, paleta limitada [llista 4 colors]. [Personatge] camina d'esquerra a dreta per [escenari]. Càmera de desplaçament lateral; paral·laxi només al fons. Sense rotació de la càmera, sense canvis de perspectiva. Finalització en bucle: el personatge surt del marc a la dreta."
Per què funciona: els estils d'animació són rics en priors però sensibles als canvis de càmera. Bloqueja el pla.
- Temps i textura com a protagonista
Prompt: "Primer pla macro de [superfície], 6 segons, trípode. Gotes de pluja formant-se i fusionant-se, en temps real. Llum superior suau, fons fosc. Àudio implícit però no visible. Sense talls, sense subjectes humans, sense reflexos de la càmera."
Per què funciona: els priors de textura són forts; les restriccions impedeixen intrusions estranyes.
- Microdrama sense diàlegs
Prompt: "Fotoreal, 9 segons. [Personatge A], [edat/gènere], amb [guarda-roba específic], espera a [ubicació]. Revisa un text, somriu subtilment, guarda el telèfon a la butxaca. Pla mig per sobre de l'espatlla; poca profunditat de camp; bokeh de la ciutat. Moviment natural de la mà, sense moviment dels llavis. Mantingueu la longitud del cabell [exacta], l'anell al dit índex esquerre durant tot el temps. Sense canvis de model de personatge de fons."
Per què funciona: petits ritmes a escala humana; les àncores de continuïtat impedeixen que Sora 2 canvïi accessoris o cares a mig clip.
El problema de la continuïtat (i com deixar de perdre-hi)
El truc de festa més gran de Sora 2 és també el seu taló d'Aquil·les: inventa. Això és genial fins que la tassa de cafè migra a través d'una taula entre fotogrames. Les ruptures de continuïtat estan integrades en els models generatius; endevinen cada moment amb un biaix per coincidir amb l'últim. Quan el teu prompt és ambigu, les conjectures es desvien.
Solucions que no són màgia:
- Bloqueja els noms singulars. "Una tassa de ceràmica vermella amb una vora esquinçada al costat est de la taula". No "una tassa".
- Congela el guarda-roba. "Jaqueta texana blava amb dues butxaques al pit, botons de coure, sense pedaços. No canvïis."
- Ordena espai negatiu. "Taula buida; res excepte la tassa". Si no ho prohibeixes, el model l'omple.
- Limita els moviments de la càmera. Cada eix de moviment addicional és una oportunitat per trencar la continuïtat.
- Utilitza ritmes d'àncora. "Al segon 3, el subjecte mira cap avall; al segon 6, el subjecte exhala visiblement". Quan el temps és explícit, la deriva té menys espai per colar-se.
L'enginyeria de prompts de Sora 2 és en gran mesura enginyeria de continuïtat. Accepta-ho i les teves sortides pujaran de grau.
L'estil no és un vestit, és una restricció
La gent demana "Wes Anderson" de la mateixa manera que demana "espresso", que normalment significa que volen sucre. L'estil no és un vestit que puguis posar sobre qualsevol tema. A Sora 2, l'estil tria les regles que utilitza el model: color, composició, moviment, fins i tot el comportament de l'objectiu.
Tria'n un:
- Fotoreal: porus de la pell, aberracions de l'objectiu, física realista. Ideal per a productes i emoció humana. Inexorable per als prompts descuidats.
- Emulació de pel·lícula (16 mm, 35 mm): gra gruixut, halació, rolloff més suau, menor saturació. Utilitza'l amb moderació, especifica l'època de la pel·lícula i manteniu la il·luminació senzilla.
- Animació (cel, stop motion, aquarel·la): afavoreix les siluetes clares, els contorns consistents i els plans de càmera bloquejats. Els detalls massa plens saboten la consistència temporal.
- Gràfic/il·lustratiu: tons plans, alt contrast, geometria atrevida. Funciona quan el moviment és mínim i deliberat.
L'error és demanar il·luminació fotoreal amb art lineal il·lustratiu. Pot passar, però espera soroll temporal mentre el model discuteix amb si mateix.
El mite de "Més adjectius = Millor vídeo"
Si vols sortides específiques, utilitza substantius i verbs específics. Els adjectius són guarnició:
- Dolent: "Un pla cinematogràfic, èpic i hiperreal d'un cotxe preciós que corre ràpidament per una ciutat cyberpunk futurista."
- Bo: "Pla fotoreal, 6 segons. Un Datsun 240Z de 1971 de color taronja divideix el carril per Shibuya a la nit amb pluja lleugera. Càmera muntada al capó, equivalent a 24 mm, lleuger desenfocament de moviment, asfalt mullat que reflecteix rètols de neó. Manteniu la densitat del trànsit moderada; sense cotxes de policia; sense primers plans de logotips."
El bon prompt no crida. T'indica exactament què passa, on, com i què no has de fer.
Quan realment hauries d'utilitzar prompts llargs
- Acció de múltiples ritmes en una sola presa. Si la càmera o el subjecte han de canviar de comportament en moments precisos, explica-ho.
- Contingut de marca o regulat. No et pots permetre logotips al·lucinats o comportaments insegurs. Els prompts negatius es tornen innegociables.
- Objectes o mons inventats. Si estàs fent un "paraigua de vidre que refracta els fanals del carrer", defineix la construcció i el comportament.
- Interop amb la postproducció. Si saps que faràs composició, limita la il·luminació, el desenfocament de moviment i la neteja de la placa.
En cas contrari, tracta la verbositat com la sal. Pots afegir-la; no la pots treure.
Iteració: el secret avorrit
A la gent creativa li encanta pensar que el primer intent hauria de ser emocionant. Sora 2 és prou ràpid perquè puguis ser avorrit i metòdic:
- Comença neutral. Un tema, una acció, una càmera. Clava la continuïtat.
- Canvia una cosa a la vegada. Si modifiques la il·luminació i la càmera en la mateixa passada, no sabràs què s'ha trencat.
- Manteniu un registre de canvis de prompts i sortides. Fins i tot un document de Google. El teu futur jo t'ho agrairà.
- Afavoreix la reutilització de llavors quan estigui disponible. El control engendra predictibilitat.
L'emoció està en el tercer esborrany quan el vídeo finalment es comporta i jures que no has fet res. Ho has fet: has deixat de donar excuses al model.
Baranes que estalvien hores
- El llenguatge temporal importa. "Al segon 4" supera "més tard".
- Les àncores espacials importen. "A l'esquerra de la pantalla" supera "a l'esquerra".
- La física importa. No demanis cinc coses que violin el moviment bàsic. El model va aprendre física mirant el món; no l'enganyis.
- Les cares són difícils. Bloqueja l'angle del cap, la il·luminació i la distància si vols estabilitat. Evita les entrades ràpides a les cares tret que t'agradi que es fonguin.
- Les multituds són caos. Si has de fer-ho, desenfoca'ls amb profunditat de camp o llum més baixa. No facis que els extres siguin l'estrella.
Una plantilla de treball per a l'enginyeria de prompts de Sora 2
Copia i després personalitza. Mata qualsevol línia que no necessitis.
Títol/Etiqueta: Enginyeria de prompts de Sora 2 — [Nom del projecte]
Intenció: [Què vols que l'espectador senti o pensi en una frase.]
Durada: [X] segons, presa contínua única. Sense talls tret que s'indiqui.
Tema: Un [tema clar], [edat/descripció], [detalls del guarda-roba].
Escena: [Ubicació], [hora del dia], [clima]. Accessoris clau: [substantius]. Espai negatiu: [què ha de romandre buit].
Càmera: [tipus de pla], [ambient de l'objectiu], [moviment], [ritme]. Manteniu l'horitzó [nivell/inclinat]. Enquadrament: el subjecte es manté [posició de la pantalla].
Il·luminació: [font], [qualitat], [direcció]. Eviteu [artefactes d'il·luminació no desitjats].
Estil: [fotoreal / pel·lícula / animació cel / altre], paleta [llista pocs colors]. Textura/gra [si n'hi ha].
Cronologia de l'acció:
Bloquejos de continuïtat: [detalls del guarda-roba], [estat de l'accessori], [color de cabell/ulls], [sense superposicions de text], [sense intercanvis de logotips].
Negatius: Sense transformacions, sense talls bruscos, sense time-lapse, sense senyalització al·lucinada, sense reflexos de la càmera.
Comprovació de la realitat: les eines no substitueixen el gust
Pots escriure el prompt de Sora 2 més net del món i encara obtenir un clip impossible de veure si el teu gust és dolent. Composició, ritme, llum. Aquests no són modes passatgeres; són lleis, i Sora 2 no t'eximeix d'aprendre'ls. Molta "enginyeria de prompts" és disseny per omissió: no deixis que el model faci la cosa ximple que vol fer. No deixis que giri la càmera quan l'emoció necessita quietud.
Si hi ha una superpotència oculta a l'enginyeria de prompts de Sora 2, és la moderació. Demana menys, obtén més. Demana-ho tot, obtén sopa.
On Sider.AI realment ajuda (i on no)
Sider.AI realment funciona, almenys quan l'utilitzes per al que és bo, que, per estrany que sembli, no és del que tothom presumeix. No és el botó de "fer art". És l'assistent de "no oblidis les restriccions òbvies". Redacta el teu prompt de Sora 2, després deixa que Sider.AI el revisi com un editor de codi per al significat: assenyala els adjectius sense límits, els moviments de càmera contradictoris, els bloquejos de continuïtat que falten. És l'empenta que diu: "Has demanat manual i trípode al mateix temps". On no t'ajudarà: inventant el gust o resolent la indecisió. Si no saps si el teu clip vol un dolly o un bloqueig, cap eina pot respondre-ho. Però un cop t'has decidit, Sider.AI és bo per fer que el prompt sigui inequívoc, repetible i misericordiosament curt. Exemples de treball: abans i després
Exemple 1: presa heroica del producte
- Abans: "Pla cinematogràfic i èpic del nostre nou rellotge intel·ligent sobre una taula de marbre, il·luminació dramàtica, gotes d'aigua, ultra detallat."
- Després: "Macro fotoreal, 6 segons. El nostre rellotge intel·ligent (41 mm, alumini platejat, banda de fluoroelastòmer negre) sobre marbre blanc mat. Trípode estàtic; dolly-in simulat lent del 2%, no manual. Una sola softbox superior; boira lleugera sobre el cristall formant petites gotes. Pantalla apagada, corona a les 3 en punt. Sense logotips que no siguin els nostres; sense superposicions de text."
Què ha canviat: cada variable lligada; sense "èpic". El resultat es llegeix com una llista de plans, no com un mood board.
Exemple 2: escena de carrer amb un ritme humà
- Abans: "Una escena de ciutat cyberpunk genial on una persona camina amb vibracions de neó, cinematogràfica."
- Després: "8 segons, fotoreal. Carreró lateral de Shinjuku nocturn amb pluja lleugera; asfalt mullat que reflecteix rètols de neó. Una persona: dona, 30 anys, trincherat blau marí, sabatilles esportives blanques, pentinat bob negre curt. Mitjà-ample, nivell d'ulls, steady-cam amb estabilització suau; el subjecte es manté a la dreta de la pantalla movent-se cap a la càmera. Paleta blaus freds amb magenta ocasional. Sense senyalització en anglès; sense paraigües; sense intercanvis d'objectius."
Què ha canviat: un tema, un moviment, un llenguatge que significa alguna cosa. El clip cohesiona.
Exemple 3: bucle estilitzat
- Abans: "Un bucle animat capritxós d'un gat en un bosc màgic, vibracions d'Studio Ghibli."
- Després: "Animació estil cel, 12 fps. Gat calicó assegut sobre un tronc molsós en un petit clar; lluernes a la deriva. Càmera bloquejada, lateral. Paleta limitada: verd bosc, groc pàl·lid, marró càlid, crema. Una brisa suau mou les fulles; la cua del gat es balanceja cada 2 segons. Finalització en bucle: la brisa i les lluernes tornen a les posicions inicials; sense vibració de la càmera."
Què ha canviat: sense deixar caure noms; l'estil es defineix per regles, no per referències.
Enginyeria de prompts per a equips de Sora 2
Si estàs treballant amb parts interessades, el teu enemic més gran és el consens per adjectiu. Tothom vol "més energia" i "més cinematogràfic" com si fos un botó. Substitueix els adjectius per opcions.
- Crea una especificació de prompt d'una pàgina de llarg, màxim. És una llista de plans en frases.
- Afegeix una llista de verificació d'aprovació: durada, recompte de subjectes, càmera, il·luminació, estil, bloquejos de continuïtat, negatius. Si una casella no està marcada, no has acabat.
- Emmagatzema els prompts juntament amb les sortides i les notes. Versiona'ls. Els teus "prompts d'or" es converteixen en actius.
Els equips que tracten els prompts de Sora 2 com a documents de producció obtenen resultats que semblen que s'han produït, no descobert.
Resolució de problemes sense les cartes del tarot
- Es talla inesperadament. Probablement vas implicar un tall (“mentrestant”, “de sobte”, múltiples accions) o vas utilitzar llenguatge de muntatge. Força “pla seqüència continu” i elimina els ritmes que competeixen.
- Les cares es transformen constantment. Fixa l'orientació del cap, la distància i la il·luminació. Redueix el moviment i prohibeix els acostaments ràpids. Menys adjectius sobre l'emoció, més sobre l'acció física.
- Els accessoris es teletransporten. Anomena l'accessori, posiciona'l en relació amb el marc o l'escenari, i prohibeix el moviment tret que s'especifiqui. Utilitza "roman a [posició] durant tot el temps".
- El pla se sent atapeït. Vas deixar que el model omplís el buit. Declara espai negatiu i redueix el moviment de fons.
- L'estil parpelleja. Vas demanar dos aspectes. Escull-ne un o permet transicions en marques de temps explícites.
Una paraula sobre ètica i procedència
L'enginyeria de prompts no t'absol de pensar en les fonts. Si apuntes a l'aspecte d'un artista viu, pregunta't per què. Si la resposta és "perquè és popular", ja has perdut el fil. Agafa les idees estructurals (bloqueig de color, asimetria, poca profunditat de camp) i descriu-les. Obtindràs alguna cosa més neta, més coherent i teva.
La conclusió tranquil·la
L'enginyeria de prompts de Sora 2, en el seu millor moment, és avorrida sobre el paper i sorprenentment commovedora a la pantalla. No perquè vas trobar les paraules màgiques, sinó perquè no vas deixar que la màquina improvisés en les parts que importen. El curiós de dirigir un model és que recompensa la mateixa disciplina que els sets reals: coneix el teu tema, fixa el teu pla, il·lumina amb intenció, evita que el fons robi l'escena.
Si vols un mantra, aquí en tens un: menys adjectius, més substantius; menys vibracions, més verbs. Digues què vols dir. El model farà exactament això, ni més ni menys. Que és el punt.
Notes de paraules clau (per a aquells que els interessi)
Aquesta peça cobreix l'enginyeria de prompts de Sora 2, incloent-hi com escriure prompts clars per a Sora 2, exemples de prompts de vídeo de Sora 2, bloquejos de continuïtat, instruccions de càmera i restriccions d'estil. Si has llegit fins aquí, felicitats: ara saps per què "cinematogràfic" és la paraula menys cinematogràfica en aquest negoci.
FAQ
Q1: Què és realment l'enginyeria de prompts de Sora 2?
És escriure instruccions precises per a Sora 2 (tema, càmera, il·luminació, estil i continuïtat), perquè el model no et pugui malinterpretar. Com menys llacunes hi hagi al teu prompt de Sora 2, millor serà el vídeo.
Q2: Com puc escriure millors prompts de Sora 2 sense semblar un poeta?
Utilitza substantius i verbs: qui fa què, on i com. Per a l'enginyeria de prompts de Sora 2, substitueix "cinematogràfic" per lent, moviment i temps; substitueix "vibe" per fets d'escena i espai negatiu.
Q3: Per què el meu vídeo de Sora 2 continua canviant de roba i accessoris a mig pla?
Deriva de continuïtat. Fixa explícitament el vestuari, les posicions dels accessoris i els trets del personatge al prompt de Sora 2 i prohibeix els intercanvis. Si no ho prohibeixes, el model ho tracta com a joc net.
Q4: Els prompts de Sora 2 haurien de ser curts o llargs?
Curts quan et recolzes en priors fortes (escenes senzilles i icòniques), llargs quan necessites detalls nous o ritmes cronometrats. En l'enginyeria de prompts de Sora 2, la verbositat és una eina, no una virtut.
Q5: Quina és la manera més ràpida de millorar els resultats de Sora 2 avui?
Redueix els adjectius, fixa la càmera i especifica un sol tema i acció. Afegeix bloquejos i negatius de continuïtat: l'enginyeria de prompts de Sora 2 consisteix principalment a tancar llacunes.