Įvadas: „Nemokama kaip žodis, o ne kaip magija“ problema
Kalbant apie atvirojo kodo AI vaizdų įrankius, visi nori blizgančių demonstracijų rezultatų be išnašų. Tikriausiai matėte „TikTok“: spusteli mygtuką, ir atsiranda fotorealistiškas drakonas, grojantis violončele, ir, matyt, tai yra „nemokama“. Nemokama kaip šuniukas. Arba nemokama kaip pilnas „Home Depot“ vežimėlis medienos – vis tiek turite pastatyti namą.
Jei esate kūrėjas, pasiūlymas yra tiesiog neįtikėtinas: geriausi atvirojo kodo AI vaizdų įrankiai, vietinė kontrolė, jokių baisių paslaugų teikimo sąlygų išnašų ir toks reguliavimo lygis, kurį uždaros platformos mandagiai slepia už skoningų jungiklių rinkinio. Bet yra vienas kabliukas. Atvirojo kodo įrankiai neturi produkto vadovo, kuris neleistų jums daryti brangių, kvailų dalykų. Jie turi „Readmes“ failus, kuriuos parašė žmonės, geriantys espresą 2 val. nakties ir nuoširdžiai tiki, kad jūs taip pat norite kompiliuoti „PyTorch“ iš šaltinio.
Taigi, įvertinkime tai tinkamai. Be palaikymo, be defetizmo. Tikslas čia yra atskirti tai, kas iš tikrųjų geriausia kūrėjams, nuo to, kas tiesiog atrodo įdomu „GitHub“ žvaigždžių naktį.
Kodėl klausimas „Geriausi atvirojo kodo AI vaizdų įrankiai“ yra neteisingas (bet vis tiek naudingas)
Geriausi atvirojo kodo AI vaizdų įrankiai priklauso nuo to, ką darote: iliustracijas, nuotraukų redagavimą, 3D, konceptualų meną, animacijos kadrus, dizaino maketus ar pilnus išteklių srautus. Prašyti vieno „geriausio“ yra tas pats, kas prašyti geriausio peilio: šefo peilio, skutimo peilio ar japoniško „gyuto“, kuris supjaustys pomidorą vien tik į jį pažiūrėjęs? Vienintelis sąžiningas atsakymas yra „priklauso“, po kurio eina paaiškinimas apie faktinius kompromisus.
Naudingas klausimas yra: kurie atvirojo kodo įrankiai apima pagrindinius darbus, su kuriais iš tikrųjų susiduria kūrėjai? Ir kurie pasitraukia iš kelio, užuot įtraukę jus į priklausomybės pragarą?
Svarbūs darbai, o ne madingi žodžiai
- Greitas idėjų generavimas: eskizas į vaizdą, raginimas į kompoziciją ir variacijos, kurios neatrodo kaip kopija kopijos.
- Detalės kontrolė: maskavimas, tapymas, nuoseklus personažas ir stilius, valdomas gylis ir poza.
- Fotorealizmas prieš stilizavimą: neturėtumėte pasirinkti vienos estetikos ir su ja gyventi – nebent norite.
- Vietinis privatumas ir kaina: paleiskite savo GPU, o ne kreditinę kortelę.
- Draugiškumas srautui: programuojamas, automatizuojamas ir nesugenda, kai nusičiaudėjate šalia CUDA.
Turint tai omenyje, štai kur geriausi atvirojo kodo AI vaizdų įrankiai kūrėjams iš tikrųjų spindi – ir kur jie labai prastai pasirodo.
Stable Diffusion (SD 1.5, SDXL): Darbinis arkliukas su nuomone
Jei atvirojo kodo AI vaizdų generavimas turi talismaną, tai yra Stable Diffusion. Ne pats karščiausias modelis pagal kiekvieną etaloną, bet tas, kuris pasirodo darbe ir nepateikia išlaidų ataskaitos. SD 1.5 vis dar be galo naudingas stilizuotai iliustracijai ir konceptualizavimui; SDXL padidina kompozicijos ir detalių ribas, nereikalaujant duomenų centro.
Kodėl kūrėjai jį laiko šalia:
- Reguliuojamas iki kaltės: modelio variantai, LoRA patikslinimai, ControlNet moduliai pozai, gyliui, kraštams – iš esmės apgaulės kodai kompozicijai.
- Pirmiausia vietinis: galite paleisti jį vidutinės klasės GPU. 8–12 GB VRAM nuves jus kažkur; 24 GB padarys jį malonų.
- Ekosistemos gravitacija: kiekvienas įrankis integruojamas su Stable Diffusion. Ne todėl, kad jis tobulas, bet todėl, kad jis yra visur.
Kur jis klysta:
- Fotorealizmo neatitikimai: rankos pagerėjo, tada vėl tapo keistos, priklausomai nuo kontrolinių taškų.
- Greitas vudu: „Geriausia kokybė, šedevras“ neturėtų veikti, bet kartais veikia. Tai nėra funkcija, tai prietaras.
- Sąrankos pridėtinės išlaidos: „Vieno paspaudimo“ diegimo programa visada yra vienas paspaudimas plius 14 tvarkyklės atnaujinimų.
Geriausias būdas jį naudoti:
- SDXL plačioms, turtingoms kompozicijoms ir spausdinimui tinkamoms detalėms.
- SD 1.5 stilizuotam darbui, anime ir greičiui.
- Pridėkite ControlNet pozai/gyliui. Naudokite LoRA nuosekliems simboliams ar produktų stiliams. Laikykite savo modelių zoologijos sodą mažą – kuravimas pranoksta kaupimą.
ComfyUI ir Automatic1111: Du keliai į tą patį kalną
Būkime atviri: geriausi atvirojo kodo AI vaizdų įrankiai yra ne tik modeliai. Tai sąsajos, kurios neleidžia jums išprotėti. Du kalvos karaliai: ComfyUI ir Automatic1111.
Automatic1111 (A1111):
- Argumentai „už“: dideli draugiški mygtukai, daugybė plėtinių, lengvas greitas reguliavimas.
- Argumentai „prieš“: prasideda paprastai, virsta Šveicarijos armijos grandininiu pjūklu, jei įgalinsite viską.
- Geriausiai tinka: kūrėjams, norintiems greitos iteracijos su GUI, kuriam nereikia sistemų inžinerijos laipsnio.
ComfyUI:
- Argumentai „už“: mazgų grafiko valdymas, pasikartojantys srautai, modulinis, greitas. Puikiai tinka, jei jums rūpi nustatymų kilmė.
- Argumentai „prieš“: jūsų pirmasis grafikas atrodys kaip sąmokslo lenta. Jūsų antrasis grafikas taip pat atrodys.
- Geriausiai tinka: pažengusiems vartotojams ir komandoms, norinčioms atkuriamumo, paketuojamų darbo srautų ir rimtos ControlNet choreografijos.
Verdiktas: jei esate naujokas, pradėkite nuo Automatic1111. Jei kuriate srautą ar bendradarbiaujate, pereikite prie ComfyUI. „Geriausias“ priklauso nuo to, ar jums patinka piešti savo instrukcijų sąrašą.
Krita + Stable Diffusion įskiepiai: tikras menininko darbo srautas
Krita nėra naujas, bet tai, kaip ji įtraukia AI į dailininko darbo srautą, yra tyliai geriau nei dauguma. Tapymas jaučiasi natūraliai. Maskavimas nėra papildoma mintis. Jis gerbia sluoksnius, teptukus ir rankų valdymą.
- Tinka: tai yra „AI tikroje meno programoje“, o ne „menas, pritvirtintas prie žiniatinklio demonstracinės versijos“.
- Kabliukas: jums vis tiek reikės, kad jūsų vietinis SD rinkinys veiktų sklandžiai. Bet kai tik jis veiks, Krita plius tapymas jausis kaip sankabos pedalo radimas automobilyje, kurį užgesinote.
InvokeAI: protingas vidurys
InvokeAI nebando būti garsiausias; jis bando būti ramus. Švari vartotojo sąsaja, geros numatytosios vertės, tvirtas tapymas / nutapymas ir modelio tvarkyklė, kuri neleidžia jums stebėtis, ar aplankas pavadinimu „models/Stable-diffusion“ skirtas Stable Diffusion, ar stabilumui. Jei Automatic1111 yra gatvės turgus, o ComfyUI yra laboratorija, InvokeAI yra studija.
- Geriausiai tinka: kūrėjams, norintiems stabilaus, palaikomo atvirojo kodo įrankio su mažiau aštrių kampų ir gera dokumentacija.
- Silpnybė: mažesnė įskiepių visata. Tai gali būti funkcija.
ControlNet: slaptas padažas kontrolės maniakams (t. y. menininkams)
ControlNet yra priežastis, kodėl „AI daro tai, ką nori“ nustojo būti pasiteisinimu. Sąlygokite generavimą pagal krašto žemėlapį, gylio žemėlapį, pozos skeletą arba normalų žemėlapį, ir staiga jūsų konceptualus menas turi struktūrą, o ne vibracijas.
- Naudojimo atvejai, kurie iš tikrųjų svarbūs:
- Pozos-vaizdo keitimas nuosekliems simboliams.
- Gylio-vaizdo keitimas, kad kompozicija būtų nepažeista.
- Canny/Lineart, kad modelis neignoruotų jūsų eskizo.
- Įspėjimas: daugiau ControlNet ne visada yra geriau. Vienas ar du stiprūs signalai nugali penkis švelnius pasiūlymus.
LoRA ir tekstinė inversija: stilius be ieškinio
Visi patikslinimai yra sunkūs. LoRA leidžia įdėti stilių, simbolį ar produkto kontekstą neperrašant viso modelio smegenų. Tekstinė inversija yra kišeninio peilio versija – maži išmokti žetonai, kurie pastumia modelį link jūsų išvaizdos.
- Treniruokitės mažai; per didelis pritaikymas atrodo puikiai, kol kiekvienas vaizdas nėra tas pats plakatas.
- Laikykite biblioteką simboliams ir prekių ženklams, kurių jums reikia pakartotinai.
- Dokumentuokite savo mokymosi rodiklius ir veiksmus, kitaip kiekvieną mėnesį iš naujo išrasite savo klaidas.
Didintuvai: ESRGAN, 4x-UltraSharp ir „Atrodo pakankamai tikroviškai“ testas
AI didinimas yra neįvertintas herojus. Geras 2x arba 4x perdavimas gali ištaisyti tą keistą pūką, kuris išduoda sugeneruotą vaizdą.
- ESRGAN ir Real-ESRGAN variantai: tvirtas, greitas, geras linijiniam menui ir tekstūroms.
- Latentiniai didintuvai SDXL viduje: dažnai švaresni fotografinei išvaizdai.
- Taisyklė: nedidinkite šlamšto. Pirmiausia patobulinkite pagrindinį vaizdą (greitas, žingsniai, CFG, geresnis kontrolinis punktas), tada padidinkite.
Deforum ir Animatediff: kai dar neužtenka
Jei leidžiatės į judėjimą, Deforum (kameros keliai per latentinę erdvę) ir Animatediff (laikinas nuoseklumas Stable Diffusion) yra atvirojo kodo vartai. Mokymosi kreivė primena žygio taką, kuris pasirodo esąs laiptai, tačiau atlygis – animuotos tekstūros, koncepciniai ritiniai, judėjimo eksperimentai – yra tikras.
- Pradėkite nuo trumpų kilpų. Judėjimas padaugina klaidas.
- Užrakinkite sėklas, kai norite nuoseklumo.
- Laikykite greitus raginimus; dreifuojanti kalba prilygsta dreifuojantiems kadrams.
Fotorealizmas: SDXL fotorealus, apšvietimo LoRA ir realybės patikrinimai
Norėdami gauti produktų nuotraukas ir žmones, jums reikia kitokio mąstymo. Apšvietimo LoRA yra svarbesni už stebuklingus žodžius. Etaloniniai vaizdai (vaizdas į vaizdą su mažu triukšmo sumažinimu) yra dar svarbesni.
- Siekite kontroliuojamo apšvietimo: softbox išvaizda, foninio apšvietimo atskyrimas, atspindžiai, kuriuos galėtumėte paaiškinti.
- Naudokite etalonines pozas per ControlNet. Fotorealistiška kompozicija yra 90% geometrija ir šviesa, o ne užkeikimai.
- Elkitės su veidais atsargiai: saikingai pridėkite veido atkūrimą. Per daug ir visi atrodo kaip muilo opera iš 1987 m.
Atvirojo kodo vaizdų redaktoriai su AI sultimis: GIMP, Krita ir draugai
- GIMP su AI įskiepiais: šiek tiek grubus, bet tinkamas paketiniams redagavimams ir kaukėms.
- Krita (vėl): natūralus tapymas, patogus tapymas.
- Blender (taip, Blender): nėra vaizdo įrankis savaime, bet jei generuojate tekstūras, apšvietimo nuorodas ar fono plokštes, Blender plius AI tekstūros didinimas yra galingas derinys.
Aparatinė įranga: dalis, kurios niekas nenori skaityti (bet visi moka)
- VRAM valdo jūsų gyvenimą. 8 GB yra riba; 12 GB yra tinkama; 24 GB yra ten, kur nustojate atsiprašinėti už paketų dydžius.
- NVIDIA vis dar turi geriausią palaikymą atvirojo kodo AI ekosistemoje. AMD gerėja, Apple Silicon stebėtinai padorus su SDXL – bet jei norite mažiau galvos skausmų, CUDA yra mažiausio pasipriešinimo kelias.
- Disko vieta: modeliai yra dideli. Laikykite kuruojamą biblioteką ir archyvuokite tai, ko nenaudojate. Kaupimas nėra strategija.
Privatumas ir sąlygos: priežastis, kodėl čia egzistuoja atvirasis kodas
Atvirojo kodo AI vaizdų įrankiai yra ne tik apie kainą. Jie yra apie kontrolę. Paleidimas vietoje reiškia, kad jūsų darbas, jūsų kliento ištekliai, jūsų produkto atvaizdavimai ir jūsų nepaskelbti dizainai lieka jūsų įrenginyje. Jokių „mes galime naudoti jūsų duomenis, kad patobulintume savo paslaugas“ išnašų, jokių mieguistų vidurnakčio el. laiškų iš Teisės skyriaus.
Tai yra tikrasis traukos objektas. Ne tik „nemokamas“, bet ir „jūsų“.
Trumpasis sąrašas: geriausi atvirojo kodo AI vaizdų įrankiai kūrėjams
- Stable Diffusion SDXL ir SD 1.5: pagrindiniai generatoriai, kuriuos iš tikrųjų naudosite.
- ComfyUI: srautams ir atkuriamumui, atitinkantiems srauto kokybę.
- Automatic1111: greitai iteracijai ir didelei įskiepių ekosistemai.
- InvokeAI: ramesnei, studijai panašiai aplinkai.
- ControlNet: pozos, gylio ir linijos valdymui, kuris leidžia išvesties duomenims paklusti.
- LoRA/tekstinė inversija: stiliaus ir simbolių nuoseklumui su mažais failais.
- ESRGAN/Real-ESRGAN: didinimui, kuris neištepa sielos iš jūsų vaizdo.
- Krita (su SD įskiepiais): tapytojo valdymui tikroje meno programoje.
- Deforum/Animatediff: judėjimo eksperimentams, kuriems nereikia kino mokyklos.
Kliūtys ir praktiniai pataisymai
- Per greitas raginimas: jei jūsų raginimas skamba kaip išpirkos raštelis, jūsų vaizdas atrodys kaip vienas. Mažiau žodžių, stipresni signalai.
- Per daug priedų: ControlNet krovimas gali virsti virvės traukimu. Pasirinkite du, kurie yra svarbūs.
- Modelio ruletė: keičiant modelius kas penkias minutes sunaikinamas jūsų stiliaus nuoseklumas. Įsipareigokite nedideliam rinkiniui.
- Sėklų ignoravimas: laikykite sėklas, kad galėtumėte pakartoti. Ateities jūs padėkos praeities jums už tai, kad esate organizuotas.
„Geriausias“ priklauso nuo jūsų termino
- Griežtas terminas, konceptualus menas: SD 1.5 + ControlNet Lineart + A1111. Greitas, atlaidus, pakankamai geras.
- Portfelio kūrinys, stilizuotas: SDXL + ComfyUI + rankomis sureguliuotos LoRA. Lėtai yra sklandžiai, sklandžiai yra greitai.
- Produkto maketai, fotorealūs: SDXL + apšvietimo LoRA + etaloninės nuotraukos + ESRGAN. Laikykite nuobodžiai; nuobodu atrodo tikrai.
- Animacijos eksperimentas: Animatediff + griežti raginimai + trumpos kilpos. Siųskite mažas pergales.
Sider.AI iš tikrųjų padeda, kai žongliruojate raginimais, stiliaus pastabomis ir atkuriamais darbo srautais tarp įrankių. Tai nėra dar vienas „stebuklingas modelis“ – tai protinga vieta saugoti raginimus, lyginti variantus ir laikyti popierinį pėdsaką, kurį atvirojo kodo vartotojo sąsajos linkusios išsklaidyti į vėją. Naudokite jį norėdami dokumentuoti savo geriausią atvirojo kodo AI vaizdų įrankių rinkinį, sekti sėklas ir LoRA bei generuoti nuoseklius instrukcijas, kurias galite įklijuoti į ComfyUI arba A1111. Kitaip tariant, mažiau jakų skutimosi, daugiau pristatymo. Jis nepakeis Stable Diffusion ar Krita. Jis padarys jūsų naudojimą jais mažiau chaotišku. O tai, jei kada nors praleidote popietę bandydami atkurti išvaizdą iš prieš dvi savaites, yra verta daugiau nei vienas „aštresnis nei bet kada“ kontrolinis punktas.
Kūrėjo darbo srautai, kurie gerai sensta
- Bibliotekos mąstymas: kuruokite savo kontrolinius punktus, LoRA ir ControlNet svorius. Pavadinkite juos taip, kad kažkam kitam reikėtų suprasti.
- Šablonai kaip pastoliai: išsaugokite ComfyUI grafikus ir A1111 greitų raginimų nustatymus įprastiems darbams. Šablonai yra apsauginiai turėklai, o ne pančiai.
- Pirmiausia nuoroda: įveskite į modelį gerus įvesties duomenis: pozos nuorodas, apšvietimo nuorodas, spalvų paletes. AI sustiprina skonį; jis jo nesukuria.
- Vaizdų versijų valdymas: laikykite sėklas, raginimus ir nustatymus šalia vaizdų. Elkitės su išvesties duomenimis kaip su kodo kompiliacijomis.
Dialektika: atvirojo kodo laisvė prieš laiko mokestį
Atvirojo kodo AI vaizdų įrankiai yra pats išlaisvinantis ir reikliausias būdas dirbti. Jūs išmainote prenumeratas į sąranką, apsauginius turėklus į lankstumą, stabilumą į kontrolę. Kai kurias dienas jaučiasi kaip Unix darbalaukio era – begalinė galia, jei tik perskaitysite vadovą. Kitomis dienomis jaučiasi kaip apgaudinėjimas geriausiu įmanomu būdu.
Pramonės linija sako „demokratizacija“. Realybė yra meistriškumas. Joks įrankis nepašalina skonio ir joks modelis neatleidžia jūsų nuo pasirinkimo. Geriausi atvirojo kodo AI vaizdų įrankiai nesukuria puikių darbų; jie leidžia jums greičiau formuoti, toliau kartoti ir išlaikyti procesą savu.
Jei tai skamba kaip tikra laisvė – o ne marketingo rūšis – esate auditorija, kuriai šie įrankiai buvo sukurti. Tiesiog atminkite: šuniukas yra nemokamas. Maistas, mokymas ir laikas nėra.
DUK
K: Kokie yra geriausi atvirojo kodo AI vaizdų įrankiai greitam idėjų generavimui?
A: Stable Diffusion SD 1.5 su Automatic1111 vis dar yra greičiausias kelias nuo raginimo iki vaizdo. Pridėkite ControlNet liniją arba poziciją, kad sukurtumėte struktūrą, ir gausite tinkamą naudoti koncepcinį meną per kelias minutes, o ne valandas.
K: Kurie atvirojo kodo AI vaizdų įrankiai yra geriausi fotorealizmui?
A: SDXL su švariu kontroliniu punktu ir apšvietimo LoRA paprastai laimi. Naudokite etalonines nuotraukas per ControlNet ir užbaikite atsargiu ESRGAN didinimu – fotorealizmas daugiausia yra geometrija ir šviesa, o ne „šedevro“ šlamštas.
K: Ar turėčiau naudoti ComfyUI ar Automatic1111?
A: Jei norite greičio ir didelės įskiepių ekosistemos, pasirinkite Automatic1111. Jei jums rūpi atkuriamumas ir srauto valdymas, ComfyUI yra geresnis – tiesiog priimkite mazgų grafiko mokymosi kreivę.
K: Kaip išlaikyti stilių nuoseklų vaizduose su atvirojo kodo įrankiais?
A: Apmokykite arba pritaikykite nedidelį LoRA rinkinį ir saugokite sėklas, raginimus ir nustatymus versijomis. Nuoseklumas nėra magija; tai yra dokumentacija ir santūrumas keičiant modelius.
K: Kur Sider.AI padeda atvirojo kodo vaizdų darbo sraute?
A: Sider.AI tvarko jūsų raginimus, sėklas ir variantus, kad galėtumėte atkurti rezultatus, o ne spėlioti. Pagalvokite apie tai kaip apie trūkstamą atmintį atvirojo kodo rinkiniui, kuris yra galingas, bet pagal dizainą užmaršus. DUK
Q1:Kokie yra geriausi atvirojo kodo AI vaizdų įrankiai greitam idėjų generavimui?
Stable Diffusion 1.5 su Automatic1111 leidžia greitai pereiti nuo raginimo prie vaizdo. Pridėkite ControlNet pozai ar kraštams ir gausite tinkamą naudoti koncepcinį meną nenaudodami penkių skirtingų programų.
Q2:Kokie atvirojo kodo AI vaizdų įrankiai geriausiai tinka fotorealizmui?
SDXL su tvirtais kontroliniais punktais ir apšvietimo LoRA yra praktiškas pasirinkimas. Naudokite ControlNet su etaloninėmis nuotraukomis ir užbaikite ESRGAN didinimu, kad gautumėte aiškių, patikimų detalių.
Q3:Ar ComfyUI yra geresnis nei Automatic1111 kūrėjams?
ComfyUI yra geresnis atkuriamiems srautams ir komandos darbo srautams; Automatic1111 yra geresnis greitai iteracijai ir įskiepiams. Pasirinkite pagal tai, ar labiau vertinate greitį, ar valdymą.
Q4:Kaip išlaikyti stilių nuoseklų naudojant atvirojo kodo AI įrankius?
Laikykitės nedidelio LoRA ir kontrolinių punktų rinkinio ir išsaugokite sėklas su kiekvienu eksportu. Nuoseklumas kyla iš dokumentacijos ir santūrumo, o ne iš ilgesnių raginimų.
Klausimas 5: Kur Sider.AI įsipaišo į atvirojo kodo vaizdų apdorojimo darbo eigą?
Sider.AI padeda organizuoti raginimus, sėklas ir versijas, kad galėtumėte atkurti norimą vaizdą pagal poreikį. Jis nepakeis Stable Diffusion; jis tiesiog padaro jūsų procesą mažiau chaotišku ir lengviau atkartojamu.