Radi odmora od IT apokalipse, inflacije, nadolazećeg Trećeg svjetskog rata, nove sezone Rings of Power i drugih pošasti svakodnevice, prije par godina sam počeo svirati s prijateljima u rock grupi Otkucaji. Kroz godinu dana smo već svirali autorske pjesme na koncertima, a sada u drugoj godini smo ih odlučili i izbacivati kao singlove na YouTubeu. Nažalost, od singlova se očekuje i određena razina kvalitete - ne samo u glazbenom smislu, što kao bend svi razumijemo i na čemu radimo, nego i u samoj prezentaciji. A jedna od težih stvari za izvesti jest izrada spota. Profesionalna oprema je skupa, a snimati spot bez profesionalne opreme izgleda vrlo „jadno“.
Srećom, živimo u doba AI revolucije, pa smo prošli mjesec odlučili isprobati kako bi bilo kada bismo napravili spot koristeći umjetnu inteligenciju.
Prvo je potrebno izabrati alat za izradu vizuala. Alati za stvaranje generiranih slika i videa su mnogobrojni, ali da nabrojimo samo vodeće, to bi bili WAN (https://create.wan.video), Sora (https://sora.chatgpt.com), Veo (https://deepmind.google/models/veo), Runway (https://app.runwayml.com), Luma (https://dream-machine.lumalabs.ai), Pika (https://pika.art), Kling (https://app.klingai.com) i Hailuo (https://hailuoai.video). Ako osjetite „paralizu izbora“, srećom postoje i agregatni alati kao što su Krea (https://www.krea.ai), koji funkcioniraju kao posrednik za druge modele i možete ih koristiti da isprobate koji vam model najviše paše.
No, po vlastitom iskustvu, puno je korisnije imati alat koji pamti povijest razgovora i može surađivati na izradi slike i mijenjati ju kroz dijaloge, umjesto specijaliziranih alata za izradu slike koji najčešće nemaju mogućnost dugotrajnih razgovora i sitnih prepravki. Iz tog razloga, ChatGPT nam se pokazao kao najbolji. On ima mogućnost korištenja učitanih slika (i vlastitih slika) kao predložak za nove, a kroz dugi dijalog može sam sebe „trenirati“ da shvati naše želje i tako bolje prati buduće upute.
Lijevo: Ivona Ferlin, pjevačica benda, desno: ChatGPT transformacija u „Heavy Metal“ stilu
Upravo ta mogućnost direktne komunikacije i „diskusije“ oko ilustracija unutar ChatGPT-a pokazala nam se daleko superiornijom nego sva konkurencija.
Nakon pokušaja raznih stilova, uključujući i hiper-realizam (kroz davanje stvarnih fotografija članova benda kao predložaka), shvatli smo da, iako su fotografije prilično realistične, još uvijek postoje velika ograničenja u samoj animaciji. Od svih modela, KlingAI se pokazao najbolji, ali i njega je prilično teško „ukrotiti“ da prati režijske upute, pogotovo u pogledu kretanja likova na sceni. U narativu je ponekad važno da se lik kreće van kamere, primjerice, prema desno ili prema lijevo, a AI likovi često se znaju zabijati u zidove, stolove, i slično. Recimo, najteži dio je bio pogoditi da se dva lika uhvate za ruke. Nakon previše pokušaja smo odustali i poslali ilustraciju gdje se već drže za ruke te zatražli od KlingAI-ja da animira kako odvajaju ruke (i obrnuli snimku). Ovo je pogotovo problematično kada imamo hiper-realistične likove kojima se udovi kreću taman dovoljno „uncanny“ da se potpuno izgubi imerzija. Ipak, uvelike pomaže kada postoje stvarni modeli u obliku fotografija.
U nastavku se može naći nekoliko pokušaja i pogreški. Ideja je bila izbjeći stvari koje su već „izlizane“, poput Ghibli stila, i fokusirati se na neki drugi stil koji AI može lako rekreirati, ali koji je također prepoznatljiv, a još neiskorišten - pa se isprobavao stil Tima Burtona, crtića Heavy Metal, i slično. Nažalost, animacija svih tih stilova (a i generiranje konzistentnih slika) je nailazila na slične probleme gdje se detalji gube, mijenjaju, i slično. Potrebno je naći neobičan i upečatljiv stil, a opet da je dovoljno apstraktan da se kasnije ne naiđe na (prevelike) probleme u konzistentnosti u pogledu detalja.
Lijevo: Adrian Satja Kurdija, gitarist benda, desno: ChatGPT transformacija u „Tim Burton“ stilu
Kada smo ideju predstavili ChatGPT-u, ovo je bio njegov prijedlog:
Većina AI generacija koristi „foto-realistični“ ili „fantasy art“ stil koji je trenutno prepoznatljiv. Probaj:
- Analogni stilovi: rani 80s VHS grain, 16mm film still, rotoscope, pastel chalk on dark paper, graphite sketch.
- Umjetnički stilovi: Francis Bacon, David Hockney, Magritte, Egon Schiele, Yoshitaka Amano.
- Surealno + svakodnevno: Kombiniraj nadrealne elemente (kružni motiv, lebdeći objekti, obrisi lica bez detalja) sa svakodnevnim okruženjima (vlakovi, stan, ulica).
- Odaberi 1–2 vizualna stila i zadrži ih kroz sve kadrove (npr. „akvarel koji se topi na filmskoj traci“).
- Koristi teksture: AI slike bez tekstura djeluju jeftino. Dodaj „prašinu“, „grain“, „film burn“, „double exposure“ efekte.
Uzevši to u obzir, ovo je bio prompt kojim smo uspjeli dobiti stil koji nam se svidio:
“Možda da izbjegnemo stvari koje su prepoznatljive - objekti, lica... Možda da napravimo apstraktnu scenu gdje vidimo dvoje ljudi obučeno u nekakvu minimalističku uniformu (tako da ih uvijek možemo lako ponovno nacrtati) i to da su iz daljine da ih se ni ne vidi najbolje. Recimo, nekakav planet, i oni su obučeni u bijele astronautske uniforme s kacigama na glavama, i gledaju se iz velike udaljenosti.”
Vizualna direkcija koju je gore izgenerirao je zapravo zloglasni „corporate memphis“, što je u jednu ruku dobro jer sigurno ima bezbroj predložaka na kojima je treniran u vidu korporativnih infografika u tom stilu, ali bi također bilo jako dosadno i bezukusno da nije odlučio spojiti taj stil s apstraktnim i neobičnim svijetom.
Odlučili smo prigrliti taj stil i proširiti mu vizualni vokabular - osim puste planete, dodali bismo još nešto, možda nešto potpuno neočekivano - antičke ruševine.
„A sada mi napravi jednu scenu iz ptičje perspektive s ta dva astronauta na tom planetu. Može biti puno ruševina neke drevne antičke civilizacije i hramova oko njih.“
Ovdje vidimo dva problema - prvi je format (ovo je format 9:16, a nama treba 16:9), a drugi je prevelika „geometričnost“. Ovakvi problemi se srećom mogu riješiti u ChatGPT-u kroz dijalog, ne samo za ovu sliku, već onda kroz trening i za sve buduće:
„Može li to biti u 16:9 formatu? I da bude puno manje tih ruševina, i puno manje geometrijski, da je svega možda jedan stup, i neki kamen. I može biti još dalje, da su oni još manje vidljivi.“
Zatim smo pokušali dodati i nas iz benda, i poslati fotografije s našeg nastupa kako bi ih ChatGPT ubacio u taj stil:
„A sada trebam imati i dio glazbenog spota gdje se svira. Probaj uzeti ovu fotografiju sa koncerta i pretvoriti je u scenu koja bi bila u tom stilu i bojama?“
Lijevo: Ivona i ja na Ljetu na Velesajmu; desno: transformacija uz ChatGPT
ChatGPT ima mogućnost korištenja učitanih slika (i vlastitih) kao predložak za nove, a kroz dugi dijalog može sam sebe „trenirati“ da shvati naše želje i tako bolje prati buduće upute. Upravo ta mogućnost direktne komunikacije i „diskusije“ oko ilustracija unutar ChatGPT-a pokazala se u kreiranju ovog spota daleko superiornijom nad konkurencijom.
Lijevo: bubnjar Sven Staničić na Ljetu na Velesajmu; desno: transformacija uz ChatGPT
Nakon mnoštva izgeneriranih slika, shvatilo se da bi cijela pjesma u istoj paleti bila ipak pomalo dosadna, i da je potrebno otprilike svaku minutu spota promijeniti paletu i dodati još koje elemente:
„Dva Sunca, oba nisko na horizontu, i tamnije boje, kao u paleti sumraka. U prvom planu je velik kamen s izrezbarenim linijama“
Također, mogu se koristiti i već generirane ilustracije za generiranje novih, samo je važno da se osmisli zajednički „vokabular“ s ChatGPT-jem oko toga kako zovete koju paletu - primjerice, mi smo ove dvije palete uvijek konzistentno zvali „sumrak“ i „dan“, tako da nema zabune što želimo kada kažem „Napravi mi ovu sliku u sumrak paleti“.
Lijevo: bubnjar Sven u „paleti dan“; Desno: bubnjar Sven u „paleti sumrak“
Još jedan dokaz superiornosti ilustracije kroz dijalog s ChatGPT-jem nad specijaliziranim alatima - u nekom trenutku se čak i bez promptova u slike dodaju elementi od ranije kojih se ni sam nisam sjetio promptati. Primjerice, dodavanje onog simbola na kamen, iako nije izričito rečeno u promptu:
„Mnogo gitarista, svi u pustinji, sviraju gitaru“
„Vrlo psihodelično, pogotovo kad je animirano.“
Naravno, nije to uvijek uspješno, ponekad simbolika ode predaleko:
„Možeš li ga obući u crno i dodati narančastu paletu koju smo prije koristili za gitaru“
Gore: tekstopisac i gitarist Adrian Satja Kurdija; Desno: Gitarist je otišao u suton a iza njega je ostala gitara praćena zmijom
Čest problem previše dinamične AI animacije, očiti artefakti na mutnim dijelovima
Nakon što smo zadovoljni s 50-ak ilustracija, vrijeme je za animirati ih korištenjem KlingAI-ja. Svako malo izlaze novi modeli, ali većina ovih animacija je izrađena u modelima između 1.6 i 2.1 (trenutno je najnoviji 2.5 Turbo, ali on oduzima prilično puno „kredita“ po svakoj izvedbi), no naša preporuka je uvijek birati nove modele jer zaista puno bolje rješavaju artefakte, pogotovo u brzim animacijama (npr. kada Sven udara po bubnjevima, prilično je jasan AI artefakt oko palica jer smo koristili stariji model). Tu predlažemo uvijek animirati stvari sporije i manje dinamično, pa kasnije u montaži ubrzavati, čak i ako se radi o jednostavnim translacijama poput leta ptice.
Uputa za KlingAI je uvijek u obliku dodavanja ilustracije kao referentne slike i šturog opisa tipa „gitarist svira“ ili „sunce polako raste“, a KlingAI je sam spojen s DeepSeekom koji može (ako želite) to još dodatno uljepšati.
Također, ako ne želite stalno u montaži rezati logo iz slike, prijedlog je pretplatiti se na KlingAI kako biste mogli skidati animacije bez logotipa. Općenito, u oba slučaja (ChatGPT i KlingAI) pretplata se isplati jer značajno ubrzava brzinu generiranja. Uz pretplatu od 20 dolara na svakom od tih servisa (dakle, 40 dolara ukupno), uspjeli smo izgenerirati sve potrebno za čitav spot u nekoliko sati. Nažalost, nije korišten AI za montažu, nego (open source i besplatni) program za montažu ShotCut, a budući da nismo imali isksutva u montiranju spotova, čak i uz tutorstvo i pomoć ChatGPT-a, trebalo je preko 10 sati da se izmontira čitav spot - od čega je preko pola vremena otišlo na to da tranzicije odgovaraju ritmu pjesme. Srećom, dobra odluka kod apstraktne animacije jest ta da dok Ivona pjeva, ne vidimo njena usta, pa nije bilo potrebno pogađati lip sync u montaži (makar za to KlingAI i drugi programi zapravo rade jako dobar posao, doduše bolje za video nego za animaciju).
Spot se može pronaći na YouTubeu – „Otkucaji: Osvijetli me“. Iako je ovo bila zabavna vježba, za idući spot ćemo probati jednu drugačiju (i puno stariju) „budžet“ metodu - korištenje snimki iz javne domene (starih filmova i slično). No, čak i uz ovo malo truda i ovako rano u procesu, jedna stvar je jasna - unatoč tome što protivnici kažu, umjetna inteligencija će samo sve više postajati alat hobistima (i to ne samo bendovima) za pomoć u stvarima koje im nisu primarni fokus (primjerice - spotovi).

















































