Technologia

Twórcy krótkiego filmu wykorzystującego technologię Sora wyjaśniają mocne i ograniczenia filmów generowanych przez sztuczną inteligencję

  • 27 kwietnia, 2024
  • 5 min read
Twórcy krótkiego filmu wykorzystującego technologię Sora wyjaśniają mocne i ograniczenia filmów generowanych przez sztuczną inteligencję


Kredyty obrazkowe: Nieśmiałe dzieci

Narzędzie do generowania wideo OpenAI, Sora, zaskoczyło społeczność AI w lutym płynnym, realistycznym wideo, które wydaje się znacznie wyprzedzać konkurencję. Jednak w starannie wyreżyserowanym debiucie pominięto wiele szczegółów — szczegółów, które uzupełnił filmowiec, który otrzymał wcześniejszy dostęp w celu stworzenia filmu krótkometrażowego z udziałem Sory.

Shy Kids to zespół zajmujący się produkcją cyfrową z siedzibą w Toronto, który został wybrany przez OpenAI jako jeden z niewielu producentów filmów krótkometrażowych głównie do celów promocyjnych OpenAI, chociaż dano im znaczną swobodę twórczą w tworzeniu „powietrznej głowy”. W wywiadzie dla serwisu informacyjnego fxguide zajmującego się efektami wizualnymi artysta postprodukcyjny Patrick Cederberg opisał „faktyczne używanie Sory” jako części swojej pracy.

Być może najważniejszy wniosek dla większości jest następujący: podczas gdy post OpenAI przedstawiający krótkie filmy pozwala czytelnikowi założyć, że powstały one mniej więcej w pełni ukształtowane przez Sorę, rzeczywistość jest taka, że ​​były to profesjonalne produkcje, wyposażone w solidny scenorys, montaż, korekcję kolorów, i publikuj prace, takie jak rotoskopia i efekty wizualne. Tak jak Apple mówi „nagrane na iPhonie”, ale po fakcie nie pokazuje konfiguracji studia, profesjonalnego oświetlenia i pracy z kolorami, tak post Sory mówi tylko o tym, co pozwala ludziom robić, a nie o tym, jak faktycznie to zrobili.

Warto przeczytać!  Top 5 gier wyścigowych, w które warto zagrać (kwiecień 2023)

Wywiad z Cederbergiem jest interesujący i dość nietechniczny, więc jeśli jesteś zainteresowany, udaj się do fxguide i przeczytaj go. Ale oto kilka interesujących faktów na temat korzystania z Sory, które mówią nam, że choć imponujący, model ten jest być może mniejszym krokiem naprzód, niż sądziliśmy.

Kontrola jest w tym momencie rzeczą najbardziej pożądaną i jednocześnie najbardziej nieuchwytną. … Jedyne, co mogliśmy osiągnąć, to po prostu hiperopisowe podpowiedzi. Wyjaśnienie ubioru postaci, a także rodzaju balonu, było naszym sposobem na zapewnienie spójności, ponieważ od strzału do ujęcia / pokolenia na pokolenie nie ma jeszcze skonfigurowanej funkcji zapewniającej pełną kontrolę nad spójnością.

Innymi słowy, sprawy proste w tradycyjnym kręceniu filmów, takie jak wybór koloru ubioru postaci, wymagają skomplikowanych obejść i kontroli w systemie generatywnym, ponieważ każde ujęcie powstaje niezależnie od pozostałych. To oczywiście mogłoby się zmienić, ale z pewnością jest to obecnie znacznie bardziej pracochłonne.

Plakat YouTube

Na wydrukach Sory również trzeba było uważać pod kątem niepożądanych elementów: Cederberg opisał, jak model rutynowo generował twarz na balonie, który główny bohater ma zamiast głowy, lub sznurek zwisający z przodu. Należało je usunąć pocztą, co było kolejnym czasochłonnym procesem, jeśli nie udało się uzyskać monitu o ich wykluczenie.

Warto przeczytać!  „Quest jest lepszy niż Vision Pro”: dlaczego Zuckerberg ocenia Meta VR wyżej niż Apple?

Precyzyjne wyczucie czasu i ruchów postaci lub kamery nie są w rzeczywistości możliwe: „Istnieje niewielka kontrola czasowa nad tym, gdzie w danej generacji dzieją się te różne akcje, ale nie jest to precyzyjne… to rodzaj strzału w ciemność” – powiedział Cederberga.

Na przykład synchronizacja gestu takiego jak fala jest procesem bardzo przybliżonym i opartym na sugestiach, w przeciwieństwie do animacji ręcznych. A ujęcie przypominające panoramę skierowaną w górę na ciało bohatera może, ale nie musi, odzwierciedlać oczekiwania twórcy filmu — dlatego w tym przypadku zespół wyrenderował ujęcie w orientacji pionowej, a w poście wykonał kadrowanie. Wygenerowane klipy również często bez konkretnego powodu były odtwarzane w zwolnionym tempie.

Przykład strzału Sory i jego finału. Kredyty obrazkowe: Nieśmiałe dzieci

W rzeczywistości używanie codziennego języka filmowego, takiego jak „przesunięcie w prawo” czy „ujęcie śledzące”, było ogólnie niespójne, stwierdził Cederberg, co zespół uznał za dość zaskakujące.

„Naukowcy, zanim zwrócili się do artystów, aby pobawili się tym narzędziem, tak naprawdę nie myśleli jak filmowcy” – powiedział.

W rezultacie zespół wykonał setki pokoleń, każde po 10–20 sekund, i ostatecznie wykorzystał tylko garść. Cederberg oszacował ten stosunek na 300:1, ale oczywiście wszyscy bylibyśmy zaskoczeni stosunkiem w przypadku zwykłego zdjęcia.

Jeśli jesteś ciekawy, zespół nakręcił krótki film zza kulis, wyjaśniający niektóre problemy, na jakie natrafił. Podobnie jak wiele treści związanych ze sztuczną inteligencją, komentarze są dość krytyczne wobec całego przedsięwzięcia – choć nie tak obelżywe, jak reklama wspomagana sztuczną inteligencją, którą ostatnio widzieliśmy pod pręgierzem.

Warto przeczytać!  Jak dotąd wszystkie zaklęcia potwierdzone w Dziedzictwie Hogwartu

Plakat YouTube

Ostatnie ciekawe zastrzeżenie dotyczy praw autorskich: jeśli poprosisz Sorę o udostępnienie klipu z „Gwiezdnych Wojen”, odmówi. A jeśli spróbujesz ominąć ten problem z „mężczyzną w szatach z laserowym mieczem na retrofuturystycznym statku kosmicznym”, on również odmówi, ponieważ jakimś mechanizmem rozpoznaje, co próbujesz zrobić. Odmówiła także zrobienia „zdjęcia w stylu Aronofsky’ego” czy „zoomu Hitchcocka”.

Z jednej strony ma to całkowity sens. Jednak nasuwa się pytanie: jeśli Sora wie, co to jest, czy oznacza to, że model został przeszkolony w zakresie tych treści, aby lepiej rozpoznać, że naruszają one prawa? OpenAI, który trzyma swoje karty danych szkoleniowych blisko kamizelki — aż do absurdu, jak w przypadku Wywiad CTO Miry Murati z Joanną Stern – prawie na pewno nigdy nam tego nie powie.

Jeśli chodzi o Sorę i jej zastosowanie w kręceniu filmów, jest to z pewnością potężne i przydatne narzędzie w swoim miejscu, ale jego zadaniem nie jest „tworzenie filmów z całego materiału”. Już. Jak słynnie powiedział kiedyś inny złoczyńca: „to przyjdzie później”.






Źródło