Technologia

Tworzenie całych filmów z tekstu za pomocą narzędzi sztucznej inteligencji Google

  • 14 lutego, 2023
  • 6 min read
Tworzenie całych filmów z tekstu za pomocą narzędzi sztucznej inteligencji Google


Tworzenie całych filmów z tekstu za pomocą narzędzi sztucznej inteligencji Google

Od zeszłego roku modele sztucznej inteligencji (AI) do generowania tekstu, obrazów i filmów rozwijają się skokowo. Tak szybko, że trudno za nim nadążyć. W porównaniu do szybkich start-upów giganci technologiczni, tacy jak Google, zdecydowali się podążać tą ścieżką powoli i ostrożnie. Jednak wyniki ich badań są również oszałamiające. Jeden z nich obiecuje tworzyć filmy w wysokiej rozdzielczości z tekstu za pomocą sztucznej inteligencji Google.

Nowy model głębokiego uczenia się od Google powinien umożliwiać użytkownikom generowanie wysokiej jakości filmów na podstawie samych wprowadzonych danych tekstowych. Podejście to łączy w sobie dwa z ostatnich projektów firmy text-to-video – Imagen Video i Phenaki. Oba są wciąż w fazie badawczo-rozwojowej, ale pierwsze rendery pokazują, że wspomniana sztuczna inteligencja może zmienić zasady gry w naszej branży. Zanurzmy się razem w tym wspaniałym nowym świecie!

Jak tworzyć filmy z tekstu za pomocą sztucznej inteligencji Google?

Pierwszą technologią, której musimy się przyjrzeć, jest Phenaki. Jak opisano w artykule badawczym, model ten jest w stanie przyjąć kilka sekwencji podpowiedzi tekstowych, stworzyć między nimi połączenia, a następnie zsyntetyzować spójną opowieść wizualną. Z zewnątrz wygląda na to, że sztuczna inteligencja odczytuje dane wejściowe jak normalny scenariusz filmowy, a następnie decyduje, jak przełożyć fabułę na obrazy (brzmi to jak praca reżysera, prawda?). Spójrz na przykład, jak Phenaki przetworzył następujący opis: „Widok z boku astronauty idącego przez kałużę na Marsie. Astronauta tańczy na Marsie; astronauta wyprowadza psa na Marsa; astronauta i jego pies oglądają fajerwerki”.

Warto przeczytać!  iPhone 13 vs iPhone 14: Który powinieneś kupić w 2023 roku?
4 kadry z filmu wygenerowanego przez Phenaki, przedstawiające astronautę idącego, tańczącego, spacerującego z psem i obserwującego za nim fajerwerki, używając narzędzi sztucznej inteligencji Google
Kadry z filmu wygenerowanego przez Phenaki, pokazujące różne części historii. Źródło obrazu: Google

Aby obejrzeć go w ruchu, przejdź do strony internetowej Phenaki. Znajdziesz tam również kilka innych pokazów wideo, w tym klipy trwające ponad 2 minuty. Podczas oglądania zwróć szczególną uwagę na to, jak genialnie sztuczna inteligencja radzi sobie z płynnymi przejściami. W powyższym przykładzie pies nie pojawia się znikąd. Wchodzi w kadr z boku, tak jak zrobiłby to prawdziwy zwierzak. Ale bez potrzeby filmowania czegokolwiek i wyprodukowany w ciągu kilku sekund. Jedynym kłopotliwym ograniczeniem korzystania z Phenaki jest rozdzielczość wideo, która obecnie wynosi tylko 128×128 pikseli.

Skalowanie w górę za pomocą Imagen Video

I tu właśnie pojawia się drugi projekt badawczy Google dotyczący sztucznej inteligencji. Imagen Video to system generowania, który wykorzystuje kaskadę modeli rozpowszechniania wideo w celu stworzenia krótkiego klipu w wysokiej rozdzielczości z monitu tekstowego. Po prostu wyjaśnione, bierze twoje notatki tekstowe, koduje je i zaczyna od syntezy małego 16-klatkowego wideo w rozdzielczości 40 × 24 i 3 fps. Krok po kroku, po zastosowaniu wielu modeli głębokiego uczenia się w celu ulepszenia wyniku, jest w stanie wyprodukować normalny film HD (1280 × 768), który może trwać do 5 sekund.

Warto przeczytać!  Wszystkie modele iPhone'a 16 mają wygląd przycisku akcji Zmień Apple
zrzut ekranu witryny Google Imagen przedstawiający różne klipy wygenerowane przy użyciu narzędzi sztucznej inteligencji Google
Kilka prezentacji na stronie Imagen Video. Źródło obrazu: Google

Reszta jest prosta. Łącząc zdolność Phenaki do generowania długich, wielosekwencyjnych filmów z mocą Imagen do detalizacji w wysokiej rozdzielczości, można śmiało powiedzieć, że sztuczna inteligencja wkrótce będzie w stanie produkować całe filmy. To powiedziawszy, technologia Google nie jest jeszcze dostępna publicznie. Jedną z obaw firmy jest to, że te modele generatywne mogą być niewłaściwie wykorzystywane – na przykład do tworzenia fałszywych lub szkodliwych treści. Dlatego badacze postanowili nie udostępniać sieci neuronowych ani kodu źródłowego, dopóki nie znajdą sposobu na filtrowanie wyjściowego materiału wideo.

Obiecano jednak, że niektóre funkcje Imagen & Phenaki zostaną dodane do aplikacji AI Test Kitchen. Tam możesz dowiedzieć się, doświadczyć i wyrazić opinię na temat powstających projektów Google AI. Aplikacja jest obecnie dostępna tylko dla użytkowników z USA, ale tutaj każdy może zarejestrować swoje zainteresowanie i znaleźć się na liście oczekujących.

Ogłoszono technologię generowania wideo na wideo Gen-1

Runway, nowojorski startup, ogłosił kolejne ogromne narzędzie AI do tworzenia filmów, które pomogło uruchomić Stable Diffusion (na marginesie: jeśli nie wiesz, co to jest, sprawdź nasz przewodnik na temat tworzenia tablic nastrojów za pomocą tej sieci neuronowej). Niedawno firma wprowadziła nowy model o nazwie Gen-1, który może wizualnie przekształcić istniejące filmy w zupełnie nowe za pomocą prostego monitu tekstowego.

Warto przeczytać!  Garena Free Fire MAX Wykorzystaj kody na 11 czerwca 2023: skórki, diamenty, kostiumy, zgarnij te GRATISY szybko

Krótkie wprowadzenie wideo Gen-1. Źródło wideo: Pas startowy

Wśród deklarowanych funkcji:

  • Stylizacja – która pozwala zastosować wybrany styl (opisany w tekście lub poprzez podanie do aplikacji konkretnego obrazu) do każdej klatki filmu;
  • Storyboard – funkcja, która zamienia zwykłe sfilmowane makiety we w pełni animowane rendery;
  • Maska – możliwość wyodrębnienia obiektów w filmie i zmodyfikowania ich za pomocą wprowadzania tekstu.

Gen-1 również nie została jeszcze upubliczniona, ale każdy może poprosić o wcześniejszy dostęp do aplikacji, wypełniając ten formularz. Już czekamy na nasz i z przyjemnością przetestujemy dla Ciebie jego funkcje.

Wniosek

Nawet jeśli wszystko to wydaje się czasami trochę przerażające, nowe narzędzia sztucznej inteligencji mogą i będą miały znaczący wpływ na dziedzinę tworzenia wideo. Obecnie jest to proces nie do powstrzymania, więc od nas zależy, czy nadążymy i zintegrujemy tę technologię z naszymi przepływami pracy, aby zwiększyć kreatywność, czy też zbojkotujemy ją i być może utkniemy w przeszłości.

Co sądzisz o nowych modelach głębokiego uczenia się? Czy możesz sobie wyobrazić tworzenie filmów z tekstu za pomocą sztucznej inteligencji Google? A może „za dużo”? Porozmawiajmy w sekcji komentarzy poniżej.

Przedstawiony obraz: kilka kadrów z różnych klipów, wygenerowanych przez Phenaki. Źródło obrazu: Google




Źródło