Technologia

Google przedstawia Veo, generator wideo wysokiej rozdzielczości AI, który może konkurować z Sorą

oen.pl

15 maja, 2024
5 min read

Google przedstawia Veo, generator wideo wysokiej rozdzielczości AI, który może konkurować z Sorą

Powiększać / Zdjęcia pobrane z filmów wygenerowanych przez Google Veo.

Google / Benj Edwards

We wtorek na konferencji Google I/O 2024 Google ogłosiło Veo, nowy model syntezy wideo AI, który może tworzyć filmy HD z tekstu, obrazu lub podpowiedzi wideo, podobnie jak Sora OpenAI. Może generować filmy w rozdzielczości 1080p trwające ponad minutę i edytować filmy na podstawie pisemnych instrukcji, ale nie został jeszcze udostępniony do szerokiego użytku.

Według doniesień Veo umożliwia edytowanie istniejących filmów za pomocą poleceń tekstowych, utrzymywanie spójności wizualnej między klatkami i generowanie sekwencji wideo trwających do 60 sekund lub dłużej na podstawie pojedynczego podpowiedzi lub serii podpowiedzi tworzących narrację. Firma twierdzi, że może generować szczegółowe sceny i stosować efekty kinowe, takie jak poklatkowe, ujęcia lotnicze i różne style wizualne

Od czasu premiery DALL-E 2 w kwietniu 2022 r. byliśmy świadkami parady nowych modeli syntezy obrazu i syntezy wideo, których celem jest umożliwienie każdemu, kto potrafi wpisać pisemny opis, utworzenie szczegółowego obrazu lub wideo. Choć żadna z technologii nie została w pełni udoskonalona, możliwości generatorów obrazów i wideo AI stale rosną.

Warto przeczytać! Doskonała funkcja sprawdzania połączeń Pixela może wreszcie zostać udostępniona w większej liczbie krajów

W lutym omawialiśmy wersję zapoznawczą generatora wideo Sora firmy OpenAI, który według wielu był wówczas najlepszą syntezą wideo AI, jaką mogła zaoferować branża. Zrobiło to na tyle wrażenie na Tylerze Perrym, że wstrzymał rozbudowę swojego studia filmowego. Jednak jak dotąd OpenAI nie zapewniło ogólnego dostępu do narzędzia – zamiast tego ograniczyło jego użycie do wybranej grupy testerów.

Teraz na pierwszy rzut oka Google Veo wydaje się być w stanie generować wideo podobne do Sory. Sami tego nie próbowaliśmy, więc możemy jedynie zapoznać się z wybranymi filmami demonstracyjnymi, które firma udostępniła na swojej stronie internetowej. Oznacza to, że każdy, kto je przegląda, powinien traktować twierdzenia Google z dużym przymrużeniem oka, ponieważ wyniki generacji mogą nie być typowe.

Przykładowe filmy Veo obejmują kowboja na koniu, ujęcie w przyspieszonym tempie na podmiejskiej ulicy, kebab pieczony na grillu, poklatkowy wstęp ze słonecznikiem i nie tylko. Wyraźnie brakuje szczegółowych przedstawień ludzi, których wygenerowanie w przypadku obrazów i wideo AI bez oczywistych deformacji było w przeszłości trudne.

Google twierdzi, że Veo opiera się na poprzednich modelach generowania wideo firmy, w tym Generative Query Network (GQN), DVD-GAN, Imagen-Video, Phenaki, WALT, VideoPoet i Lumiere. Aby poprawić jakość i wydajność, dane szkoleniowe Veo zawierają bardziej szczegółowe podpisy wideo i wykorzystują skompresowane „ukryte” reprezentacje wideo. Aby poprawić jakość generowania wideo przez Veo, Google dodał bardziej szczegółowe napisy do filmów używanych do szkolenia Veo, umożliwiając sztucznej inteligencji dokładniejszą interpretację podpowiedzi.

Veo wydaje się godne uwagi także dlatego, że obsługuje polecenia tworzenia filmów: „Po otrzymaniu zarówno polecenia wejściowego wideo, jak i polecenia edycji, np. dodania kajaków do zdjęcia lotniczego linii brzegowej, Veo może zastosować to polecenie do początkowego filmu i utworzyć nowy, edytowany film, – twierdzi firma.

Choć na pierwszy rzut oka demonstracje wydają się imponujące (zwłaszcza w porównaniu z Willem Smithem jedzącym spaghetti), Google przyznaje, że generowanie wideo oparte na sztucznej inteligencji jest trudne. „Utrzymanie spójności wizualnej może być wyzwaniem w przypadku modeli generowania wideo” – pisze firma. „Postacie, obiekty, a nawet całe sceny mogą nieoczekiwanie migotać, przeskakiwać lub zmieniać się między klatkami, zakłócając wrażenia wizualne”.

Warto przeczytać! Dyrektor generalny Apple, Tim Cook, o nazwaniu swojego systemu sztucznej inteligencji Apple Intelligence: To było w pewnym sensie nazwanie tego…

Google próbował złagodzić te wady za pomocą „najnowocześniejszych ukrytych transformatorów dyfuzyjnych”, co jest w zasadzie bezsensownym gadaniem marketingowym bez szczegółów. Firma jest jednak na tyle pewna tego modelu, że współpracuje z aktorem Donaldem Gloverem i jego studiem Gilgą nad stworzeniem filmu demonstracyjnego generowanego przez sztuczną inteligencję, który wkrótce zadebiutuje.

Początkowo Veo będzie dostępne dla wybranych twórców za pośrednictwem VideoFX, nowego eksperymentalnego narzędzia dostępnego w witrynie Google AI Test Kitchen (labs.google). Twórcy mogą dołączyć do listy oczekujących na VideoFX, aby potencjalnie uzyskać dostęp do funkcji Veo w nadchodzących tygodniach. Google planuje w przyszłości zintegrować niektóre możliwości Veo z YouTube Shorts i innymi produktami.

Nie ma jeszcze informacji o tym, skąd Google wziął dane szkoleniowe dla Veo (jeśli mielibyśmy zgadywać, prawdopodobnie był w to zaangażowany YouTube). Google twierdzi jednak, że w przypadku Veo przyjmuje „odpowiedzialne” podejście. Według firmy „Filmy tworzone przez Veo są znakowane znakiem wodnym przy użyciu SynthID, naszego najnowocześniejszego narzędzia do znakowania wodnego i identyfikowania treści generowanych przez sztuczną inteligencję, a następnie przechodzą przez filtry bezpieczeństwa i procesy sprawdzania zapamiętywania, które pomagają ograniczyć ryzyko związane z prywatnością, prawami autorskimi i stronniczością”.

Źródło