Technologia

Przenoszenie obrazów bez wysiłku: Text2Video-Zero to model AI, który konwertuje modele tekstu na obraz do generatorów wideo Zero-Shot

  • 25 kwietnia, 2023
  • 5 min read
Przenoszenie obrazów bez wysiłku: Text2Video-Zero to model AI, który konwertuje modele tekstu na obraz do generatorów wideo Zero-Shot


Źródło:

W ciągu ostatnich kilku miesięcy byliśmy świadkami wzrostu generatywnych modeli sztucznej inteligencji. Szybko przeszli od generowania obrazów przypominających twarze o niskiej rozdzielczości do generowania fotorealistycznych obrazów o wysokiej rozdzielczości. Obecnie możliwe jest uzyskanie unikalnych, fotorealistycznych obrazów poprzez opisanie tego, co chcemy zobaczyć. Co więcej, być może bardziej imponujący jest fakt, że możemy nawet używać modeli dyfuzji do generowania dla nas filmów.

Kluczowym czynnikiem przyczyniającym się do generatywnej sztucznej inteligencji są modele dyfuzji. Biorą podpowiedź tekstową i generują dane wyjściowe pasujące do tego opisu. Robią to, stopniowo przekształcając zestaw losowych liczb w obraz lub wideo, dodając więcej szczegółów, aby wyglądał jak opis. Te modele uczą się na podstawie zestawów danych zawierających miliony próbek, dzięki czemu mogą generować nowe wizualizacje, które wyglądają podobnie do tych, które widziały wcześniej. Chociaż czasami zestaw danych może być kluczowym problemem.

Prawie zawsze nie jest możliwe nauczenie od podstaw modelu rozpowszechniania do generowania wideo. Wymagają bardzo dużych zbiorów danych, a także sprzętu, który zaspokoi ich potrzeby. Konstruowanie takich zbiorów danych jest możliwe tylko dla kilku instytutów na całym świecie, ponieważ dostęp do tych danych i ich gromadzenie jest poza zasięgiem większości ludzi ze względu na koszty. Musimy skorzystać z istniejących modeli i spróbować sprawić, by działały w naszym przypadku użycia.

? DOŁĄCZ DO najszybszej społeczności ML Subreddit

Nawet jeśli uda ci się w jakiś sposób przygotować zestaw danych tekstowo-wideo z milionami, jeśli nie miliardami par, nadal musisz znaleźć sposób na uzyskanie mocy sprzętowej wymaganej do zasilania tych wielkoskalowych modeli. Dlatego wysoki koszt modeli rozpowszechniania wideo utrudnia wielu użytkownikom dostosowanie tych technologii do własnych potrzeb.

Warto przeczytać!  Wirus „Daam” kradnie zapisy rozmów, odczytuje historię z telefonów z Androidem; agencja centralna zajmuje się doradztwem

A gdyby istniał sposób na obejście tego wymogu? Czy możemy znaleźć sposób na obniżenie kosztów szkolenia modeli rozpowszechniania wideo? Czas się spotkać Tekst2Wideo-Zero

Tekst2Wideo-Zero to model generatywny typu zero-shot z tekstu na wideo, co oznacza, że ​​nie wymaga żadnego szkolenia w celu dostosowania. Wykorzystuje wstępnie wytrenowane modele zamiany tekstu na obraz i konwertuje je na czasowo spójny model generowania wideo. Na koniec wideo wyświetla sekwencję obrazów w szybki sposób, aby stymulować ruch. Pomysł wykorzystania ich kolejno do generowania wideo jest prostym rozwiązaniem.

Nie możemy jednak po prostu użyć modelu generowania obrazu setki razy i połączyć wyniki na końcu. To nie zadziała, ponieważ nie ma sposobu, aby modele rysowały te same obiekty przez cały czas. Potrzebujemy sposobu, aby zapewnić czasową spójność modelu.

Aby wymusić spójność czasową, Tekst2Wideo-Zero wykorzystuje dwie lekkie modyfikacje.

Po pierwsze, wzbogaca ukryte wektory generowanych klatek o informacje o ruchu, aby zachować spójność globalnej sceny i czasu tła. Odbywa się to poprzez dodanie informacji o ruchu do wektorów utajonych zamiast losowego ich próbkowania. Jednak te ukryte wektory nie mają wystarczających ograniczeń, aby przedstawić określone kolory, kształty lub tożsamości, co powoduje czasowe niespójności, szczególnie w przypadku obiektu pierwszego planu. Dlatego wymagana jest druga modyfikacja, aby rozwiązać ten problem.

Warto przeczytać!  Czy Samsung „oszukuje” na zdjęciach księżyca z zoomem kosmicznym? Post użytkownika Reddit wywołuje awanturę

Druga modyfikacja dotyczy mechanizmu uwagi. Aby wykorzystać moc uwagi między ramkami i jednocześnie wykorzystać wstępnie wytrenowany model dyfuzji bez ponownego szkolenia, każda warstwa samouwagi jest zastępowana uwagą między ramkami, a uwaga dla każdej klatki jest skupiona na pierwszej klatce. To pomaga Tekst2Wideo-Zero aby zachować kontekst, wygląd i tożsamość obiektu pierwszego planu w całej sekwencji.

Eksperymenty pokazują, że te modyfikacje prowadzą do generowania wideo o wysokiej jakości i spójności czasowej, nawet jeśli nie wymaga to szkolenia na danych wideo na dużą skalę. Co więcej, nie ogranicza się do syntezy tekstu na wideo, ale ma również zastosowanie do warunkowego i specjalistycznego generowania wideo, a także do edycji wideo za pomocą instrukcji tekstowych.


Sprawdź Papier I Github. Nie zapomnij dołączyć nasz SubReddit z ponad 19 tysiącami ML, Kanał DiscordaI Biuletyn e-mailowy, gdzie dzielimy się najnowszymi wiadomościami z badań nad sztuczną inteligencją, fajnymi projektami AI i nie tylko. Jeśli masz jakiekolwiek pytania dotyczące powyższego artykułu lub jeśli coś przeoczyliśmy, napisz do nas na adres Asif@marktechpost.com

? Sprawdź narzędzia AI 100 w AI Tools Club

Ekrem Çetinkaya otrzymał tytuł licencjata. w 2018 i mgr inż. w 2019 roku na Uniwersytecie Ozyegin w Stambule, w Turcji. Napisał pracę mgr. praca magisterska o odszumianiu obrazu przy użyciu głębokich sieci splotowych. Obecnie jest w trakcie studiów doktoranckich. stopień naukowy na Uniwersytecie w Klagenfurcie w Austrii i pracował jako badacz w projekcie ATHENA. Jego zainteresowania badawcze obejmują głębokie uczenie się, widzenie komputerowe i sieci multimedialne.


Źródło