Biznes

Google wypuszcza Imagen 2, generator klipów wideo

  • 9 kwietnia, 2024
  • 7 min read
Google wypuszcza Imagen 2, generator klipów wideo


Kredyty obrazkowe: Seana Gallupa / Getty Images

Google nie ma najlepszych osiągnięć w zakresie sztucznej inteligencji generującej obrazy.

W lutym odkryto, że generator obrazów wbudowany w Gemini, chatbot Google oparty na sztucznej inteligencji, losowo dodaje różnorodność płci i rasy do podpowiedzi dotyczących ludzi, co skutkuje obrazami zróżnicowanych rasowo nazistów i innymi obraźliwymi nieścisłościami.

Google wycofał generator, obiecując go ulepszyć i ostatecznie ponownie wypuścić. W oczekiwaniu na jego powrót firma wprowadza na platformę programistyczną Vertex AI ulepszone narzędzie do generowania obrazów Imagen 2, choć jest to narzędzie zdecydowanie bardziej korporacyjne. Google ogłosiło wprowadzenie Imagen 2 na dorocznej konferencji Cloud Next w Las Vegas.

Imagen 2 – będący w rzeczywistości rodziną modeli wprowadzoną na rynek w grudniu po pokazie na konferencji Google I/O w maju 2023 r. – umożliwia tworzenie i edytowanie obrazów za pomocą podpowiedzi tekstowych, takich jak DALL-E i Midjourney OpenAI. Interesujący dla typów korporacji, Imagen 2 może renderować tekst, emblematy i logo w wielu językach, opcjonalnie nakładając te elementy na istniejące obrazy, na przykład na wizytówki, odzież i produkty.

Po uruchomieniu najpierw w wersji zapoznawczej, edycja obrazów za pomocą Imagen 2 jest teraz ogólnie dostępna w Vertex AI wraz z dwiema nowymi funkcjami: inpainting i outpainting. Malowanie i przemalowywanie, funkcje innych popularnych generatorów obrazów, w tym DALL-E, które oferują od jakiegoś czasu, mogą być używane do usuwania niechciane części obrazu, dodaj nowe komponenty i rozszerz krawędzie obrazu, aby uzyskać szersze pole widzenia.

Ale prawdziwym sednem aktualizacji Imagen 2 jest to, co Google nazywa „obrazami z tekstu na żywo”.

Imagen 2 może teraz tworzyć krótkie, czterosekundowe filmy z podpowiedzi tekstowych, podobnie jak narzędzia do generowania klipów oparte na sztucznej inteligencji, takie jak Runway, Pika i Irreverent Labs. Zgodnie z korporacyjnym założeniem Imagen 2, Google przedstawia obrazy na żywo jako narzędzie dla marketerów i twórców, takie jak generator GIF do reklam przedstawiających przyrodę, żywność i zwierzęta – tematyka Imagen 2 została dopracowana.

Warto przeczytać!  Wiadomości z rynku akcji i akcji, Wiadomości z gospodarki i finansów, Sensex, Nifty, Rynek globalny, NSE, BSE Wiadomości z IPO na żywo

Google twierdzi, że obrazy na żywo mogą uchwycić „szereg kątów i ruchów kamery”, podczas gdy „wspierając spójność w całej sekwencji.” Ale na razie są w niskiej rozdzielczości: 360 na 640 pikseli. Google obiecuje, że poprawi to w przyszłości.

Plakat YouTube

Aby rozwiać (lub przynajmniej spróbować rozwiać) obawy dotyczące możliwości tworzenia deepfakes, Google twierdzi, że Imagen 2 będzie wykorzystywać SynthID, podejście opracowane przez Google DeepMind, do stosowania niewidocznych, kryptograficznych znaków wodnych do obrazów na żywo. Oczywiście wykrycie tych znaków wodnych – które według Google są odporne na zmiany, w tym kompresję, filtry i dostosowanie tonu kolorów – wymaga narzędzia dostarczonego przez Google, które nie jest dostępne dla firm trzecich.

I niewątpliwie chcąc uniknąć kolejnej kontrowersji w mediach generatywnych, Google podkreśla, że ​​pokolenia obrazów na żywo będą „filtrowane ze względów bezpieczeństwa”. Rzecznik powiedział TechCrunch e-mailem: „The W modelu Imagen 2 w Vertex AI nie wystąpiły te same problemy, co w aplikacji Gemini. Kontynuujemy szeroko zakrojone testy i współpracujemy z naszymi klientami”.

Ale zakładając na chwilę, że technologia znaku wodnego Google, łagodzenie stronniczości i filtry są tak samo skuteczne, jak twierdzi, czy obrazy na żywo nawet konkurencyjny z dostępnymi już narzędziami do generowania wideo?

Nie bardzo.

Runway może generować 18-sekundowe klipy w znacznie wyższych rozdzielczościach. Narzędzie do klipów wideo Stability AI, Stable Video Diffusion, oferuje większe możliwości dostosowywania (pod względem liczby klatek na sekundę). A Sora z OpenAI – która, co prawda nie jest jeszcze dostępna na rynku – wydaje się być w stanie zmiażdżyć konkurencję fotorealizmem, jaki może osiągnąć.

Warto przeczytać!  Kurs dolara wzrósł o 22 gr., a franka o 21 gr.! Ile kosztuje euro, dolar, frank i funt na początku września

Jakie są zatem rzeczywiste zalety techniczne obrazów na żywo? Nie jestem do końca pewny. I nie sądzę, że jestem zbyt surowy.

W końcu Google stoi za naprawdę imponującą technologią generowania wideo, taką jak Imagen Video i Phenaki. Phenaki, jeden z ciekawszych eksperymentów Google w zakresie zamiany tekstu na wideo, zamienia długie, szczegółowe podpowiedzi w „filmy” trwające ponad dwie minuty – z zastrzeżeniem, że klipy mają niską rozdzielczość, niską liczbę klatek na sekundę i tylko w pewnym stopniu spójne.

W świetle ostatnich doniesień sugerujących, że rewolucja generatywnej sztucznej inteligencji zaskoczyła dyrektora generalnego Google, Sundara Pichai, a firma wciąż stara się dotrzymać kroku rywalom, nie jest zaskakujące, że produkt taki jak obrazy na żywo wydaje się być również popularny. Ale i tak jest to rozczarowujące. Nie mogę oprzeć się wrażeniu, że w skunkworkach Google’a czai się – lub był – bardziej imponujący produkt.

Modele takie jak Imagen są szkolone na ogromnej liczbie przykładów pochodzących zwykle z publicznych witryn i zbiorów danych w Internecie. Wielu dostawców generatywnej sztucznej inteligencji postrzega dane szkoleniowe jako przewagę konkurencyjną i dlatego przechowuje je wraz z informacjami z nimi związanymi blisko piersi. Jednak szczegóły danych szkoleniowych są również potencjalnym źródłem procesów sądowych związanych z własnością intelektualną, co stanowi kolejną zachętę do ujawniania zbyt wielu informacji.

Zapytałem, jak zawsze w przypadku ogłoszeń dotyczących generatywnych modeli AI, o dane użyte do szkolenia zaktualizowanego Imagen 2 i czy twórcy, których prace mogły zostać uwzględnione w procesie uczenia modeli, będą mogli zrezygnować w pewnym momencie w przyszłości.

Google powiedział mi tylko, że jego modele są szkolone „głównie” na publicznych danych internetowych, pobieranych z „postów na blogach, transkrypcji medialnych i publicznych forów dyskusyjnych”. Jakie blogi, transkrypcje i fora? To tylko domysły.

Warto przeczytać!  Wiadomości z rynku akcji i akcji, Wiadomości z gospodarki i finansów, Sensex, Nifty, Rynek globalny, NSE, BSE Wiadomości z IPO na żywo

Rzecznik zwrócił uwagę na mechanizmy Google stosowane przez wydawców internetowych, które pozwalają webmasterom uniemożliwiać firmie pobieranie danych, w tym zdjęć i grafik, z ich witryn internetowych. Ale Google nie zobowiązałoby się do udostępnienia narzędzia do rezygnacji lub, alternatywnie, do wynagradzania twórców za ich (nieświadomy) wkład – krok, który podjęło wielu jego konkurentów, w tym OpenAI, Stability AI i Adobe.

Warto wspomnieć o kolejnej kwestii: obrazy przekształcane w tekst na żywo nie są objęte polityką firmy Google dotyczącą zabezpieczenia przed generatywną sztuczną inteligencją, która chroni klientów Vertex AI przed roszczeniami dotyczącymi praw autorskich związanymi z wykorzystaniem przez Google danych szkoleniowych i wyników modeli generatywnej sztucznej inteligencji. Dzieje się tak dlatego, że obrazy przekształcane w tekst na żywo są technicznie w fazie podglądu; polityka obejmuje wyłącznie produkty generatywnej sztucznej inteligencji będące w ogólnej dostępności (GA).

Niedomykalność, czyli sytuacja, w której model generatywny wypluwa lustrzaną kopię przykładu (np. obrazu), na którym był szkolony, słusznie budzi obawy klientów korporacyjnych. Badania, zarówno nieformalne, jak i akademickie, wykazały, że Imagen pierwszej generacji, poprzednik Imagen 2, nie był na to odporny i wypluwał możliwe do zidentyfikowania zdjęcia ludzi, dzieła artystów chronione prawami autorskimi i nie tylko, gdy został o to poproszony w określony sposób.

O ile nie wystąpią kontrowersje, problemy techniczne lub inne nieprzewidziane niepowodzenia, obrazy typu „text-to-live” trafią do GA gdzieś w przyszłości. Jednak w przypadku obecnych obrazów na żywo Google zasadniczo mówi: używaj na własne ryzyko.




Źródło