Fotografia

Rapująca Mona Lisa? Najnowsza sztuczna inteligencja Microsoftu poszła za daleko

  • 24 kwietnia, 2024
  • 4 min read
Rapująca Mona Lisa?  Najnowsza sztuczna inteligencja Microsoftu poszła za daleko


Rapująca Mona Lisa?  Najnowsza sztuczna inteligencja Microsoftu poszła za daleko

Jedną rzeczą, której zdecydowanie nie musiałem w życiu słyszeć, jest gangsterski rap Mony Lisy. Nie jestem nawet pewien, czy Leonardo da Vinci też by tego chciał, gdyby taka technologia istniała w czasach renesansu. Z pewnością dzięki temu kobieta staje się mniej enigmatyczna. Ale pomimo tego, że tego nie chce i nie potrzebuje, sztuczna inteligencja zobowiązała się do tego w postaci najnowszej oferty Microsoftu VASA-1.

VASA-1 tworzy „żywe, napędzane dźwiękiem mówiące twarze, generowane w czasie rzeczywistym”. Krótko mówiąc, może zrobić zdjęcie i nagrać głos, a następnie stworzyć niezwykle przekonujący film przedstawiający rozmowę (lub rapowanie). Microsoft zasadniczo otworzył portal do głębokiego, fałszywego piekła.

Każde zdjęcie może być gadającą głową

Być może zastanawiasz się, co jest takiego interesującego i nowego w jeszcze jednej rzeczy związanej ze sztuczną inteligencją. Jak stwierdza Microsoft w swoim oświadczeniu tldr, VASA-1 charakteryzuje się „precyzyjną synchronizacją dźwięku warg, realistycznym zachowaniem twarzy i naturalistycznymi ruchami głowy, generowanymi w czasie rzeczywistym”.

Szczerze mówiąc, to ten drobny szczegół wywołuje dreszcze. Jest nie tylko nienagannie precyzyjny, ale także tworzy różne wyrażenia, przekazy i może się to zdarzyć w jednej chwili. Zasadniczo zatem każde zdjęcie przesłane do Internetu może spowodować, że ktoś włoży Ci w usta słowa.

Warto przeczytać!  Aparat fotografa o wartości 3 000 USD przypadkowo sprzedany w Goodwill za 70 USD, TikTok pomógł go odzyskać
Rapująca Mona Lisa?  Najnowsza sztuczna inteligencja Microsoftu poszła za dalekoRapująca Mona Lisa?  Najnowsza sztuczna inteligencja Microsoftu poszła za daleko

Realizm i kontrolowana moc wyjściowa

Przykłady pokazane przez Microsoft oferują niesamowitą gamę opcji w zakresie spojrzenia, pochylenia głowy i wyrazu twarzy. Użytkownicy mogą przekazywać szeroką gamę zróżnicowanych wyrazów twarzy i naturalnych ruchów głowy. W połączeniu z dokładną synchronizacją ruchu warg, robi to wrażenie.

Rap Mony Lisy jest doskonałym przykładem tego, co jest możliwe. Wykorzystali występ audio Anne Hathaway wykonującej zaimprowizowany rap, który stał się wirusowy w 2011 roku.

Pokolenie może również zmienić nastrój podmiotu, wahając się od szczęśliwego, neutralnego, złego i zaskoczonego. Pozostałe przykłady pokazują, jak bardzo są realistyczne.

Podane przykłady pokazują również, że generator radzi sobie z mową, śpiewem i obrazami artystycznymi (nie zdjęciami) w języku innym niż angielski.

Czas rzeczywisty

Wróćmy do aspektu czasu rzeczywistego. Filmy te można generować szybko, z szybkością przesyłania strumieniowego 45 klatek na sekundę i opóźnieniem wynoszącym zaledwie 170 ms. Jasne, nie jest to rozdzielczość HD, tylko 512 x 512 pikseli; jednak fakt, że można to przesyłać strumieniowo niemal w czasie rzeczywistym, jest imponujący i przerażający.

Przyszłość i deepfakes

Widzieliśmy już, jak destabilizujące mogą być fałszywe obrazy rozpowszechniane w Internecie. Wyobraźcie sobie, ile zakłóceń mogłoby spowodować coś takiego, zarówno na szerszej scenie politycznej, jak i na poziomie bardziej osobistym.

Warto przeczytać!  Wycieczka fotograficzna po Madagaskarze, część 6: Rezerwat Anja

Od tej chwili każde zdjęcie, które zrobimy, może w jednej chwili zamienić się w „gadającą głowę”. Szybko wkraczamy w świat, w którym nie można ufać dowodom fotograficznym i wideo. Jaki wpływ będzie to miało na postępowanie karne? Intymne relacje?

Microsoft luźno przyznaje, że ta technologia może mieć poważne konsekwencje, mówiąc: „Nie jest przeznaczona do tworzenia treści służących do wprowadzania w błąd lub oszukiwania. Jednakże, podobnie jak inne powiązane techniki generowania treści, nadal może być potencjalnie niewłaściwie wykorzystana do podszywania się pod ludzi”.

Jednak nawet wspominając o możliwości niewłaściwego użycia, Microsoft koncentruje się na „znacznym pozytywnym potencjale naszej techniki” i „celuje w pozytywne zastosowania”.

Być może tak jest. Nadal jednak uważam, że wypuszczenie czegoś takiego jak VASA-1 w naszym naładowanym energią internetowym krajobrazie politycznym może otworzyć drzwi do świata, którego nikt z nas nie chce. Rapowanie Mony Lisy i w ogóle.




Źródło