Fotografia

DragGAN to narzędzie do edycji obrazu AI typu „kliknij i przeciągnij”.

  • 21 maja, 2023
  • 4 min read
DragGAN to narzędzie do edycji obrazu AI typu „kliknij i przeciągnij”.


Jeśli ludzie stojący za DragGAN postawią na swoim, możemy pożegnać się z tym, jak wygląda edycja zdjęć. W przeszłości prezentowaliśmy wiele samouczków dotyczących Photoshopa. Wiele z nich koncentruje się na usunięciu złożonej części „Photoshopping” i zapewnieniu przepisu na proces edycji.

Ale ten nowy proces edycji od DragGAN (dostępny przez huggingface) usuwa nawet to, co zostało pominięte w Photoshopie, czyniąc go prostym interfejsem typu „kliknij i przeciągnij”.

Koncepcja DragGAN

DragGAN to nie narzędzia, pędzle i warstwy. Zamiast tego pozwala klikać w strategiczne miejsca na zdjęciu, aby tworzyć punkty. Następnie wykonując swój „zamiar” podczas przeciągania punktu.

Według twórców modelu:

Dzięki DragGAN każdy może zdeformować obraz z precyzyjną kontrolą nad tym, gdzie idą piksele, manipulując w ten sposób pozą, kształtem, ekspresją i układem różnych kategorii, takich jak zwierzęta, samochody, ludzie, krajobrazy itp. Ponieważ te manipulacje są wykonywane na wyuczonych generatywną różnorodność obrazów GAN, mają tendencję do generowania realistycznych wyników nawet w przypadku trudnych scenariuszy, takich jak halucynacje przesłoniętej treści i zniekształcone kształty, które konsekwentnie podążają za sztywnością obiektu

Jeśli brzmi to dla ciebie jak Giberish, wyobraź sobie, że możesz teraz edytować element na zdjęciu za pomocą przeciągnięcia myszą. Na przykład zmień oczy z zamkniętych na otwarte, dłuższą spódnicę, mniejszy lub większy samochód i tak dalej. A wszystko to przy zachowaniu realistycznego wyglądu i bez otwierania programu Photoshop.

Warto przeczytać!  Apple badane przez francuskie organy regulacyjne w sprawie „programowanego starzenia się”

I to jest dość niesamowite. Niesamowite do tego stopnia, że ​​zainteresowanie spowodowało awarię strony internetowej DragGAN.

DragGAN to nie kolejna sztuczna inteligencja MidJourney czy Dall-E

Ale możesz się zastanawiać, czym różni się to narzędzie od innych narzędzi do edycji zdjęć, które mogą zmieniać mimikę twarzy i inne funkcje? Lub nawet po prostu „zwykłą” sztuczną inteligencją do generowania obrazów.

Cóż, na początek ten DragGAN nie generuje obrazów. To ich edycja. I robi to zdumiewająco dobrze jak na narzędzie badawcze pierwszej generacji. W rzeczywistości, jeśli spojrzysz na zdjęcie przed edycją i edytowane obok siebie, trudno byłoby ustalić, które jest które.

Ale ten model może zrobić rzeczy, których inne oprogramowanie do edycji po prostu nie może zrobić, na przykład zmienić kąt obiektu, a nie tylko jego perspektywę, lub „wymyślić” szczegóły, których potrzebuje, aby zmiana rozmiaru wyglądała bardziej realistycznie.

W drodze do edycji bezkomputerowej?

Chcę więc trochę pobawić się klockami LEGO, bo mogę. Adobe Firefly ma już kilka narzędzi, które mogą pobierać instrukcje tekstowe (inaczej monity) i wykorzystywać je do przekształcania filmów, obrazów i dźwięków. Mamy też Whisper, który może właściwie zrozumieć wszystko, co ktoś mówi w prawie każdym języku. A DragGAN wydaje się być pierwszym elementem układanki, w której będziesz manipulować obrazem bez żadnej wiedzy.

Warto przeczytać!  DPReview.com czeka na nowy rozdział z Gear Patrol: Digital Photography Review

Wydaje mi się więc, że edycja w przyszłości będzie wyglądać bardziej jak: „Cześć Siri, proszę zmień tę koszulkę na czerwoną sukienkę i spraw, by modelka nosiła kapelusz”, zamiast faktycznie używać myszy i klawiatury.

Oczywiście możesz połączyć to z generatorami obrazów AI, takimi jak Stable Diffusion lub MidJourney, i całkowicie pominąć całą część robienia zdjęcia.

[via Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold]




Źródło