Technologia

Co to jest Visual ChatGPT i jak go używać

  • 13 marca, 2023
  • 7 min read
Co to jest Visual ChatGPT i jak go używać


Microsoft kontynuuje wyścig AI bez redukcji biegów dzięki Visual ChatGPT. Visual ChatGPT to nowy model, który łączy ChatGPT i VFM, w tym Transformers, ControlNet i Stable Diffusion. Brzmi dobrze? Technika ta umożliwia również rozmowom ChatGPT wyjście poza bariery językowe. Ponieważ zbliża się data premiery GPT-4, przyszłość ChatGPT staje się jaśniejsza z każdym dniem.

Chociaż istnieje wiele udanych generatorów obrazów AI, takich jak DALL-E 2, Wombo Dream i inne, świeżo opracowane narzędzie graficzne AI zawsze spotyka się z ciepłym przyjęciem społeczności. Czy Visual ChatGPT będzie kontynuować tę tradycję? Przyjrzyjmy się bliżej.

Co to jest Visual ChatGPT?

Visual ChatGPT to nowy model, który łączy ChatGPT z VFM, takimi jak Transformers, ControlNet i Stable Diffusion. Zasadniczo model sztucznej inteligencji działa jako pomost między użytkownikami, umożliwiając im komunikację za pośrednictwem czatu i generowanie efektów wizualnych.

Jak korzystać z Visual ChatGPT?  Zapoznaj się z przykładami Visual ChatGPT.  Microsoft nie tylko nad tym pracuje, data premiery GPT-4 też już wkrótce!
Dzięki uprzejmości: Microsoft

ChatGPT jest obecnie ograniczony do pisania opisów do użytku ze Stable Diffusion, DALL-E lub Midjourney; nie może samodzielnie przetwarzać ani generować obrazów. Jednak dzięki modelowi Visual ChatGPT system może generować obraz, modyfikować go, wycinać niechciane elementy i robić znacznie więcej.

ChatGPT wzbudził interdyscyplinarne zainteresowanie ze względu na swoje niezwykłe kompetencje konwersacyjne i zdolności rozumowania w wielu sektorach, co skutkuje doskonałym wyborem dla interfejsu językowego.

Jego trening językowy zabrania mu jednak przetwarzania lub generowania obrazów ze środowiska wizualnego. Tymczasem modele z wizualnymi podstawami, takie jak Visual Transformers lub Steady Diffusion, wykazują imponujące zdolności wizualnego rozumienia i tworzenia, gdy otrzymują zadania ze stałymi danymi wejściowymi i wyjściowymi w jednej rundzie. Nowy model, taki jak Visual ChatGPT, można utworzyć, łącząc te dwa modele.

„Zamiast trenować od podstaw nowy multimodalny ChatGPT, budujemy Visual ChatGPT bezpośrednio w oparciu o ChatGPT i włączamy różne VFM”.

-Microsoft

Umożliwia użytkownikom komunikację z ChatGPT w sposób wykraczający poza słowa.

Warto przeczytać!  Data i godzina zamkniętej bety The Crew Motorfest dla wszystkich regionów, rozmiar pobierania i inne informacje
Jak korzystać z Visual ChatGPT?  Zapoznaj się z przykładami Visual ChatGPT.  Microsoft nie tylko nad tym pracuje, data premiery GPT-4 też już wkrótce!
Zdjęcie dzięki uprzejmości: Microsoft

Co to są modele Visual Foundation (VFM)?

Wyrażenie „wizualne modele fundamentów” (VFM) jest powszechnie używane do scharakteryzowania grupy podstawowych algorytmów stosowanych w wizji komputerowej. Metody te służą do przenoszenia standardowych umiejętności widzenia komputerowego do aplikacji sztucznej inteligencji i mogą służyć jako podstawa dla bardziej złożonych modeli.


Nauka korzystania ze sztucznej inteligencji to przełom


Wizualne funkcje ChatGPT

Badacze z firmy Microsoft opracowali system o nazwie Visual ChatGPT, który zawiera wiele wizualnych modeli podstawowych i graficznych interfejsów użytkownika do interakcji z ChatGPT.

Co zmieni się w Visual ChatGPT? Będzie zdolny do następujących czynności:

  • Oprócz tekstu Visual ChatGPT może również generować i odbierać obrazy.
  • Złożone zapytania wizualne lub instrukcje edycji, które wymagają współpracy różnych modeli AI na wielu etapach, mogą być obsługiwane przez Visual ChatGPT.
  • Aby obsłużyć modele z wieloma wejściami/wyjściami i tymi, które wymagają wizualnej informacji zwrotnej, badacze opracowali serię monitów, które integrują wizualne informacje o modelu z ChatGPT. Dzięki testom odkryli, że Visual ChatGPT ułatwia badanie możliwości wizualnych ChatGPT przy użyciu wizualnych modeli podstawowych.
Jak korzystać z Visual ChatGPT?  Zapoznaj się z przykładami Visual ChatGPT.  Microsoft nie tylko nad tym pracuje, data premiery GPT-4 też już wkrótce!
Zdjęcie dzięki uprzejmości: Microsoft

Nie jest jeszcze idealnie. Naukowcy zaobserwowali pewne problemy w swojej pracy, takie jak niespójne generowanie wyników spowodowane niepowodzeniem wizualnych modeli fundamentów (VFM) i różnorodnością monitów. Doszli do wniosku, że potrzebny jest moduł samokorygujący, aby gwarantować, że wyniki wykonania są zgodne z celami człowieka i wprowadzać niezbędne poprawki. Ze względu na konieczność bieżącej korekty kursu włączenie takiego modułu mogłoby wydłużyć czas wnioskowania modelu. Zespół zamierza przeprowadzić głębsze badania w tej sprawie w kolejnym badaniu.

Warto przeczytać!  Flipkart Apple Airpods Pro Oferta: Kup TWS za jedyne 1150 Rs – sprawdź szczegóły

Jak korzystać z Visual ChatGPT?

Najpierw musisz uruchomić wersję demonstracyjną Visual ChatGPT. Zgodnie z jego stroną GitHub, oto co musisz zrobić:

# create a new environment
conda create -n visgpt python=3.8

# activate the new environment
conda activate visgpt

#  prepare the basic environments
pip install -r requirement.txt

# download the visual foundation models
bash download.sh

# prepare your private openAI private key
export OPENAI_API_KEY={Your_Private_Openai_Key}

# create a folder to save images
mkdir ./image

# Start Visual ChatGPT !
python visual_chatgpt.py

Po uruchomieniu wersji demonstracyjnej programu Visual ChatGPT na komputerze wystarczy, że wyświetli monit!

Korzystając z narzędzi takich jak Visual ChatGPT, można obniżyć krzywą uczenia się modeli zamiany tekstu na obraz, a różne programy AI mogą się ze sobą komunikować. Poprzednie najnowocześniejsze modele, takie jak modele LLM i T2I, były opracowywane w izolacji; ale dzięki innowacjom możemy znacznie poprawić ich działanie.

Jeśli chodzi o tworzenie obrazów za pomocą ChatGPT, od razu przychodzi na myśl GPT-4. Kiedy zatem pojawi się ten wyczekiwany model?

Data premiery GPT-4

Nowy model sztucznej inteligencji o nazwie GPT-4 ma zostać wydany przez OpenAI, firmę stojącą za ChatGPT, już w przyszłym tygodniu, według dyrektora ds. technologii (CTO) firmy Microsoft w Niemczech. Ta nowa wersja jest powszechnie uważana za znacznie bardziej wydajną niż jej poprzedniczka, co utoruje drogę do powszechnego przyjęcia generatywnej sztucznej inteligencji w biznesie.

Jak korzystać z Visual ChatGPT?  Zapoznaj się z przykładami Visual ChatGPT.  Microsoft nie tylko nad tym pracuje, data premiery GPT-4 też już wkrótce!

Od 2019 roku, kiedy to zainwestował miliard dolarów w OpenAI, Microsoft jest kluczowym partnerem startupu AI. Microsoft zwiększył swój udział w laboratorium sztucznej inteligencji o kilka miliardów dolarów w styczniu, po niezwykłym sukcesie ChatGPT, chatbota opartego na sztucznej inteligencji, który szturmem podbił internet w ostatnich miesiącach.

Warto przeczytać!  Status Audio Between 3ANC recenzja: biodro ma być kwadratowe

Wizualne użycie pamięci GPU ChatGPT

Visual ChatGPT udostępnił również listę wykorzystania pamięci GPU przez każdy wizualny model podstawowy.

Model podstawy Wykorzystanie pamięci (MB)
Edycja obrazka 6667
Tytuł Zdjęcia 1755
T2I 6677
sprytny2obraz 5540
linia2obraz 6679
hed2obraz 6679
bazgroły2obraz 6679
poza2obraz 6681
BLIPVQA 2709
seg2obraz 5540
głębokość2obraz 6677
normalny2obraz 3974
InstructPix2Pix 2795

Aby zaoszczędzić pamięć GPU, możesz zmodyfikować „self.tools” za pomocą mniejszej liczby wizualnych modeli podstawowych.

Sprawdź artykuł, aby uzyskać bardziej szczegółowe informacje.

AI 101

Jesteś nowy w AI? Nadal możesz wsiąść do pociągu AI! Stworzyliśmy szczegółowy glosariusz AI dla najczęściej używanych terminów związanych ze sztuczną inteligencją i wyjaśniamy podstawy sztucznej inteligencji, a także zagrożenia i korzyści płynące z AI. Zapraszamy do korzystania z nich.

Inne sprawdzone przez nas narzędzia AI

Niemal każdego dnia pojawia się nowe narzędzie, model lub funkcja, które zmieniają nasze życie, a niektóre z najlepszych już przejrzeliśmy:

Chcesz dowiedzieć się, jak efektywnie korzystać z ChatGPT? Mamy dla Ciebie kilka wskazówek i wskazówek bez przełączania się na ChatGPT Plus! Szybka inżynieria AI jest kluczem do nieograniczonych światów, ale powinieneś być ostrożny; kiedy chcesz użyć narzędzia AI, możesz otrzymać błędy, takie jak „ChatGPT jest teraz przepustowy” i „zbyt wiele żądań w ciągu 1 godziny, spróbuj ponownie później”. Tak, to naprawdę irytujące błędy, ale nie martw się; wiemy, jak je naprawić.

Chociaż wciąż toczą się debaty na temat obrazów generowanych przez sztuczną inteligencję, ludzie wciąż szukają najlepszych generatorów grafiki AI. Czy AI zastąpi projektantów? Czytaj dalej i dowiedz się.


Źródło