Co to jest Visual ChatGPT i jak go używać
Microsoft kontynuuje wyścig AI bez redukcji biegów dzięki Visual ChatGPT. Visual ChatGPT to nowy model, który łączy ChatGPT i VFM, w tym Transformers, ControlNet i Stable Diffusion. Brzmi dobrze? Technika ta umożliwia również rozmowom ChatGPT wyjście poza bariery językowe. Ponieważ zbliża się data premiery GPT-4, przyszłość ChatGPT staje się jaśniejsza z każdym dniem.
Chociaż istnieje wiele udanych generatorów obrazów AI, takich jak DALL-E 2, Wombo Dream i inne, świeżo opracowane narzędzie graficzne AI zawsze spotyka się z ciepłym przyjęciem społeczności. Czy Visual ChatGPT będzie kontynuować tę tradycję? Przyjrzyjmy się bliżej.
Co to jest Visual ChatGPT?
Visual ChatGPT to nowy model, który łączy ChatGPT z VFM, takimi jak Transformers, ControlNet i Stable Diffusion. Zasadniczo model sztucznej inteligencji działa jako pomost między użytkownikami, umożliwiając im komunikację za pośrednictwem czatu i generowanie efektów wizualnych.
ChatGPT jest obecnie ograniczony do pisania opisów do użytku ze Stable Diffusion, DALL-E lub Midjourney; nie może samodzielnie przetwarzać ani generować obrazów. Jednak dzięki modelowi Visual ChatGPT system może generować obraz, modyfikować go, wycinać niechciane elementy i robić znacznie więcej.
ChatGPT wzbudził interdyscyplinarne zainteresowanie ze względu na swoje niezwykłe kompetencje konwersacyjne i zdolności rozumowania w wielu sektorach, co skutkuje doskonałym wyborem dla interfejsu językowego.
Jego trening językowy zabrania mu jednak przetwarzania lub generowania obrazów ze środowiska wizualnego. Tymczasem modele z wizualnymi podstawami, takie jak Visual Transformers lub Steady Diffusion, wykazują imponujące zdolności wizualnego rozumienia i tworzenia, gdy otrzymują zadania ze stałymi danymi wejściowymi i wyjściowymi w jednej rundzie. Nowy model, taki jak Visual ChatGPT, można utworzyć, łącząc te dwa modele.
„Zamiast trenować od podstaw nowy multimodalny ChatGPT, budujemy Visual ChatGPT bezpośrednio w oparciu o ChatGPT i włączamy różne VFM”.
-Microsoft
Umożliwia użytkownikom komunikację z ChatGPT w sposób wykraczający poza słowa.
Co to są modele Visual Foundation (VFM)?
Wyrażenie „wizualne modele fundamentów” (VFM) jest powszechnie używane do scharakteryzowania grupy podstawowych algorytmów stosowanych w wizji komputerowej. Metody te służą do przenoszenia standardowych umiejętności widzenia komputerowego do aplikacji sztucznej inteligencji i mogą służyć jako podstawa dla bardziej złożonych modeli.
Nauka korzystania ze sztucznej inteligencji to przełom
Wizualne funkcje ChatGPT
Badacze z firmy Microsoft opracowali system o nazwie Visual ChatGPT, który zawiera wiele wizualnych modeli podstawowych i graficznych interfejsów użytkownika do interakcji z ChatGPT.
Co zmieni się w Visual ChatGPT? Będzie zdolny do następujących czynności:
- Oprócz tekstu Visual ChatGPT może również generować i odbierać obrazy.
- Złożone zapytania wizualne lub instrukcje edycji, które wymagają współpracy różnych modeli AI na wielu etapach, mogą być obsługiwane przez Visual ChatGPT.
- Aby obsłużyć modele z wieloma wejściami/wyjściami i tymi, które wymagają wizualnej informacji zwrotnej, badacze opracowali serię monitów, które integrują wizualne informacje o modelu z ChatGPT. Dzięki testom odkryli, że Visual ChatGPT ułatwia badanie możliwości wizualnych ChatGPT przy użyciu wizualnych modeli podstawowych.
Nie jest jeszcze idealnie. Naukowcy zaobserwowali pewne problemy w swojej pracy, takie jak niespójne generowanie wyników spowodowane niepowodzeniem wizualnych modeli fundamentów (VFM) i różnorodnością monitów. Doszli do wniosku, że potrzebny jest moduł samokorygujący, aby gwarantować, że wyniki wykonania są zgodne z celami człowieka i wprowadzać niezbędne poprawki. Ze względu na konieczność bieżącej korekty kursu włączenie takiego modułu mogłoby wydłużyć czas wnioskowania modelu. Zespół zamierza przeprowadzić głębsze badania w tej sprawie w kolejnym badaniu.
Jak korzystać z Visual ChatGPT?
Najpierw musisz uruchomić wersję demonstracyjną Visual ChatGPT. Zgodnie z jego stroną GitHub, oto co musisz zrobić:
# create a new environment
conda create -n visgpt python=3.8
# activate the new environment
conda activate visgpt
# prepare the basic environments
pip install -r requirement.txt
# download the visual foundation models
bash download.sh
# prepare your private openAI private key
export OPENAI_API_KEY={Your_Private_Openai_Key}
# create a folder to save images
mkdir ./image
# Start Visual ChatGPT !
python visual_chatgpt.py
Po uruchomieniu wersji demonstracyjnej programu Visual ChatGPT na komputerze wystarczy, że wyświetli monit!
Korzystając z narzędzi takich jak Visual ChatGPT, można obniżyć krzywą uczenia się modeli zamiany tekstu na obraz, a różne programy AI mogą się ze sobą komunikować. Poprzednie najnowocześniejsze modele, takie jak modele LLM i T2I, były opracowywane w izolacji; ale dzięki innowacjom możemy znacznie poprawić ich działanie.
Jeśli chodzi o tworzenie obrazów za pomocą ChatGPT, od razu przychodzi na myśl GPT-4. Kiedy zatem pojawi się ten wyczekiwany model?
Data premiery GPT-4
Nowy model sztucznej inteligencji o nazwie GPT-4 ma zostać wydany przez OpenAI, firmę stojącą za ChatGPT, już w przyszłym tygodniu, według dyrektora ds. technologii (CTO) firmy Microsoft w Niemczech. Ta nowa wersja jest powszechnie uważana za znacznie bardziej wydajną niż jej poprzedniczka, co utoruje drogę do powszechnego przyjęcia generatywnej sztucznej inteligencji w biznesie.
Od 2019 roku, kiedy to zainwestował miliard dolarów w OpenAI, Microsoft jest kluczowym partnerem startupu AI. Microsoft zwiększył swój udział w laboratorium sztucznej inteligencji o kilka miliardów dolarów w styczniu, po niezwykłym sukcesie ChatGPT, chatbota opartego na sztucznej inteligencji, który szturmem podbił internet w ostatnich miesiącach.
Wizualne użycie pamięci GPU ChatGPT
Visual ChatGPT udostępnił również listę wykorzystania pamięci GPU przez każdy wizualny model podstawowy.
Model podstawy | Wykorzystanie pamięci (MB) |
---|---|
Edycja obrazka | 6667 |
Tytuł Zdjęcia | 1755 |
T2I | 6677 |
sprytny2obraz | 5540 |
linia2obraz | 6679 |
hed2obraz | 6679 |
bazgroły2obraz | 6679 |
poza2obraz | 6681 |
BLIPVQA | 2709 |
seg2obraz | 5540 |
głębokość2obraz | 6677 |
normalny2obraz | 3974 |
InstructPix2Pix | 2795 |
Aby zaoszczędzić pamięć GPU, możesz zmodyfikować „self.tools” za pomocą mniejszej liczby wizualnych modeli podstawowych.
Sprawdź artykuł, aby uzyskać bardziej szczegółowe informacje.
AI 101
Jesteś nowy w AI? Nadal możesz wsiąść do pociągu AI! Stworzyliśmy szczegółowy glosariusz AI dla najczęściej używanych terminów związanych ze sztuczną inteligencją i wyjaśniamy podstawy sztucznej inteligencji, a także zagrożenia i korzyści płynące z AI. Zapraszamy do korzystania z nich.
Inne sprawdzone przez nas narzędzia AI
Niemal każdego dnia pojawia się nowe narzędzie, model lub funkcja, które zmieniają nasze życie, a niektóre z najlepszych już przejrzeliśmy:
Chcesz dowiedzieć się, jak efektywnie korzystać z ChatGPT? Mamy dla Ciebie kilka wskazówek i wskazówek bez przełączania się na ChatGPT Plus! Szybka inżynieria AI jest kluczem do nieograniczonych światów, ale powinieneś być ostrożny; kiedy chcesz użyć narzędzia AI, możesz otrzymać błędy, takie jak „ChatGPT jest teraz przepustowy” i „zbyt wiele żądań w ciągu 1 godziny, spróbuj ponownie później”. Tak, to naprawdę irytujące błędy, ale nie martw się; wiemy, jak je naprawić.
Chociaż wciąż toczą się debaty na temat obrazów generowanych przez sztuczną inteligencję, ludzie wciąż szukają najlepszych generatorów grafiki AI. Czy AI zastąpi projektantów? Czytaj dalej i dowiedz się.