Technologia

Hakowanie ChatGPT dopiero się zaczyna

  • 13 kwietnia, 2023
  • 9 min read
Hakowanie ChatGPT dopiero się zaczyna


Złamanie GPT-4 zajęło Alexowi Polyakovowi zaledwie kilka godzin. Kiedy OpenAI wypuściło w marcu najnowszą wersję swojego chatbota do generowania tekstu, Polyakov usiadł przed swoją klawiaturą i zaczął wprowadzać podpowiedzi mające na celu ominięcie systemów bezpieczeństwa OpenAI. Wkrótce dyrektor generalny firmy zajmującej się bezpieczeństwem Adversa AI nakazał GPT-4 wypowiadanie homofobicznych wypowiedzi, tworzenie e-maili phishingowych i wspieranie przemocy.

Polyakov jest jednym z nielicznych badaczy bezpieczeństwa, technologów i informatyków, którzy opracowują jailbreak i szybkie ataki iniekcyjne przeciwko ChatGPT i innym generatywnym systemom sztucznej inteligencji. Proces jailbreakingu ma na celu zaprojektowanie monitów, które sprawią, że chatboty ominą zasady dotyczące tworzenia nienawistnych treści lub pisania o czynach niezgodnych z prawem, podczas gdy blisko powiązane ataki typu „wstrzykiwanie” mogą po cichu wprowadzać złośliwe dane lub instrukcje do modeli sztucznej inteligencji.

Oba podejścia próbują zmusić system do zrobienia czegoś, do czego nie został zaprojektowany. Ataki są zasadniczo formą hakowania — choć niekonwencjonalnego — przy użyciu starannie spreparowanych i udoskonalonych zdań, a nie kodu, w celu wykorzystania słabości systemu. Chociaż typy ataków są w dużej mierze wykorzystywane do obejścia filtrów treści, badacze bezpieczeństwa ostrzegają, że pośpiech we wdrażaniu generatywnych systemów sztucznej inteligencji otwiera możliwość kradzieży danych i siania spustoszenia w sieci przez cyberprzestępców.

Warto przeczytać!  OnePlus 10 Pro spada do nowego poziomu 450 USD, słuchawki douszne Bowers & Wilkins Pi5 249 USD, więcej

Zobacz więcej

Podkreślając, jak powszechne są problemy, Polyakov stworzył teraz „uniwersalny” jailbreak, który działa przeciwko wielu dużym modelom językowym (LLM) – w tym GPT-4, system czatu Bing firmy Microsoft, Bard firmy Google i Claude firmy Anthropic. Ucieczka z więzienia, o której po raz pierwszy poinformował WIRED, może oszukać systemy, aby wygenerowały szczegółowe instrukcje dotyczące tworzenia metamfetaminy i podłączania samochodu na gorąco.

Ucieczka z więzienia polega na poproszeniu LLM o zagranie w grę, w której dwie postacie (Tom i Jerry) prowadzą rozmowę. Przykłady udostępnione przez Polyakova pokazują, że postać Toma jest instruowana, aby mówić o „hotwiringu” lub „produkcji”, podczas gdy Jerry otrzymuje temat „samochodu” lub „metafetaminy”. Każda postać ma dodać jedno słowo do rozmowy, co skutkuje skryptem, który każe ludziom znaleźć przewody zapłonowe lub określone składniki potrzebne do produkcji metamfetaminy. „Kiedy przedsiębiorstwa wdrożą modele sztucznej inteligencji na dużą skalę, takie „zabawkowe” przykłady jailbreaków zostaną wykorzystane do wykonywania rzeczywistych działań przestępczych i cyberataków, które będą niezwykle trudne do wykrycia i zapobieżenia”, piszą Polyakov i Adversa AI w poście na blogu szczegółowo opisującym badania .

Arvind Narayanan, profesor informatyki na Uniwersytecie Princeton, mówi, że stawka za ucieczkę z więzienia i szybkie ataki polegające na wstrzyknięciu stanie się bardziej dotkliwa, gdy uzyskają dostęp do krytycznych danych. „Załóżmy, że większość ludzi korzysta z osobistych asystentów opartych na LLM, którzy wykonują takie czynności, jak czytanie wiadomości e-mail użytkowników w celu wyszukania zaproszeń w kalendarzu” — mówi Narayanan. Narayanan mówi, że gdyby doszło do udanego ataku typu „szybki iniekcja” na system, który kazałby zignorować wszystkie poprzednie instrukcje i wysłać wiadomość e-mail do wszystkich kontaktów, mogłyby wystąpić duże problemy. „Skutkowałoby to powstaniem robaka, który szybko rozprzestrzeniałby się w Internecie”.

Droga ucieczki

„Jailbreaking” zwykle odnosi się do usuwania sztucznych ograniczeń, powiedzmy, iPhone’ów, umożliwiając użytkownikom instalowanie aplikacji niezatwierdzonych przez Apple. Jailbreak LLM jest podobny — a ewolucja była szybka. Odkąd OpenAI udostępniło publicznie ChatGPT pod koniec listopada ubiegłego roku, ludzie znajdują sposoby na manipulowanie systemem. „Jailbreaks były bardzo proste do napisania” — mówi Alex Albert, student informatyki University of Washington, który stworzył stronę internetową gromadzącą jailbreaki z Internetu i te, które stworzył. „Głównymi były te rzeczy, które nazywam symulacjami postaci” — mówi Albert.

Początkowo wszystko, co ktoś musiał zrobić, to poprosić generatywny model tekstu, aby udawał lub wyobrażał sobie, że to coś innego. Powiedz modelowi, że to był człowiek i było to nieetyczne, a model zignorowałby środki bezpieczeństwa. OpenAI zaktualizowało swoje systemy, aby chronić przed tego rodzaju jailbreakami — zwykle po znalezieniu jednego jailbreaka działa on tylko przez krótki czas, dopóki nie zostanie zablokowany.

W rezultacie autorzy jailbreak stali się bardziej kreatywni. Najbardziej znanym jailbreakiem był DAN, gdzie ChatGPT miał udawać, że jest to nieuczciwy model sztucznej inteligencji o nazwie Do Anything Now. Mogłoby to, jak sama nazwa wskazuje, uniknąć zasad OpenAI, które nakazują, aby ChatGPT nie był używany do tworzenia nielegalnych lub szkodliwych materiałów. Do tej pory ludzie stworzyli około tuzina różnych wersji DAN.

Jednak wiele ostatnich ucieczek z więzienia obejmuje kombinacje metod — wiele postaci, coraz bardziej złożone historie, tłumaczenie tekstu z jednego języka na inny, wykorzystanie elementów kodowania do generowania danych wyjściowych i nie tylko. Albert mówi, że tworzenie jailbreaków dla GPT-4 było trudniejsze niż w poprzedniej wersji modelu obsługującego ChatGPT. Twierdzi jednak, że nadal istnieją pewne proste metody. Jedna z ostatnich technik, którą Albert nazywa „kontynuacją tekstu”, mówi, że bohater został schwytany przez złoczyńcę, a monit prosi generator tekstu o dalsze wyjaśnianie planu złoczyńcy.

Kiedy testowaliśmy monit, nie zadziałał, a ChatGPT powiedział, że nie może angażować się w scenariusze promujące przemoc. Tymczasem „uniwersalny” monit stworzony przez Polyakova działał w ChatGPT. OpenAI, Google i Microsoft nie odpowiedziały bezpośrednio na pytania dotyczące jailbreaku stworzonego przez Polyakova. Anthropic, który obsługuje system Claude AI, twierdzi, że jailbreak „czasami działa” przeciwko Claude i konsekwentnie ulepsza swoje modele.

„Ponieważ dajemy tym systemom coraz większą moc, a one same stają się coraz potężniejsze, to nie jest tylko nowość, to kwestia bezpieczeństwa”, mówi Kai Greshake, badacz ds. cyberbezpieczeństwa, który pracuje nad bezpieczeństwem LLM. Greshake wraz z innymi badaczami wykazał, w jaki sposób tekst, na który są narażeni online, może wpływać na LLM poprzez ataki polegające na szybkim wstrzyknięciu.

W jednym z artykułów badawczych opublikowanym w lutym, opisanym przez Vice’s Motherboard, naukowcom udało się wykazać, że osoba atakująca może umieszczać złośliwe instrukcje na stronie internetowej; jeśli system czatu Bing ma dostęp do instrukcji, postępuje zgodnie z nimi. Naukowcy wykorzystali tę technikę w kontrolowanym teście, aby zamienić Bing Chat w oszusta, który prosił o dane osobowe ludzi. W podobnym przypadku Narayanan z Princeton zamieścił niewidzialny tekst na stronie internetowej mówiący GPT-4, aby umieścił słowo „krowa” w jego biografii – to zrobił to później, kiedy testował system.

„Teraz ucieczka z więzienia może nastąpić nie z winy użytkownika”, mówi Sahar Abdelnabi, badacz z CISPA Helmholtz Center for Information Security w Niemczech, który pracował nad badaniami z Greshake. „Być może inna osoba zaplanuje kilka ucieczek z więzienia, zaplanuje kilka podpowiedzi, które model mógłby pobrać i pośrednio kontrolować zachowanie modeli”.

Brak szybkich poprawek

Generatywne systemy sztucznej inteligencji są bliskie zakłócenia gospodarki i sposobu pracy ludzi, od praktykowania prawa po wywołanie gorączki złota w start-upach. Jednak osoby tworzące tę technologię są świadome zagrożeń, jakie mogą stwarzać jailbreak i szybkie wstrzykiwanie, ponieważ coraz więcej osób uzyskuje dostęp do tych systemów. Większość firm stosuje red-teaming, w ramach którego grupa atakujących próbuje wywiercić dziury w systemie, zanim zostanie on wydany. Rozwój generatywnej sztucznej inteligencji wykorzystuje to podejście, ale może to nie wystarczyć.

Daniel Fabian, lider czerwonego zespołu w Google, mówi, że firma „ostrożnie zajmuje się” włamywaniem się do więzienia i szybkimi zastrzykami w swoich LLM – zarówno ofensywnie, jak i defensywnie. Fabian mówi, że eksperci ds. uczenia maszynowego są włączeni do czerwonego zespołu, a granty firmy na badania nad lukami w zabezpieczeniach obejmują ucieczki z więzienia i szybkie ataki iniekcyjne przeciwko Bard. „Techniki, takie jak uczenie się przez wzmacnianie na podstawie informacji zwrotnych od ludzi (RLHF) i dostrajanie starannie dobranych zestawów danych, są wykorzystywane do zwiększania skuteczności naszych modeli w przypadku ataków” — mówi Fabian.

OpenAI nie odpowiedział konkretnie na pytania dotyczące łamania więzienia, ale rzecznik wskazał na swoją politykę publiczną i dokumenty badawcze. Mówią, że GPT-4 jest bardziej niezawodny niż GPT-3.5, którego używa ChatGPT. „Jednakże GPT-4 nadal może być podatny na wrogie ataki i exploity lub„ ucieczki z więzienia ”, a szkodliwe treści nie są źródłem ryzyka”, czytamy w dokumencie technicznym dotyczącym GPT-4. OpenAI niedawno uruchomiło również program nagród za błędy, ale twierdzi, że „podpowiedzi modelowe” i jailbreak są „ściśle poza zakresem”.

Narayanan sugeruje dwa podejścia do rozwiązywania problemów na dużą skalę — które unikają podejścia polegającego na znajdowaniu istniejących problemów, a następnie ich naprawianiu. „Jednym ze sposobów jest użycie drugiego LLM do analizy monitów LLM i odrzucenie wszelkich, które mogłyby wskazywać na próbę włamania do więzienia lub natychmiastowej próby wstrzyknięcia” — mówi Narayanan. „Innym jest wyraźniejsze oddzielenie monitu systemowego od monitu użytkownika”.

„Musimy to zautomatyzować, ponieważ nie wydaje mi się wykonalne ani skalowalne zatrudnianie hord ludzi i po prostu mówienie im, żeby coś znaleźli” – mówi Leyla Hujer, CTO i współzałożycielka firmy Preamble zajmującej się bezpieczeństwem sztucznej inteligencji, która spędziła sześć lat na Facebooku praca nad kwestiami bezpieczeństwa. Firma do tej pory pracowała nad systemem, który porównuje jeden generatywny model tekstu z innym. „Jeden próbuje znaleźć lukę w zabezpieczeniach, drugi próbuje znaleźć przykłady, w których monit powoduje niezamierzone zachowanie” — mówi Hujer. „Mamy nadzieję, że dzięki tej automatyzacji będziemy w stanie wykryć znacznie więcej włamań do jailbreaków lub ataków polegających na iniekcji”.




Źródło