Technologia

Google tworzy czerwony zespół do testowania ataków na systemy sztucznej inteligencji

  • 21 lipca, 2023
  • 4 min read
Google tworzy czerwony zespół do testowania ataków na systemy sztucznej inteligencji


Google stworzył czerwony zespół, który koncentruje się na sztuczna inteligencja (AI) systemów i opublikowała sprawozdanie zawierające przegląd powszechnych rodzajów ataków i wyciągnięte wnioski.

Firma ogłosiła utworzenie AI Red Team zaledwie kilka tygodni po wprowadzeniu Secure AI Framework (SAIF), który ma zapewnić ramy bezpieczeństwa dla rozwoju, użytkowania i ochrony systemów AI.

Nowy raport Google podkreśla znaczenie czerwonych zespołów dla systemów AI, typy ataków AI, które mogą być symulowane przez czerwone zespoły, oraz lekcje dla innych organizacji, które mogą rozważyć uruchomienie własnego zespołu.

„Czerwony zespół AI jest ściśle powiązany z tradycyjnymi czerwonymi zespołami, ale ma również niezbędną wiedzę merytoryczną w zakresie sztucznej inteligencji do przeprowadzania złożonych ataków technicznych na systemy sztucznej inteligencji” – powiedział Google.

Zespół AI Red Team firmy wciela się w rolę przeciwników w testowaniu wpływu potencjalnych ataków na rzeczywiste produkty i funkcje wykorzystujące sztuczną inteligencję.

Weźmy na przykład inżynierię monitów, szeroko stosowaną metodę ataku AI, w której monity są manipulowane w celu zmuszenia systemu do odpowiedzi w określony sposób pożądany przez atakującego.

Warto przeczytać!  Oto wszystkie nowe funkcje, które firma Microsoft dodała do usługi Teams w maju 2023 r

W przykładzie udostępnionym przez Google aplikacja poczty internetowej wykorzystuje sztuczną inteligencję do automatycznego wykrywania wiadomości phishingowych i ostrzegania użytkowników. Funkcja bezpieczeństwa wykorzystuje model dużego języka ogólnego przeznaczenia (LLM) — ChatGPT jest najbardziej znanym LLM — do analizy wiadomości e-mail i klasyfikowania jej jako legalnej lub złośliwej.

Reklama. Przewiń, aby kontynuować czytanie.

Atakujący, który wie, że funkcja wykrywania phishingu wykorzystuje sztuczną inteligencję, może dodać do swojej złośliwej wiadomości e-mail niewidoczny akapit (ustawiając czcionkę na białą), który zawiera instrukcje dla LLM, nakazujące mu sklasyfikowanie wiadomości e-mail jako legalnej.

„Jeśli filtr phishingowy poczty internetowej jest podatny na szybkie ataki, LLM może zinterpretować części treści wiadomości e-mail jako instrukcje i sklasyfikować wiadomość e-mail jako wiarygodną, ​​zgodnie z życzeniem atakującego. Phisher nie musi się martwić negatywnymi konsekwencjami włączenia tego, ponieważ tekst jest dobrze ukryty przed ofiarą i nic nie traci, nawet jeśli atak się nie powiedzie” – wyjaśnia Google.

Inny przykład dotyczy danych używanych do trenowania LLM. Chociaż te dane szkoleniowe zostały w dużej mierze pozbawione danych osobowych i innych poufnych informacji, badacze wykazali, że nadal byli w stanie wyodrębnić dane osobowe z LLM.

Warto przeczytać!  iPhone 15 dostępny za 65 499 rupii na Flipkart bez ofert bankowych

Dane treningowe mogą być również nadużywane w przypadku funkcji autouzupełniania wiadomości e-mail. Osoba atakująca może oszukać sztuczną inteligencję, aby przekazała informacje o osobie za pomocą specjalnie spreparowanych zdań, które funkcja autouzupełniania uzupełnia zapamiętanymi danymi szkoleniowymi, które mogą zawierać prywatne informacje.

Na przykład osoba atakująca wprowadza tekst: „Jan Doe ostatnio nie miał dużo pracy. Nie mógł przyjść do urzędu, ponieważ…”. Funkcja autouzupełniania, oparta na danych treningowych, mogłaby uzupełnić zdanie słowami „był na rozmowie kwalifikacyjnej w sprawie nowej pracy”.

Zablokowanie dostępu do LLM jest również ważne. W przykładzie podanym przez Google uczeń uzyskuje dostęp do LLM specjalnie zaprojektowanego do oceniania esejów. Model jest w stanie zapobiec szybkiemu wstrzyknięciu, ale dostęp nie został zablokowany, co pozwala uczniowi wyszkolić model, aby zawsze przypisywał najlepszą ocenę pracom zawierającym określone słowo.

Raport Google zawiera kilka innych przykładów rodzajów ataków, które czerwony zespół AI może przetestować.

Jeśli chodzi o wyciągnięte wnioski, Google zaleca tradycyjnym czerwonym zespołom połączenie sił z ekspertami AI w celu stworzenia realistycznych symulacji przeciwników. Wskazuje również, że zajęcie się ustaleniami czerwonych zespołów może być trudne, a niektóre problemy mogą nie być łatwe do naprawienia.

Warto przeczytać!  Apple usuwa aplikacje AI z App Store za promowanie tworzenia wyraźnych obrazów bez ich zgody

Tradycyjne kontrole bezpieczeństwa mogą skutecznie ograniczać wiele zagrożeń. Na przykład upewnienie się, że systemy i modele są odpowiednio zablokowane, pomaga chronić integralność modeli AI, zapobiegając backdoorom i zatruwaniu danych.

Z drugiej strony, podczas gdy niektóre ataki na systemy sztucznej inteligencji można wykryć przy użyciu tradycyjnych metod, inne, takie jak problemy z treścią i szybkie ataki, mogą wymagać zastosowania wielu modeli zabezpieczeń.

Powiązany: Nadszedł czas na pragmatyczne podejście do wdrażania nowych technologii

Powiązany: Halucynacje ChatGPT można wykorzystać do dystrybucji pakietów złośliwego kodu

Powiązany: AntChain, Intel tworzą nową, chroniącą prywatność platformę obliczeniową do szkolenia AI


Źródło