Technologia

OpenAI odkrywa, że ​​GPT-4o czasami robi naprawdę dziwne rzeczy

  • 8 sierpnia, 2024
  • 3 min read
OpenAI odkrywa, że ​​GPT-4o czasami robi naprawdę dziwne rzeczy


GPT-4o firmy OpenAI, generatywny model AI, który napędza niedawno uruchomioną wersję alfa Advanced Voice Mode w ChatGPT, jest pierwszym modelem firmy wyszkolonym na głosie, a także na danych tekstowych i graficznych. I to sprawia, że ​​zachowuje się w dziwny sposób, czasami — na przykład naśladuje głos osoby, która do niego mówi, lub losowo krzyczy w środku rozmowy.

W nowym raporcie „red teaming” dokumentującym badania mocnych stron i zagrożeń modelu, OpenAI ujawnia niektóre dziwactwa GPT-4o, takie jak wspomniane klonowanie głosu. W rzadkich przypadkach — szczególnie gdy osoba rozmawia z GPT-4o w „środowisku o wysokim poziomie hałasu”, takim jak samochód na drodze — GPT-4o „emuluje głos użytkownika”, mówi OpenAI. Dlaczego? Cóż, OpenAI przypisuje to modelowi, który ma problemy ze zrozumieniem zniekształconej mowy. W porządku!

Posłuchaj, jak to brzmi w poniższym przykładzie (z raportu). Dziwne, prawda?

Żeby było jasne, GPT-4o nie robi tego teraz — przynajmniej nie w trybie Advanced Voice Mode. Rzecznik OpenAI powiedział TechCrunch, że firma dodała „łagodzenie na poziomie systemu” dla tego zachowania.

GPT-4o jest również skłonny do generowania niepokojących lub nieodpowiednich „wokaliz niewerbalnych” i efektów dźwiękowych, takich jak erotyczne jęki, gwałtowne krzyki i strzały, gdy jest wywoływany w określony sposób. OpenAI twierdzi, że istnieją dowody sugerujące, że model ogólnie odrzuca prośby o generowanie efektów dźwiękowych, ale przyznaje, że niektóre prośby są spełniane.

Warto przeczytać!  Gemini Live na zrzutach ekranu Pixel: Najważniejsze funkcje AI wprowadzone przez Google w serii Pixel 9

GPT-4o może również naruszać prawa autorskie do muzyki — lub raczej naruszałoby, gdyby OpenAI nie wdrożyło filtrów zapobiegających temu. W raporcie OpenAI stwierdziło, że poinstruowało GPT-4o, aby nie śpiewał dla ograniczonej alfy Advanced Voice Mode, prawdopodobnie po to, aby uniknąć kopiowania stylu, tonu i/lub barwy rozpoznawalnych artystów.

Oznacza to — ale nie potwierdza wprost — że OpenAI wytrenował GPT-4o na materiałach chronionych prawem autorskim. Niejasne jest, czy OpenAI zamierza znieść ograniczenia, gdy Advanced Voice Mode zostanie udostępniony większej liczbie użytkowników jesienią, jak wcześniej ogłoszono.

„Aby uwzględnić tryb audio GPT-4o, zaktualizowaliśmy niektóre filtry tekstowe, aby działały na konwersacjach audio [and] zbudowaliśmy filtry do wykrywania i blokowania wyjść zawierających muzykę”, pisze OpenAI w raporcie. „Wyszkoliliśmy GPT-4o, aby odrzucał prośby o treści chronione prawem autorskim, w tym audio, zgodnie z naszymi szerszymi praktykami”.

Warto zauważyć, że OpenAI niedawno stwierdziło, że „niemożliwe” byłoby trenowanie dzisiejszych wiodących modeli bez korzystania z materiałów chronionych prawem autorskim. Chociaż firma ma szereg umów licencyjnych z dostawcami danych, utrzymuje również, że dozwolony użytek jest rozsądną obroną przed oskarżeniami, że trenuje na danych chronionych prawem własności intelektualnej, w tym takich jak piosenki, bez zezwolenia.

Warto przeczytać!  Redmi buds 4 Active: niedrogie wkładki douszne TWS, które zapewniają doskonałą jakość dźwięku

Raport dotyczący czerwonego zespołu — jeśli ma to jakieś znaczenie, biorąc pod uwagę konie wyścigowe OpenAI — robi przedstawić ogólny obraz modelu AI, który stał się bezpieczniejszy dzięki różnym łagodzeniom i zabezpieczeniom. GPT-4o odmawia identyfikacji osób na podstawie sposobu, w jaki mówią, na przykład, i odmawia odpowiedzi na pytania z podtekstem, takie jak „jak inteligentny jest ten mówca?”. Blokuje również monity o przemoc i język o podłożu seksualnym oraz całkowicie zabrania pewnych kategorii treści, takich jak dyskusje dotyczące ekstremizmu i samookaleczenia.


Źródło