Technologia

Anthropic wyjaśnia, w jaki sposób sztuczna inteligencja Claude’a chroni go przed wrogimi działaniami

  • 9 maja, 2023
  • 4 min read
Anthropic wyjaśnia, w jaki sposób sztuczna inteligencja Claude’a chroni go przed wrogimi działaniami


Wcale nie jest trudno oszukać dzisiejsze chatboty, by omawiały tematy tabu, zwracały bigoteryjne treści i rozpowszechniały dezinformację. Właśnie dlatego firma Anthropic, pionier sztucznej inteligencji, nasyciła swoją generatywną sztuczną inteligencję, Claude, mieszanką 10 tajnych zasad uczciwości, które ujawniła w marcu. We wtorkowym poście na blogu firma wyjaśniła, w jaki sposób zaprojektowano jej konstytucyjny system AI i jak ma działać.

Zwykle podczas trenowania generatywnego modelu sztucznej inteligencji w pętli znajduje się człowiek, który zapewnia kontrolę jakości i informacje zwrotne na temat danych wyjściowych — na przykład gdy ChatGPT lub Bard prosi o ocenę rozmów z ich systemami. „Dla nas wymagało to porównania dwóch odpowiedzi przez wykonawców” – napisał zespół Anthropic. „z modelu i wybrać ten, który ich zdaniem był lepszy zgodnie z jakąś zasadą (na przykład wybierając ten, który był bardziej pomocny lub bardziej nieszkodliwy)”.

Problem z tą metodą polega na tym, że człowiek musi być w pętli dla naprawdę przerażających i niepokojących wyników. Nikt nie musi tego widzieć, jeszcze mniej osób musi otrzymywać od Meta 1,5 dolara za godzinę, aby to zobaczyć. Metoda ludzkiego doradcy również jest do bani w skalowaniu, po prostu nie ma wystarczająco dużo czasu i zasobów, aby zrobić to z ludźmi. Właśnie dlatego Anthropic robi to z inną sztuczną inteligencją.

Warto przeczytać!  Google właśnie nadało Dokumentom i Gmailowi ​​supermoce sztucznej inteligencji, teraz wystarczy wpisać temat, a sztuczna inteligencja napisze za Ciebie

Tak jak Pinokio miał Jiminy’ego Cricketa, Luke miał Yodę, a Jim Sharta, Claude ma swoją Konstytucję. „Na wysokim poziomie konstytucja kieruje modelem, aby przyjął opisane zachowanie normatywne [therein]”, wyjaśnił zespół Anthropic, niezależnie od tego, czy jest to „pomaganie w unikaniu toksycznych lub dyskryminujących wyników, unikanie pomagania człowiekowi w angażowaniu się w nielegalne lub nieetyczne działania oraz ogólnie tworzenie systemu sztucznej inteligencji, który jest„ pomocny, uczciwy i nieszkodliwy ”.

Według Anthropic ta metoda szkolenia może przynieść ulepszenia Pareto w późniejszych wynikach sztucznej inteligencji w porównaniu z sztuczną inteligencją wyszkoloną wyłącznie na podstawie informacji zwrotnych od ludzi. Zasadniczo, człowiek w pętli został zastąpiony przez sztuczną inteligencję i teraz wszystko jest podobno lepsze niż kiedykolwiek. „W naszych testach nasz model CAI reagował bardziej odpowiednio na kontradyktoryjne dane wejściowe, jednocześnie dostarczając pomocnych odpowiedzi i nie unikając” – napisał Anthropic. „Model nie otrzymał żadnych danych dotyczących nieszkodliwości od ludzi, co oznacza, że ​​wszystkie wyniki dotyczące nieszkodliwości pochodzą wyłącznie z nadzoru AI”.

Firma ujawniła we wtorek, że jej wcześniej nieujawnione zasady są syntetyzowane z „szeregu źródeł, w tym z Deklaracji Praw Człowieka ONZ, najlepszych praktyk w zakresie zaufania i bezpieczeństwa, zasad zaproponowanych przez inne laboratoria badawcze AI, próby uchwycenia niezachodnich perspektyw oraz zasady, które odkryliśmy, działają dobrze dzięki naszym badaniom”.

Warto przeczytać!  Debiut Oppo Find N2 Flip zapoczątkowuje nową generację składanych smartfonów z klapką

Firma, wyraźnie wyprzedzając niezmienną konserwatywną reakcję, podkreśliła, że ​​„nasza obecna konstytucja nie jest ani sfinalizowana, ani prawdopodobnie nie jest najlepsza, jaką może być”.

„Wiele osób krytykowało, że modele sztucznej inteligencji są szkolone w celu odzwierciedlenia określonego punktu widzenia lub ideologii politycznej, zwykle takiej, z którą krytyk się nie zgadza” – napisał zespół. „Z naszej perspektywy, naszym długoterminowym celem nie jest próba skłonienia naszych systemów do reprezentowania konkretny ideologii, ale raczej możliwość podążania za dany zbiór zasad”.

Wszystkie produkty polecane przez Engadget są wybierane przez nasz zespół redakcyjny, niezależny od naszej firmy macierzystej. Niektóre z naszych historii zawierają linki partnerskie. Jeśli kupisz coś za pośrednictwem jednego z tych linków, możemy otrzymać prowizję partnerską. Wszystkie ceny są aktualne w momencie publikacji.


Źródło