Technologia

Naukowcy twierdzą, że ponad 99 procent identyfikacji ChatGPT • Rejestr

  • 8 czerwca, 2023
  • 4 min read
Naukowcy twierdzą, że ponad 99 procent identyfikacji ChatGPT • Rejestr


Naukowcy najwyraźniej wyszkolili algorytm uczenia maszynowego do wykrywania artykułów naukowych generowanych przez ChatGPT i twierdzą, że oprogramowanie ma ponad 99-procentową dokładność.

Generatywne modele sztucznej inteligencji znacznie poprawiły się w naśladowaniu pisma ludzkiego w krótkim czasie, utrudniając ludziom stwierdzenie, czy tekst został stworzony przez maszynę, czy przez człowieka. Nauczyciele i wykładowcy wyrazili obawy, że studenci korzystający z narzędzi popełniają plagiat lub najwyraźniej oszukują przy użyciu kodu generowanego maszynowo.

Jednak oprogramowanie zaprojektowane do wykrywania tekstu generowanego przez sztuczną inteligencję jest często zawodne. Eksperci ostrzegają przed wykorzystywaniem tych narzędzi do oceny pracy.

Zespół naukowców kierowany przez University of Kansas pomyślał, że przydatne byłoby opracowanie sposobu wykrywania pism naukowych generowanych przez sztuczną inteligencję – w szczególności pisanych w stylu artykułów naukowych, które są zwykle akceptowane i publikowane w czasopismach akademickich.

„W tej chwili istnieją dość rażące problemy z pisaniem AI” – powiedziała Heather Desaire, pierwsza autorka artykułu opublikowanego w czasopiśmie Cell Reports Fizykai profesor chemii z University of Kansas w oświadczeniu. „Jednym z największych problemów jest to, że gromadzi tekst z wielu źródeł i nie ma żadnej kontroli poprawności – to trochę jak gra Dwie prawdy i kłamstwo”.

Warto przeczytać!  Śledzenie aktualizacji aplikacji systemowych OnePlus [Updated Feb 15, 2023]

Desaire i jej współpracownicy skompilowali zestawy danych, aby trenować i testować algorytm do klasyfikowania artykułów napisanych przez naukowców i ChatGPT. Wybrali 64 artykuły „perspektywy” – specyficzny styl artykułów publikowanych w czasopismach naukowych – reprezentujących zróżnicowany zakres tematów, od biologii po fizykę, i skłonili ChatGPT do wygenerowania akapitów opisujących te same badania, aby stworzyć 128 fałszywych artykułów. W sumie 1276 akapitów zostało stworzonych przez sztuczną inteligencję i wykorzystanych do szkolenia klasyfikatora.

Następnie zespół skompilował dwa kolejne zestawy danych, z których każdy zawierał 30 artykułów o prawdziwych perspektywach i 60 artykułów napisanych przez ChatGPT, w sumie 1210 akapitów w celu przetestowania algorytmu.

Początkowe eksperymenty wykazały, że klasyfikator był w stanie rozróżnić między prawdziwymi naukowymi pismami ludzi a artykułami generowanymi przez sztuczną inteligencję w 100 procentach przypadków. Dokładność na poziomie poszczególnych akapitów jednak nieznacznie spadła – twierdzi się, że do 92 procent.

Uważają, że ich klasyfikator jest skuteczny, ponieważ opiera się na szeregu różnic stylistycznych między pismem ludzkim i sztucznym. Naukowcy częściej mają bogatsze słownictwo i piszą dłuższe akapity zawierające bardziej zróżnicowane słowa niż maszyny. Używają również znaków interpunkcyjnych, takich jak znaki zapytania, nawiasy kwadratowe, średniki częściej niż ChatGPT, z wyjątkiem znaków mowy używanych do cytowania.

Warto przeczytać!  Wszystko co musisz wiedzieć

ChatGPT jest również mniej precyzyjny i nie dostarcza konkretnych informacji o postaciach lub nazwiskach innych naukowców w porównaniu z ludźmi. Prawdziwe prace naukowe również używają bardziej dwuznacznego języka – jak „jednak”, „ale”, „chociaż”, a także „to” i „ponieważ”.

Wyniki należy jednak traktować z przymrużeniem oka. Nie jest jasne, jak solidny jest algorytm w porównaniu z badaniami, które zostały lekko zredagowane przez ludzi, mimo że zostały napisane głównie przez ChatGPT, lub w porównaniu z prawdziwymi artykułami z innych czasopism naukowych.

„Ponieważ kluczowym celem tej pracy było badanie koncepcji, zakres prac był ograniczony i potrzebne są dalsze badania w celu określenia zakresu stosowalności tego podejścia” – napisali naukowcy w swoim artykule. „Na przykład rozmiar zestawu testów (180 dokumentów, ~ 1200 akapitów) jest mały, a większy zestaw testów wyraźniej określiłby dokładność metody w tej kategorii przykładów pisania”.

Rejestr poprosił Desaire o komentarz. ®


Źródło