ChatGPT przejmuje NEET; Czy przejdzie z latającymi kolorami, czy wypadnie?
Wspierany przez Microsoft ChatGPT OpenAI jest znany ze swojej wszechstronności, ponieważ chatbot może z łatwością przełączać się między generowaniem złożonych kodów a komponowaniem piosenek. Jego możliwości wykraczają poza sferę literacką i techniczną, ponieważ może pochwalić się szeregiem imponujących osiągnięć akademickich.
Oprócz zaliczenia programu MBA na University of Pennsylvania i egzaminu prawniczego w Minnesota Law School, chatbot zdał egzamin USMLE (United States Medical Licensing Examination) za jednym razem, co zwykle wymaga od aspirujących lekarzy prawie czterech lat i ponad dwóch lat praktyki klinicznej. obroty do wyczyszczenia.
Ale po nieudanej próbie w UPSC, CEL postanowił sprawdzić sprawność lekarską ChatGPT. Tym razem eksperymentowaliśmy z NEET (UG), jednym z najtrudniejszych egzaminów wstępnych dla aspirantów medycznych, który często wymaga więcej niż jednej próby, aby dostać się do najlepszych szkół medycznych w Indiach. W 2022 roku do egzaminu przystąpiła rekordowa liczba 18 lakh uczniów.
Czy ChatGPT przeszedł pomyślnie czy nie?
Przetestowaliśmy ChatGPT na wszystkich 200 pytaniach z artykułu NEET 2022 dostępnego online. Składa się ze 180 pytań wielokrotnego wyboru (MCQ) z przedmiotów z fizyki, chemii i biologii (botanika i zoologia). NEET ma również 20 dodatkowych pytań zwanych „pytaniami bonusowymi/próbnymi”, które nie mają żadnych ocen, ale są uwzględnione w celu oceny wiedzy i zrozumienia przedmiotu przez kandydatów. Więc przetestowaliśmy ChatGPT na wszystkich 200 pytaniach.
Każda prawidłowa odpowiedź oznaczała dla zdającego cztery oceny, a każda zła odpowiedź kosztowała go jedną ocenę negatywną. Pominęliśmy 10 pytań z fizyki, 15 z chemii i 1 z biologii, ponieważ były one oparte na wykresach i diagramach.
Pobierz naszą aplikację mobilną
Chociaż ChatGPT jest szkolony na danych tylko do 2021 roku, żadne pytanie w artykule nie było oparte na sprawach bieżących.
W przypadku NEET 2022 próg odcięcia wynosił 50% dla kategorii ogólnej. I ChatGPT udało się po prostu przejść NEET z 50,14% (357 z 712 ogółem). Uzyskał 90/160 punktów z fizyki, 81/156 z chemii i 186/396 z biologii.
Niezwykle słaby w botanice
ChatGPT jest słabym uczniem, jeśli chodzi o biologię, zwłaszcza botanikę. Odpowiadał niepoprawnie na prawie połowę pytań z biologii, z których większość pochodziła z botaniki.
Jak widać na zrzucie ekranu powyżej, powyżej. Chatbot nie mógł odpowiedzieć na pytanie. Odpowiedź, zgodnie z internetem i rozwiązaniem, to kukurydza. Jeśli jednak dostosujesz monit, może on dać właściwą odpowiedź.
Było więc jasne, że duża część gry zależy od podpowiedzi. Kiedy zmieniliśmy podpowiedzi w drugiej próbie, chatbot mógł poprawnie odpowiedzieć na wiele pytań. Za każdym razem, gdy dawał błędną odpowiedź, miał własną analizę, którą chętnie korygował, gdy został o to poproszony.
To prowadzi nas z powrotem do faktu, że LLM są podatne na halucynacje. Google Bard, Microsoft Bing i Meta’s Galactica udzieliły nieprawidłowych odpowiedzi, co doprowadziło do poważnych niepowodzeń.
ChatGPT to przeciętny dzieciak
ChatGPT opiera się na rozkładzie probabilistycznym, ponieważ LLM są z natury niedeterministyczne (predyktory kolejnych tokenów), a nie „rozumieją”. W rozmowie z Debarghya Dasinżynier założyciel w Glean, o LLM i halucynacjach, powiedział CEL że LLM mają problemy z podstawową matematyką dotyczącą dużych liczb, ponieważ koncentrują się na przewidywaniu następnego żetonu, a nie na obliczaniu odpowiedzi.
„LLM nie zawsze dostarczają dokładnych informacji, ponieważ opierają się na rozkładzie prawdopodobieństwa i mogą na nie wpływać przykłady nieprawidłowych informacji. Do rozwiązania tego problemu można zastosować techniki generowania wspomaganego wyszukiwaniem, w których model generuje odpowiedzi na podstawie informacji z wiarygodnych źródeł internetowych” – dodał.
W przeciwieństwie do chatbotów jest to znacznie trudniejsze dla ludzi. ChatGPT jest szkolony na oszałamiającym parametrze 175B, w przeciwieństwie do ludzkiego mózgu. Rozmawialiśmy z kilkoma studentami medycyny, aby zrozumieć, dlaczego złamanie NEET zajmuje ponad rok. Wyobraź sobie, że przystępujesz do testu, w którym wskaźnik sukcesu nie zależy od twojej inteligencji czy krytycznego myślenia, ale od zdolności zapamiętywania faktów, zwłaszcza z biologii. Taka jest rzeczywistość, z którą muszą mierzyć się aspirujący studenci medycyny w Indiach, aby zdać egzamin NEET.
Annjali Sarkar, student trzeciego roku medycyny w prestiżowym RG Kar Medical College and Hospital w Kalkucie, powiedział: „Dodatkowym niebezpieczeństwem jest stres związany z odpowiadaniem na 180 pytań ręcznie w 180 minut, przydzielając 1 minutę na każde. Schemat odpowiedzi sprawia, że wprowadzanie zmian jest nieodwracalne. Tak więc, bez względu na to, jak ChatGPT przejdzie badania medyczne, z pewnością nie może konkurować z prawdziwymi zmaganiami, przed którymi stoimy”.
Szef Meta AI, Yann Lecun, zauważa, że ChatGPT może być „przydatny i zabawny”, ale nie może konkurować z ludzką inteligencją i jest co najwyżej pomocą w pisaniu. Nawet szef OpenAI, Sam Altman, przyznał, że chatbot jest niewiarygodnie ograniczony i nie należy na nim polegać w przypadku zapytań dotyczących faktów. Ale OpenAI nieustannie pracuje nad ulepszeniem.
A co jeśli ChatGPT nie może być urzędnikiem państwowym w Indiach, na pewno może to być przeciętny lekarz.