Technologia

Firma Microsoft Research przedstawia phi-1: nowy duży model językowy specjalizujący się w kodowaniu w języku Python o znacznie mniejszym rozmiarze niż konkurencyjne modele

oen.pl

27 czerwca, 2023
4 min read

Od czasu odkrycia projektu Transformera sztuka trenowania ogromnych sztucznych sieci neuronowych ogromnie się rozwinęła, ale nauka leżąca u podstaw tego osiągnięcia jest wciąż w powijakach. Poczucie porządku w końcu pojawiło się wśród przytłaczającej i kłopotliwej gamy wyników mniej więcej w tym samym czasie, gdy wypuszczono Transformers, pokazując, że wydajność wzrasta w przewidywalny sposób wraz ze wzrostem ilości obliczeń lub rozmiaru sieci, zjawisko znane obecnie jako prawa skalowania. Te zasady skalowania służyły jako przewodnik do późniejszego badania skali w głębokim uczeniu się, a odkrycie odmian tych praw zaowocowało gwałtownym wzrostem wydajności.

W tym artykule badają, w jaki sposób można poprawić jakość danych wzdłuż innej osi. Wyższa jakość danych daje lepsze wyniki; na przykład czyszczenie danych jest kluczowym krokiem w tworzeniu bieżących zestawów danych i może skutkować stosunkowo mniejszymi zestawami danych lub możliwością przeprowadzania danych przez większą liczbę iteracji. Niedawne badania nad TinyStories, wysokiej jakości zbiorem danych stworzonym sztucznie do nauczania języka angielskiego w sieciach neuronowych, wykazały, że korzyści płynące z wysokiej jakości danych wykraczają daleko poza to. Dzięki radykalnej zmianie praw skalowania poprawiona jakość danych może umożliwić dopasowanie wydajności wielkoskalowych modeli do znacznie szczuplejszych treningów/modeli.

Warto przeczytać! OnePlus Nord CE4 do Motoroli Edge 50 Pro, premiera telefonów planowana jest na kwiecień; Oczekiwana cena, specyfikacja tutaj

W tym badaniu autorzy z Microsoft Research wykazują, że dobrej jakości dane mogą jeszcze bardziej udoskonalić SOTA dużych modeli językowych (LLM), przy jednoczesnym znacznym zmniejszeniu rozmiaru zbioru danych i obliczeń szkoleniowych. Koszt środowiskowy LLM można znacznie zmniejszyć dzięki mniejszym modelom, które wymagają mniej szkoleń. Budują określone funkcje Pythona na podstawie swoich dokumentów, używając LLM przeszkolonych w zakresie kodowania. HumanEval, standard oceny sugerowany w tym ostatnim artykule, był często używany do porównywania wydajności LLM na kodzie.

? Sprawdź narzędzia sztucznej inteligencji firmy 100 w naszym klubie narzędzi sztucznej inteligencji

Demonstrują moc wysokiej jakości danych w łamaniu istniejących praw skalowania, trenując model z parametrami 1,3B, który nazywają phi-1, przez około osiem przejść przez tokeny 7B (nieco ponad 50B ogółem tokenów), a następnie dostrajanie na mniej ponad 200 milionów tokenów. Z grubsza mówiąc, trenują wstępnie na danych „jakości podręcznikowej”, zarówno generowanych syntetycznie (za pomocą GPT-3.5), jak i filtrowanych ze źródeł internetowych, i dostrajają dane „podobne do ćwiczeń podręcznikowych”. Pomimo tego, że są o kilka rzędów wielkości mniejsze od konkurencyjnych modeli, zarówno pod względem zbioru danych, jak i rozmiaru modelu (patrz Tabela 1), osiągają 50,6% dokładności pass@1 w HumanEval i 55,5% dokładności pass@1 w MBPP (głównie podstawowe programy Pythona) , które są jednymi z najlepiej zgłaszanych przez siebie liczb przy użyciu tylko jednej generacji LLM.

Warto przeczytać! Inteligentny oczyszczacz powietrza Xiaomi 4: Pierwsze wrażenie

Trenując model z parametrami 1,3B, który nazwali phi-1 dla około ośmiu przebiegów na tokenach 7B (zaobserwowano nieco ponad 50B tokenów ogółem), a następnie dopracowując mniej niż 200M tokenów, wykazują zdolność wysokiej jakości danych do przeciwstawienia się ustalonym zasady skalowania. Ogólnie rzecz biorąc, trenują wstępnie na danych „podręcznikowej jakości”, które zostały zarówno sztucznie utworzone (za pomocą GPT-3.5), jak i przefiltrowane ze źródeł internetowych, i dostrajają dane „podobne do ćwiczeń podręcznikowych”. Osiągają 50,6% pass@1 dokładności w HumanEval i 55,5% pass@1 dokładności w MBPP (głównie podstawowe programy w języku Python), co jest jednym z najlepiej zgłaszanych przez samych siebie wyników przy użyciu tylko jednej generacji LLM, mimo że jest o kilka rzędów wielkości mniejszy niż konkurencyjne modele.

Sprawdź Papier. Nie zapomnij dołączyć nasz SubReddit o ponad 25 000 ML, Kanał DiscordaI Biuletyn e-mailowy, gdzie dzielimy się najnowszymi wiadomościami z badań nad sztuczną inteligencją, fajnymi projektami AI i nie tylko. Jeśli masz jakiekolwiek pytania dotyczące powyższego artykułu lub jeśli coś przeoczyliśmy, napisz do nas na adres Asif@marktechpost.com

Warto przeczytać! Motorola Edge 50 Neo ma mieć do 512 GB pamięci masowej i 4 wersje kolorystyczne: wszystko, co wiemy do tej pory

? Sprawdź narzędzia AI 100 w AI Tools Club

Aneesh Tickoo jest stażystą konsultingu w MarktechPost. Obecnie kontynuuje studia licencjackie w dziedzinie nauki o danych i sztucznej inteligencji w Indyjskim Instytucie Technologii (IIT) w Bhilai. Większość czasu spędza pracując nad projektami mającymi na celu wykorzystanie mocy uczenia maszynowego. Jego zainteresowania badawcze to przetwarzanie obrazu i pasjonuje się budowaniem wokół niego rozwiązań. Uwielbia kontakt z ludźmi i współpracę przy ciekawych projektach.

? Uwolnij moc Live Proxy: Prywatne, niewykrywalne domowe i mobilne adresy IP.

Źródło