Technologia

Nowy model języka AI Phi-3-mini firmy Microsoft działa na iPhonie

  • 25 kwietnia, 2024
  • 4 min read
Nowy model języka AI Phi-3-mini firmy Microsoft działa na iPhonie


Najnowszy model małego języka firmy Microsoft pokazuje postęp technologii w miarę jak przedsiębiorstwa oceniają wewnętrzne wykorzystanie generatywnych modeli sztucznej inteligencji w celu zwiększenia wydajności operacji biznesowych.

W tym tygodniu Microsoft wprowadził na rynek Phi-3-mini, pierwszy z trzech modeli małych języków (SLM) pochodzących z działu badawczego firmy. Nowy model jest najmniejszym z całej trójki i ma 3,8 miliarda parametrów. Nadchodzące SLM to Phi-3-small (7 miliardów parametrów) i Phi-3-medium (14 miliardów parametrów).

Phi-3-mini jest dostępny w katalogu modeli Azure AI Studio firmy Microsoft oraz w witrynie dla programistów sztucznej inteligencji Hugging Face. Microsoft planuje wkrótce dodać do katalogu pozostałe dwa modele.

Koszt korzystania z dużych modeli językowych (LLM) składających się z setek miliardów parametrów u dostawców usług w chmurze AWS, Google i Microsoft powoduje, że wiele przedsiębiorstw ocenia SLM jako tańszą alternatywę. Projekt Phi firmy Microsoft odzwierciedla przekonanie firmy, że klienci korporacyjni będą w końcu chcieli mieć wybór wielu modeli.

„Niektórzy klienci mogą potrzebować tylko małych modeli, niektórzy będą potrzebować dużych modeli, a wielu będzie chciało połączyć oba na różne sposoby” – powiedział Luis Vargas, wiceprezes ds. sztucznej inteligencji w Microsoft, w artykule opublikowanym na stronie internetowej firmy .

Warto przeczytać!  Ogłoszono wyprzedaż Flipkart Mega June Bonanza: daty, rabaty i więcej

Microsoft wymienia kilka udoskonaleń SLM związanych z Phi-3-mini. W raporcie technicznym badacze twierdzą, że jego jakość „wydaje się porównywalna” z Mixtral 8x7B firmy Mistral AI z 45 miliardami parametrów i ChatGPT 3.5 firmy OpenAI z około 22 miliardami parametrów.

Badacze donieśli także, że Phi-3-mini działa na telefonie Apple iPhone 14 wyposażonym w chip A16 Bionic. W modelu wykorzystano 1,8 GB pamięci.

Naukowcy przypisali wydajność Phi-3-mini swojej metodologii szkolenia. Wytrenowali model na mocno przefiltrowanych danych internetowych z otwartych źródeł internetowych i danych syntetycznych generowanych przez LLM. Ten pierwszy wyposażył model w wiedzę ogólną, a drugi wyszkolił go w zakresie logicznego rozumowania i różnych umiejętności niszowych.

Zastosowania Phi-3-mini obejmują dostarczanie podsumowań długich dokumentów lub trendów w raportach z badań rynkowych. Ponadto działy marketingu i sprzedaży mogłyby wykorzystać go do pisania opisów produktów lub postów w mediach społecznościowych. Phi-3-mini może również stanowić podstawę chatbota klienta, który będzie odpowiadać na podstawowe pytania dotyczące produktów i usług.

Chociaż model Phi-3-mini osiąga podobny poziom zrozumienia języka jak większe modele, ma ograniczenia polegające na tym, że nie ma możliwości przechowywania tak dużej ilości informacji jak modele LLM. Ponadto, zgodnie z raportem technicznym, ten mały model jest dostępny wyłącznie w języku angielskim.

Warto przeczytać!  Nowy gadżet Reliance Jio, „ostrzeżenie Apple przed oprogramowaniem szpiegującym”, nowy komputer firmy Microsoft w Indiach i inne najważniejsze wiadomości tygodnia

SLM w centrum danych

Eksperci twierdzą, że Microsoft i inni dostawcy modeli zdają sobie sprawę, że LLM to przesada w przypadku wielu zadań AI, które przedsiębiorstwa mogą wykonywać wewnętrznie na serwerze AI w centrum danych.

„Firmy modelarskie starają się znaleźć właściwą równowagę między wydajnością i rozmiarem modeli w stosunku do kosztów ich eksploatacji” – powiedział analityk firmy Gartner, Arun Chandrasekaran.

Ostatecznie przedsiębiorstwa będą wybierać spośród różnych typów modeli, w tym open source oraz zastrzeżonych LLM i SLM, powiedział Chandrasekaran. Jednak wybór modelu to tylko pierwszy krok w przypadku wewnętrznego uruchomienia AI.

Inne kroki obejmują wybór narzędzi do monitorowania i dostrajania danych wyjściowych modelu oraz zapobiegania wyciekom wrażliwych danych z modeli. Do tego dochodzi koszt infrastruktury, w tym serwerów GPU oraz związanej z nimi pamięci masowej i sieci.

„Trzeba wykonać dużo pracy” – powiedział Chandrasekaran.

Przedsiębiorstwa działające w oparciu o modele chmurowe będą miały możliwość skorzystania z narzędzi dostawcy. Na przykład firma Microsoft niedawno wprowadziła narzędzia programistyczne GenAI w Azure AI Studio, które wykrywają błędne dane wyjściowe modelu i monitorują dane wejściowe użytkowników oraz odpowiedzi modelu.

Warto przeczytać!  Telefon Nothing (2) Oficjalnie ujawniono oś czasu premiery; Założyciel Carl Pei potwierdza telefon (1) Następca będzie More Premium

Niezależnie od tego, czy model znajduje się w chmurze, czy w centrum danych, przedsiębiorstwa muszą opracować ramy oceny zwrotu z inwestycji – twierdzą eksperci.

Antone Gonsalves jest głównym redaktorem TechTarget Editorial, piszącym o trendach branżowych kluczowych dla nabywców technologii dla przedsiębiorstw. Od 25 lat pracuje w dziennikarstwie technicznym i mieszka w San Francisco.


Źródło