Biznes

Sarvam AI uruchamia pierwszy w Indiach model podstawowy Open Source

  • 13 sierpnia, 2024
  • 5 min read
Sarvam AI uruchamia pierwszy w Indiach model podstawowy Open Source


Działający w Bengaluru startup zajmujący się sztuczną inteligencją, Sarvam AI, niedawno ogłosił uruchomienie pierwszego w Indiach modelu open source, zbudowanego całkowicie od podstaw.

Startup, który w zeszłym roku pozyskał 41 milionów dolarów od takich inwestorów jak Lightspeed, Peak XV Partners i Khosla Ventures, wierzy w koncepcję suwerennej sztucznej inteligencji i tworzy modele AI dostosowane do konkretnych potrzeb i unikalnych przypadków użycia w danym kraju.

Model o nazwie Sarvam 2B jest trenowany na 4 bilionach tokenów danych. Może przyjmować instrukcje w 10 językach indyjskich, w tym hindi, tamilskim, telugu, malajalam, pendżabskim, odia, gudżarati, marathi, kannada i bengalskim.

Według Viveka Raghavana Sarvam 2B należy do klasy małych modeli językowych (SLM), do której należą modele z serii Phi firmy Microsoft, Llama 3 8 mld i modele Gemma firmy Google.

„To pierwszy podstawowy model typu open source trenowany na wewnętrznym zestawie danych składającym się z 4 bilionów tokenów przez indyjską firmę, z obliczeniami w Indiach i wydajną reprezentacją dla 10 języków indyjskich” – powiedział Raghavan CEL w interakcji przed ogłoszeniem.

Model, który będzie dostępny na Hugging Face, doskonale nadaje się do zadań w języku indyjskim, takich jak tłumaczenie, podsumowywanie i rozumienie wypowiedzi potocznych. Startup udostępnia model jako open-source, aby ułatwić dalsze badania i rozwój oraz wspierać tworzenie aplikacji opartych na nim.

Warto przeczytać!  Wyniki za IV kwartał: od Infosys, Bajaj Auto i Wipro po HDFC Bank — spojrzenie na harmonogram wyników w tym tygodniu

Wcześniej Tech Mahindra wprowadził swój podstawowy model Project Indus, podczas gdy Krutrim również opracował własny podstawowy model od podstaw. Jednak żaden z tych modeli nie jest open-source.

Pierwszy w Indiach program AudioLM typu Open Source

Startup, który Raghavan założył wspólnie z Pratyushem Kumarem, wierzy również, że w Indiach konsumenci będą korzystać z generatywnej AI za pośrednictwem trybu głosowego, a nie tekstowego. Podczas wydarzenia zorganizowanego w ITC Gardenia w Bengaluru 13 sierpnia startup ogłosił Shuka 1.0 – pierwszy w Indiach model języka audio typu open source.

Model ten stanowi rozszerzenie audio modelu Llama 8B i obsługuje głos i tekst w języku indyjskim, co jest dokładniejsze niż w przypadku modeli Frontier.

„Dźwięk służy jako wejście do LLM, a tokeny audio są tutaj kluczowym elementem. To podejście jest wyjątkowo wyjątkowe. Jest nieco podobne do tego, co GPT-4o wprowadziło OpenAI kilka miesięcy temu” — powiedział Raghavan.

Według startupu model ten jest 6 razy szybszy niż Whisper + Llama 3. Jednocześnie jego dokładność we wszystkich 10 językach jest wyższa w porównaniu do Whisper+ Llama 3.

Wcześniej startup szeroko sugerował opracowanie generatywnego modelu AI z obsługą głosu. Startupy i firmy, które chcą włączyć doświadczenia głosowe do swoich usług, mogą wykorzystać to narzędzie, szczególnie w przypadku języków indyjskich.

Warto przeczytać!  Dalsze hamowanie. Eurostat podał dane o inflacji w strefie euro

Raghavan dodał również, że celem firmy jest nadanie modelowi bardziej ludzkiego brzmienia w nadchodzących miesiącach.

Agenci Sarvam są tutaj

Innym ciekawym wydarzeniem ogłoszonym przez startup jest Sarvam Agents. Raghavan uważa, że ​​prawdziwym przypadkiem użycia AI nie jest forma chatbotów, ale AI wykonująca rzeczy w czyimś imieniu.

„Agenci Sarvam będą wielojęzycznymi agentami głosowymi zaprojektowanymi do rozwiązywania konkretnych problemów biznesowych. Będą dostępni w trzech kanałach – mogą być dostępni przez telefon, mogą być dostępni przez WhatsApp i mogą być dostępni w aplikacji” – powiedział Raghavan.

Agenci ci są również dostępni w 10 językach indyjskich, a koszt tych agentów głosowych zaczyna się od minimalnego kosztu zaledwie 1 INR/min. Ci agenci AI mogą być wdrażani przez centra kontaktowe lub zespoły sprzedaży różnych przedsiębiorstw itp.

Choć te agencje mogą przypominać istniejące na rynku produkty oparte na sztucznej inteligencji konwersacyjnej, Raghavan twierdzi, że ich architektura, wykorzystująca wiele opracowanych wewnętrznie modeli LLM, sprawia, że ​​różnią się one zasadniczo.

„Agenci ci mogą być również bardzo kontekstowi. Na przykład, gdy jesteś na konkretnej stronie, naciskasz przycisk, aby uzyskać więcej informacji o konkretnym elemencie. Agent będzie świadomy kontekstu, więc będzie wiedział, skąd pytasz. Natomiast gdy dzwonisz pod jakiś numer, zaczyna od zera bez tego kontekstu” – powiedział.

Warto przeczytać!  Taka będzie czternasta emerytura 2023 - zobacz wyliczenia netto. Tyle "na rękę" wypłaci ZUS [31.05.2023 r.]

Modele Sarvam Pszczoła

Chociaż zarówno Sarvam 2B, jak i Shuka 1.0 są modelami typu open source, Sarvam.ai udostępnia szereg indyjskich modeli o zamkniętym kodzie źródłowym, używanych przy tworzeniu agentów Sarvam, gotowych do wykorzystania jako interfejsy API.

„Obejmują one pięć zestawów modeli. Opowiem o trzech najważniejszych. Nasz pierwszy model, model zamiany mowy na tekst, tłumaczy mówione języki indyjskie na angielski z dużą dokładnością, przewyższając tradycyjne systemy ASR. Drugi model to model zamiany tekstu na mowę, który zamienia tekst na mowę, oferując różne głosy w wielu językach, ze spójnymi lub zróżnicowanymi opcjami w zależności od preferencji” — powiedział Raghavan.

Trzeci model to model parsowania zaprojektowany do ekstrakcji dokumentów wysokiej jakości. Ten model rozwiązuje typowe problemy ze złożonymi danymi, mając na celu poprawę dokładności parsowania sprawozdań finansowych i innych skomplikowanych dokumentów.

Wśród innych zapowiedzi startupu znalazło się generatywne środowisko pracy oparte na sztucznej inteligencji, przeznaczone dla prawników, które ma na celu rozszerzenie ich możliwości o takie funkcje, jak czat regulacyjny, redagowanie dokumentów, redagowanie i ekstrakcja danych.


Źródło