Biznes

Dlaczego ten startup zajmujący się sztuczną inteligencją stawia na boty sterowane głosem, aby zwiększyć skalę wdrażania sztucznej inteligencji w Indiach

  • 13 sierpnia, 2024
  • 5 min read
Dlaczego ten startup zajmujący się sztuczną inteligencją stawia na boty sterowane głosem, aby zwiększyć skalę wdrażania sztucznej inteligencji w Indiach


Jeśli na Twoim rynku docelowym obowiązują 22 języki urzędowe, a jego mieszkańcy posługują się ponad 19 000 dialektami, czy ma sens oferowanie chatbota opartego na sztucznej inteligencji, który obsługuje wyłącznie tekst, a który najlepiej sprawdzi się w kilku językach?

To jest pytanie, nad rozwiązaniem którego indyjski startup AI Sarvam pracował i we wtorek uruchomił serię ofert, w tym bota AI z obsługą głosu, który obsługuje ponad 10 języków indyjskich, zakładając, że mieszkańcy kraju woleliby rozmawiać z modelem AI w swoim własnym języku niż rozmawiać z nim przez tekst. Startup uruchamia również mały model językowy, narzędzie AI dla prawników, a także model audio-językowy.

„Ludzie wolą mówić w swoim własnym języku. Pisanie w językach indyjskich jest dziś niezwykle trudne” – powiedział Vivek Raghavan, współzałożyciel Sarvam AI, w wywiadzie dla TechCrunch.

Startup z siedzibą w Bengaluru, który kieruje swoją ofertę głównie do firm i przedsiębiorstw, oferuje swoje boty AI z obsługą głosu dla wielu branż, szczególnie tych, które polegają na obsłudze klienta. Jako przykład podał jednego ze swoich klientów: Sri Mandir, startup oferujący treści religijne, korzysta z agenta AI firmy Sarvam do akceptowania płatności i do tej pory przetworzył ponad 270 000 transakcji.

Warto przeczytać!  Koniec uzależnienia Polski od rosyjskich surowców. To konsekwencja działań Orlenu

Firma poinformowała, że ​​jej agenci głosowi wykorzystujący sztuczną inteligencję mogą być wdrażani w WhatsAppie, w ramach aplikacji, a nawet obsługiwać tradycyjne połączenia głosowe.

Dzięki wsparciu Peak XV i Lightspeed firma Sarvam planuje ustalić cenę swoich agentów AI na poziomie 1 rupii (ok. 1 centa) za minutę użytkowania.

Źródła obrazów: Sarwam

Startup buduje swoich agentów AI z obsługą głosu na fundamencie małego modelu językowego, zwanego Sarvam 2B, który jest trenowany na zestawie danych 4 bilionów tokenów. Według Raghavana model jest całkowicie trenowany na danych syntetycznych.

Eksperci od AI często radzą zachować ostrożność podczas korzystania z danych syntetycznych — zasadniczo danych generowanych przez duży model językowy, którego celem jest replikacja danych ze świata rzeczywistego — do trenowania innych modeli AI, ponieważ LLM mają tendencję do halucynacji i tworzenia informacji, które mogą nie być dokładne. Trenowanie modeli AI na takich danych może nasilać takie niedokładności.

Raghavan powiedział, że Sarvam zdecydował się na użycie danych syntetycznych ze względu na niezwykle ograniczoną dostępność treści w języku indyjskim w otwartej sieci. Startup opracował modele do czyszczenia i ulepszania danych pierwotnie użytych do wygenerowania zestawów danych syntetycznych, dodał.

Warto przeczytać!  Kursy walut 27.01.: szaleństwo trwa! To nie koniec, złoty jeszcze ucierpi… Sprawdź, ile za jedno euro (EUR), jena (JPY), dolara (USD), funta (GBP), franka (CHF), forinta (HUF), koronę (CZK)

Założyciel twierdził, że Sarvam 2B będzie kosztował dziesiątą część wszystkiego, co jest porównywalne w branży. Startup udostępnia model jako open source, mając nadzieję, że społeczność będzie go dalej rozwijać.

„Podczas gdy duże modele podstawowe języka są bardzo ekscytujące, możesz osiągnąć lepsze, bardziej szczegółowe, tańsze i o zmniejszonym opóźnieniu doświadczenie, używając małych modeli języka” — powiedział Raghavan. „Jeśli chcesz wykonać jedno lub dwa zapytania w ciągu tygodnia lub miesiąca, powinieneś użyć dużych modeli języka. Ale w przypadku przypadków użycia wymagających milionów codziennych interakcji uważam, że mniejsze modele są bardziej odpowiednie”.

Startup wprowadza również model audio-językowy o nazwie Shuka, zbudowany na dekoderze audio Saaras v1 i Meta’s Llama-3-8B Instruct. Model ten jest również udostępniany jako open source, więc deweloperzy mogą używać tłumaczenia, TTS i innych modułów startupu do budowania interfejsów głosowych.

Istnieje także inny produkt o nazwie „A1” — generatywne środowisko pracy oparte na sztucznej inteligencji przeznaczone dla prawników, umożliwiające wyszukiwanie przepisów, tworzenie dokumentów, ich redagowanie i wyodrębnianie danych.

Sarvam należy do niewielkiej grupy indyjskich startupów, które opowiadają się za przypadkami użycia zgodnymi z interesami kraju i wspierają działania rządu mające na celu opracowanie własnej, dostosowanej do potrzeb infrastruktury AI.

Warto przeczytać!  Powstaje pierwsze polskie centrum logistyczne Gilog

Rządy na całym świecie coraz częściej dążą do „suwerennej sztucznej inteligencji” — infrastruktury sztucznej inteligencji, która jest rozwijana i kontrolowana na szczeblu krajowym. Rzekomym celem takich wysiłków jest ochrona prywatności danych, stymulowanie wzrostu gospodarczego i dostosowywanie rozwoju sztucznej inteligencji do kontekstów kulturowych. Stany Zjednoczone i Chiny mają obecnie największe inwestycje w tej przestrzeni, a Indie podążają za nimi ze swoim programem „IndiaAI” i modelami specyficznymi dla danego języka.

Jedną z inicjatyw w ramach programu IndiaAI jest IndiaAI Compute Capacity, a plan zakłada utworzenie superkomputera zasilanego przez co najmniej 10 000 GPU. Jeden z opracowywanych modeli, nazwany Bhashini, ma na celu demokratyzację dostępu do usług cyfrowych w różnych językach indyjskich.

Raghavan powiedział, że jego startup jest gotowy do wniesienia wkładu do programu IndiaAI. „Jeśli nadarzy się okazja, będziemy współpracować z rządem” – powiedział w wywiadzie.


Źródło