Technologia

Google i Microsoft obstawiają, że Manu Chopra, 27-letni absolwent Stanforda, sprawi, że sztuczna inteligencja będzie działać dla miliarda użytkowników

  • 3 listopada, 2023
  • 9 min read
Google i Microsoft obstawiają, że Manu Chopra, 27-letni absolwent Stanforda, sprawi, że sztuczna inteligencja będzie działać dla miliarda użytkowników


W swoim jednopokojowym domu przy cichej uliczce w Agara, małej wiosce położonej trzy godziny na południowy zachód od Bangalore, otoczonej polami ryżowymi i polami orzeszków ziemnych, Preethi P. siedzi na stołku obok maszyny do szycia. Zwykle spędzała godziny na naprawianiu lub szyciu ubrań, zarabiając średnio mniej niż 1 dolar dziennie za swoją pracę. Jednak tego dnia czyta zdanie w swoim ojczystym języku kannada w aplikacji na telefonie. Robi krótką pauzę, po czym czyta kolejny.

Preethi, która, jak to jest powszechne w regionie, występuje pod jednym nazwiskiem, należy do 70 pracowników zatrudnionych w Agara i sąsiednich wioskach przez start-up o nazwie Karya w celu gromadzenia danych tekstowych, głosowych i obrazowych w rodzimych językach Indii. Należy do ogromnej, niewidocznej na całym świecie siły roboczej działającej w takich krajach jak Indie, Kenia i Filipiny, która gromadzi i oznacza dane, na których opierają się chatboty AI i wirtualni asystenci, aby generować odpowiednie odpowiedzi. Jednak w przeciwieństwie do wielu innych dostawców danych, Preethi otrzymuje dobre wynagrodzenie za swoje wysiłki, przynajmniej według lokalnych standardów.

Po trzech dniach pracy z Karyą Preethi zarobiła 4500 rupii (54 dolarów), czyli ponad czterokrotność kwoty, jaką 22-letni absolwent szkoły średniej zarabia zwykle jako krawiec w ciągu całego miesiąca. Powiedziała, że ​​te pieniądze wystarczą na spłatę miesięcznej raty pożyczki zaciągniętej na częściową naprawę rozpadających się glinianych ścian jej domu, które starannie załatano kolorowymi sari. „Potrzebuję tylko telefonu i Internetu”.

Karya została założona w 2021 r., przed powstaniem ChatGPT, ale tegoroczne szaleństwo wokół generatywnej sztucznej inteligencji tylko zwiększyło nienasycone zapotrzebowanie firm technologicznych na dane. Według Nasscom, krajowej organizacji branżowej branży technologicznej, do 2030 r. w samych Indiach będzie zatrudnionych prawie milion pracowników zajmujących się adnotacjami danych. Karya różni się od innych dostawców danych tym, że oferuje swoim kontrahentom – głównie kobietom i głównie ze społeczności wiejskich – aż 20-krotność obowiązującej płacy minimalnej, z obietnicą tworzenia lepszej jakości danych w języku indyjskim, za uzyskanie których firmy technologiczne zapłacą więcej .

„Każdego roku duże firmy technologiczne wydają miliardy dolarów na gromadzenie danych szkoleniowych dla swoich modeli sztucznej inteligencji i uczenia maszynowego” – powiedział w wywiadzie dla Bloomberga Manu Chopra, 27-letni inżynier komputerowy z wykształceniem na Uniwersytecie Stanforda, stojący za startupem. „Biedny płacenie za taką pracę jest porażką w branży.”

Warto przeczytać!  Snoopgate: jak sprawdzić, czy ktoś zhakował Twój telefon

Jeśli skromne płace są porażką branży, to Dolina Krzemowa ponosi pewną odpowiedzialność za jej utworzenie. Od lat firmy technologiczne zlecają zadania takie jak etykietowanie danych i moderowanie treści tańszym wykonawcom za granicą. Jednak teraz niektóre z najbardziej znanych nazwisk z Doliny Krzemowej zwracają się do firmy Karya, aby uporała się z jednym z największych wyzwań stojących przed ich produktami AI: znalezieniem wysokiej jakości danych w celu zbudowania narzędzi, które będą mogły lepiej służyć miliardom potencjalnych użytkowników nieanglojęzycznych. Partnerstwa te mogą oznaczać potężną zmianę w ekonomice branży danych i relacjach Doliny Krzemowej z dostawcami danych.

Firma Microsoft Corp. korzystała z usługi Karya w celu pozyskiwania lokalnych danych dotyczących mowy na potrzeby swoich produktów AI. Fundacja Billa i Melindy Gatesów współpracuje z Karyą, aby zmniejszyć uprzedzenia związane z płcią w danych, które są wykorzystywane w dużych modelach językowych, czyli technologii stanowiącej podstawę chatbotów AI. Google, należący do Alphabet Inc., korzysta z usług firmy Karya i innych lokalnych partnerów w zakresie gromadzenia danych dotyczących mowy w 85 okręgach Indii. Google planuje rozszerzyć swoją działalność na każdy okręg, aby objąć używany przez większość język lub dialekt, a także zbudować generatywny model sztucznej inteligencji dla 125 języków indyjskich.

Wiele usług AI zostało nieproporcjonalnie rozwiniętych przy użyciu anglojęzycznych danych internetowych, takich jak artykuły, książki i posty w mediach społecznościowych. W rezultacie te modele sztucznej inteligencji słabo odzwierciedlają różnorodność języków użytkowników Internetu w innych krajach, którzy uzyskują dostęp do smartfonów i aplikacji wyposażonych w sztuczną inteligencję szybciej niż uczą się angielskiego. Prawie miliard takich potencjalnych użytkowników mieszka w samych Indiach, ponieważ rząd nalega na wdrożenie narzędzi sztucznej inteligencji w każdej sferze, od opieki zdrowotnej, przez edukację, po usługi finansowe.

„Indie to pierwszy kraj spoza Zachodu, w którym to robimy i testujemy Barda w dziewięciu językach indyjskich” – powiedział Manish Gupta, szef Google Research w Indiach, odnosząc się do firmowego chatbota AI. „Posługuje się ponad 70 językami indyjskimi ponad milion osób miało zerowy korpus cyfrowy. Problem jest tak poważny”.

Gupta wykreślił listę problemów, którymi muszą się zająć firmy zajmujące się sztuczną inteligencją, aby służyć indyjskim użytkownikom Internetu: zbiory danych w językach innych niż angielski są fatalnie niskiej jakości; w języku hindi i innych językach indyjskich nie ma prawie żadnych danych konwersacyjnych; a treści cyfrowe z książek i gazet w językach indyjskich są bardzo ograniczone.

Warto przeczytać!  Lance i Fernando prezentują nowego Astona Martina DB12

W przypadku języków południowoazjatyckich stwierdzono, że niektóre duże modele językowe tworzą słowa i mają problemy z podstawową gramatyką. Istnieją również obawy, że te usługi AI mogą odzwierciedlać bardziej wypaczone spojrzenie na inne kultury. Szeroka reprezentacja danych szkoleniowych, w tym danych w języku innym niż angielski, jest niezwykle istotna, aby systemy sztucznej inteligencji „nie utrwalały szkodliwych stereotypów, nie generowały mowy nienawiści ani nie wprowadzały w błąd” – powiedział Mehran Sahami, profesor na wydziale informatyki na Uniwersytecie Stanforda .

Karya, start-up o oddziaływaniu społecznym z siedzibą w Bangalore i wspierany przez dotacje, jest w stanie poszerzyć pulę reprezentowanych języków, częściowo poprzez skierowanie go szczególnie do pracowników na obszarach wiejskich, którzy w przeciwnym razie nie zostaliby zatrudnieni do takich zadań. Aplikacja Karya może działać bez dostępu do Internetu i zapewnia wsparcie głosowe dla osób z ograniczoną umiejętnością czytania i pisania. W Indiach do aplikacji zalogowało się ponad 32 000 pracowników korzystających z crowdsourcingu, którzy wykonali 40 milionów płatnych zadań cyfrowych, takich jak rozpoznawanie obrazu, dopasowywanie konturów, dodawanie adnotacji wideo i notowanie mowy.

Dla Chopry celem nie jest tylko poprawa dostarczania danych, ale także walka z ubóstwem. Założyciel Karyi dorastał w zubożałej dzielnicy Shakur Basti w zachodnim Delhi. Zdobył stypendium na naukę w elitarnej szkole, gdzie był prześladowany, ponieważ koledzy z klasy mówili, że „biednie śmierdzi”. Chopra wylądował na Uniwersytecie Stanforda, aby studiować informatykę, ale zdał sobie sprawę, że nienawidzi sposobu myślenia w stylu „jak zarabia się miliard dolarów”, z którym się tam spotkał.

Po ukończeniu studiów w 2017 r. rozpoczął pracę nad swoim od dawna zainteresowaniem: wykorzystaniem technologii w walce z ubóstwem. „Wystarczą zaledwie 1500 dolarów oszczędności, aby Hindus mógł wejść do klasy średniej” – stwierdził Chopra. „Ale biednym może zająć 200 lat, zanim osiągnie ten poziom oszczędności”.

Dowiedział się, że Microsoft płaci ogromne kwoty za zbieranie danych dotyczących mowy, choć niskiej jakości, na potrzeby systemów sztucznej inteligencji i badań. Na przykład w 2017 r., mimo że w języku marathi, języku używanym w Bombaju i zachodnich Indiach, dostępnych było 1 milion godzin cyfrowych danych mówionych, do kupienia było tylko 165 godzin. Od tego czasu jego startup zebrał 10 000 godzin danych dotyczących mowy w języku marathi na potrzeby usług sztucznej inteligencji Microsoftu, czytanych przez mężczyzn i kobiety z pięciu różnych regionów.

Warto przeczytać!  Google opóźnia rywala OpenAI, Gemini AI: raport

„Firmy technologiczne chcą danych, akcentu i w ogóle” – powiedział Chopra. „Kaszlesz, oni chcą tego w przemówieniu – reprezentuje to język naturalny”. Saikat Guha, badacz z Microsoft Research India, który koncentruje się na etyce gromadzenia danych, powiedział, że wykorzystał treści Karyi także w projekcie mającym na celu pomoc osobom z niepełnosprawnością wzroku w znalezieniu pracy. „Jakość danych jest znacznie lepsza niż w przypadku jakiegokolwiek innego źródła, z którego korzystałem” – stwierdził Guha. „Jeśli uczciwie płacisz pracownikom, są oni bardziej zaangażowani w swoją pracę, a efektem końcowym są lepsze dane”.

Tymczasem ponad 30 000 młodych kobiet z wykształceniem szkolnym współpracuje z Karyą, aby pomóc w gromadzeniu zbiorów danych „zamierzonych pod kątem płci” – na przykład mówiących, że lekarz lub szef nie zawsze to on – w sześciu językach indyjskich dla Fundacji Billa i Melindy Gatesów. to największe tego typu przedsięwzięcie w językach indyjskich i posłuży jako korpus do tworzenia zbiorów danych w celu ograniczenia uprzedzeń związanych z płcią w szkołach wyższych.Karya nie poprzestaje na Indiach. Firma twierdzi, że prowadzi rozmowy w sprawie sprzedaży swojej platformy jako usługi organizacjom w Afryce i Ameryce Południowej, które wykonają podobną pracę.

Na razie kobiety w Yelandur, kolejnej wiosce na południowy zachód od Bangalore, z niecierpliwością czekają na kolejny projekt Karyi: transkrypcję nagrania audio w języku kannada. Wśród nich jest Shambhavi S., lat 25, która zarobiła kilka tysięcy rupii w ramach poprzedniego zadania, pracując w zaciszu własnego domu, po tym jak nakarmiła teściów obiadem i położyła dzieci do łóżka.

„Nie wiem, czym jest sztuczna inteligencja, nie słyszałem o niej” – powiedział Shambhavi. „Chcę zarabiać i kształcić moje dzieci, aby mogły nauczyć się z niej korzystać”.

Alarm kamienia milowego!Livemint zajmuje pierwsze miejsca na listach przebojów jako najszybciej rozwijający się serwis informacyjny na świecie ? Kliknij tutaj wiedzieć więcej.


Źródło