Biznes

Co w ogóle oznacza „sztuczna sztuczna inteligencja typu open source”?

  • 22 czerwca, 2024
  • 9 min read
Co w ogóle oznacza „sztuczna sztuczna inteligencja typu open source”?


Walka pomiędzy oprogramowaniem open source a oprogramowaniem prawnie zastrzeżonym jest dobrze rozumiana. Jednak napięcia przenikające kręgi oprogramowania od dziesięcioleci przeniosły się do przestrzeni sztucznej inteligencji, po części dlatego, że nikt nie może zgodzić się co do tego, co tak naprawdę oznacza „otwarte oprogramowanie” w kontekście sztucznej inteligencji.

„The New York Times” opublikował niedawno entuzjastyczną ocenę dyrektora generalnego Meta, Marka Zuckerberga, zauważając, że jego podejście do sztucznej inteligencji typu open source zapewniło mu ponowną popularność w Dolinie Krzemowej. Jednak według większości szacunków duże modele językowe marki Meta firmy Meta nie są tak naprawdę oprogramowaniem typu open source, co podkreśla sedno debaty.

Właśnie temu wyzwaniu stara się sprostać Inicjatywa Open Source (OSI), pod przewodnictwem dyrektora wykonawczego Stefano Maffulli (na zdjęciu powyżej), poprzez konferencje, warsztaty, panele, seminaria internetowe, raporty i nie tylko.

Sztuczna inteligencja to nie kod oprogramowania

Kredyty obrazkowe: Westend61 przez Getty

OSI od ponad ćwierć wieku zarządza definicją open source (OSD), określającą, w jaki sposób termin „open source” może lub powinien być stosowany w odniesieniu do oprogramowania. Licencję zgodną z tą definicją można zgodnie z prawem uznać za „otwarte oprogramowanie”, chociaż obejmuje ona całe spektrum licencji, od niezwykle liberalnych po niezbyt liberalne.

Jednak przeniesienie starszych konwencji licencyjnych i nazewnictwa z oprogramowania na sztuczną inteligencję jest problematyczne. Joseph Jacks, ewangelista open source i założyciel firmy VC OSS Capital, posuwa się nawet do stwierdzenia, że ​​„nie ma czegoś takiego jak sztuczna inteligencja o otwartym kodzie źródłowym”, zauważając, że „otwarte oprogramowanie zostało wynalezione specjalnie dla kodu źródłowego oprogramowania”. Co więcej, „wagi sieci neuronowej” (NNW) — termin używany w świecie sztucznej inteligencji do opisania parametrów lub współczynników, dzięki którym sieć uczy się podczas procesu uczenia — nie są w żaden znaczący sposób porównywalne z oprogramowaniem.

„Wagi sieci neuronowych nie są kodem źródłowym oprogramowania; są nieczytelne dla człowieka, [and they are not] debuggowalne” – zauważa Jacks. „Co więcej, podstawowe prawa otwartego oprogramowania również nie przekładają się na NNW w żaden spójny sposób”.

Te niespójności skłoniły Jacksa i koleżankę z OSS Capital w zeszłym roku, Heather Meeker, do opracowania własnej definicji, opartej na pojęciu „otwartych ciężarów”. A Maffulli, jeśli to ma znaczenie, zgadza się z nimi. „To prawda” – powiedział TechCrunch. „Jedna z pierwszych debat, jakie odbyliśmy, dotyczyła tego, czy w ogóle nazywać to sztuczną inteligencją typu open source, ale wszyscy już używali tego terminu”.

Warto przeczytać!  Kliknij, aby dowiedzieć się więcej o Raghunandanie Srinivasie Kamacie, właścicielu Naturals Ice Cream
Ilustracja lamy
Kredyty obrazkowe: Larysa Amosova przez Getty

Założona w 1998 roku OSI jest organizacją pożytku publicznego non-profit, która prowadzi niezliczoną ilość działań związanych z oprogramowaniem open source, obejmujących rzecznictwo, edukację i jej podstawową rację bytu: definicję otwartego oprogramowania. Dziś organizacja opiera się na sponsoringu i ma tak cenionych członków, jak Amazon, Google, Microsoft, Cisco, Intel, Salesforce i Meta.

Zaangażowanie Meta w OSI jest obecnie szczególnie godne uwagi, ponieważ odnosi się do pojęcia „sztucznej inteligencji o otwartym kodzie źródłowym”. Pomimo tego, że Meta zawiesiła kapelusz AI na kołku open source, firma nałożyła znaczące ograniczenia dotyczące sposobu korzystania z modeli lamy: oczywiście, można ich używać bezpłatnie do celów badawczych i zastosowań komercyjnych, ale twórcy aplikacji z ponad 700 milionów użytkowników miesięcznie musi zwrócić się do Meta o specjalną licencję, której udzieli ona wyłącznie według własnego uznania.

Język Meta wokół LLM jest dość plastyczny. Chociaż firma nazwała swój model Llama 2 open source, wraz z pojawieniem się Llama 3 w kwietniu wycofała się nieco z terminologii, używając zamiast tego wyrażeń takich jak „otwarto dostępne” i „otwarto dostępne”. Jednak w niektórych miejscach nadal odnosi się do modelu jako „open source”.

„Wszyscy inni biorący udział w rozmowie całkowicie zgadzają się, że samej Lamy nie można uznać za oprogramowanie typu open source” – powiedział Maffulli. „Ludzie, z którymi rozmawiałem, którzy pracują w Meta, wiedzą, że to trochę naciągane”.

Co więcej, niektórzy mogą twierdzić, że zachodzi tu konflikt interesów: firma, która wykazała chęć wykorzystania marki open source, zapewnia również środki finansowe stewardom „definicji”?

Jest to jeden z powodów, dla których OSI stara się dywersyfikować swoje finansowanie, uzyskując niedawno grant od Fundacji Sloan, która pomaga finansować jego globalne wysiłki skupiające wiele zainteresowanych stron na rzecz osiągnięcia definicji sztucznej inteligencji typu open source. TechCrunch może ujawnić, że kwota tej dotacji wynosi około 250 000 dolarów, a Maffulli ma nadzieję, że może to zmienić optykę dotyczącą jej zależności od finansowania korporacyjnego.

„To jedna z rzeczy, które dzięki dotacji Sloana stają się jeszcze wyraźniejsze: w każdej chwili możemy pożegnać się z pieniędzmi Meta” – powiedział Maffulli. „Moglibyśmy to zrobić jeszcze przed przyznaniem Sloan Grant, ponieważ wiem, że będziemy otrzymywać datki od innych. I Meta wie o tym bardzo dobrze. Nie ingerują w to wszystko [process]ani Microsoft, ani GitHub, Amazon czy Google – oni absolutnie wiedzą, że nie mogą się wtrącać, ponieważ struktura organizacji na to nie pozwala.

Warto przeczytać!  TikTok limit czasu dla dzieci

Robocza definicja sztucznej inteligencji typu open source

Ilustracja koncepcyjna przedstawiająca znalezienie definicji
Kredyty obrazkowe: Aleksiej Morozow / Getty Images

Obecny projekt definicji AI Open Source znajduje się w wersji 0.0.8 i składa się z trzech głównych części: „preambuły”, która określa zakres dokumentu; sama definicja sztucznej inteligencji typu open source; oraz listę kontrolną zawierającą komponenty wymagane w przypadku systemu AI zgodnego z otwartym kodem źródłowym.

Zgodnie z obecnym projektem system sztucznej inteligencji typu open source powinien zapewniać swobodę korzystania z systemu w dowolnym celu bez konieczności ubiegania się o pozwolenie; umożliwienie innym zbadania, jak działa system i sprawdzenie jego komponentów; oraz modyfikować i udostępniać system w dowolnym celu.

Jednak jedno z największych wyzwań dotyczy danych — to znaczy, czy system sztucznej inteligencji można sklasyfikować jako „otwarte źródło”, jeśli firma nie udostępniła innym osobom zbioru danych szkoleniowych? Według Maffulli ważniejsza jest wiedza, skąd pochodzą dane oraz w jaki sposób programista je oznaczył, usunął duplikaty i przefiltrował. A także dostęp do kodu użytego do złożenia zbioru danych z różnych źródeł.

„O wiele lepiej jest znać te informacje, niż mieć zwykły zbiór danych bez reszty” – stwierdził Maffulli.

Chociaż posiadanie dostępu do pełnego zbioru danych byłoby miłe (OSI czyni ten komponent „opcjonalnym”), Maffulli twierdzi, że w wielu przypadkach nie jest to możliwe lub praktyczne. Może to wynikać z faktu, że w zestawie danych znajdują się informacje poufne lub chronione prawem autorskim, na których rozpowszechnianie deweloper nie ma pozwolenia. Co więcej, istnieją techniki uczenia modeli uczenia maszynowego, w ramach których same dane nie są w rzeczywistości udostępniane systemowi, przy użyciu technik takich jak uczenie się stowarzyszone, prywatność różnicowa i szyfrowanie homomorficzne.

To doskonale podkreśla fundamentalne różnice pomiędzy „oprogramowaniem open source” a „sztuczną inteligencją open source”: intencje mogą być podobne, ale nie są porównywalne i tę rozbieżność stara się uchwycić OSI w swoich definicja.

W oprogramowaniu kod źródłowy i kod binarny to dwa widoki tego samego artefaktu: odzwierciedlają ten sam program w różnych formach. Jednak zestawy danych szkoleniowych i kolejne wyszkolone modele to dwie różne rzeczy: możesz użyć tego samego zestawu danych i niekoniecznie będziesz w stanie konsekwentnie odtworzyć ten sam model.

Warto przeczytać!  Wiadomości z rynku akcji i akcji, Wiadomości z gospodarki i finansów, Sensex, Nifty, Rynek globalny, NSE, BSE Wiadomości z IPO na żywo

„Podczas szkolenia zachodzi różnorodna logika statystyczna i losowa, co oznacza, że ​​nie można go odtworzyć w taki sam sposób, jak w przypadku oprogramowania” – dodał Maffulli.

Dlatego system sztucznej inteligencji typu open source powinien być łatwy do replikacji i zawierać jasne instrukcje. I tu właśnie wchodzi w grę aspekt listy kontrolnej definicji AI Open Source, oparty na niedawno opublikowanym artykule akademickim zatytułowanym „The Model Openness Framework: Proming Completeness and Openness for Reproducibility, Transparency, and Usability in Artificial Intelligence”.

W artykule zaproponowano Model Openness Framework (MOF), system klasyfikacji, który ocenia modele uczenia maszynowego „na podstawie ich kompletności i otwartości”. MF żąda, aby określone elementy opracowywania modelu sztucznej inteligencji „włączano i udostępniano w ramach odpowiednich otwartych licencji”, w tym metodologii szkoleniowych i szczegółów dotyczących parametrów modelu.

Stan stabilny

Stefano Maffulli występujący na szczycie członków Digital Public Goods Alliance (DPGA) w Addis Abebie
Stefano Maffulli występujący na szczycie członków Digital Public Goods Alliance (DPGA) w Addis Abebie.
Kredyty obrazkowe: OSI

OSI nazywa oficjalne wprowadzenie definicji „wersją stabilną”, podobnie jak zrobi to firma z aplikacją, która przeszła szeroko zakrojone testy i debugowanie przed premierą. OSI celowo nie nazywa go „wersją ostateczną”, ponieważ jego części prawdopodobnie ulegną ewolucji.

„Naprawdę nie możemy oczekiwać, że ta definicja będzie obowiązywać przez 26 lat, tak jak definicja Open Source” – powiedział Maffulli. „Nie oczekuję górnej części definicji – np. „Co to jest system sztucznej inteligencji?” – wiele zmienić. Ale części, do których odnosimy się na liście kontrolnej, te listy komponentów, zależą od technologii? Kto wie, jak jutro będzie wyglądać ta technologia.

Oczekuje się, że stabilna definicja sztucznej inteligencji Open Source zostanie podpieczętowana przez zarząd na konferencji All Things Open pod koniec października, a OSI wyruszy w globalne objazdowe wydarzenie w międzyczasie, obejmujące pięć kontynentów, w poszukiwaniu bardziej „zróżnicowanego wkładu” na temat tego, jak „sztuczna sztuczna inteligencja typu open source” będzie definiowana w przyszłości. Jednak wszelkie ostateczne zmiany będą prawdopodobnie niczym więcej niż „drobnymi poprawkami” tu i ówdzie.

„To już ostatni etap” – powiedział Maffulli. „Osiągnęliśmy pełną wersję definicji; mamy wszystkie potrzebne elementy. Teraz mamy listę kontrolną, więc sprawdzamy, czy nie ma w niej niespodzianek; nie ma systemów, które należy uwzględnić lub wykluczyć.”


Źródło