Technologia

Google Bard AI – jakie strony wykorzystano do szkolenia?

  • 10 lutego, 2023
  • 10 min read
Google Bard AI – jakie strony wykorzystano do szkolenia?


Google Bard opiera się na modelu językowym LaMDA, wytrenowanym na zbiorach danych opartych na treściach internetowych o nazwie Infiniset, z których bardzo niewiele wiadomo o tym, skąd pochodzą dane i jak je zdobyły.

Artykuł badawczy LaMDA z 2022 r. wymienia procent różnych rodzajów danych wykorzystywanych do szkolenia LaMDA, ale tylko 12,5% pochodzi z publicznego zbioru danych zindeksowanych treści z sieci, a kolejne 12,5% pochodzi z Wikipedii.

Google celowo nie precyzuje, skąd pochodzi reszta zebranych danych, ale istnieją wskazówki, jakie witryny znajdują się w tych zbiorach danych.

Zestaw danych Infiniset firmy Google

Google Bard opiera się na modelu języka o nazwie LaMDA, który jest skrótem od Model językowy dla aplikacji dialogowych.

LaMDA został przeszkolony na zbiorze danych o nazwie Infiniset.

Infiniset to mieszanka treści internetowych, która została celowo wybrana, aby zwiększyć zdolność modelu do angażowania się w dialog.

Artykuł badawczy LaMDA (PDF) wyjaśnia, dlaczego wybrali tę kompozycję treści:

„…ta kompozycja została wybrana, aby uzyskać lepszą wydajność w zadaniach dialogowych…przy jednoczesnym zachowaniu zdolności do wykonywania innych zadań, takich jak generowanie kodu.

W ramach przyszłej pracy możemy zbadać, w jaki sposób wybór tej kompozycji może wpłynąć na jakość niektórych innych zadań NLP wykonywanych przez model”.

Artykuł naukowy odnosi się do dialog I dialogiczyli pisownia słów użytych w tym kontekście, w dziedzinie informatyki.

W sumie LaMDA został wstępnie przeszkolony na 1,56 biliona słów „publiczne dane dialogowe i tekst internetowy”.

Zestaw danych składa się z następującej mieszanki:

  • 12,5% danych opartych na C4
  • 12,5% anglojęzycznej Wikipedii
  • 12,5% koduje dokumenty ze stron internetowych z pytaniami i odpowiedziami, samouczków i innych
  • 6,25% angielskie dokumenty internetowe
  • 6,25% Dokumenty internetowe w języku innym niż angielski
  • 50% danych dialogów z forów publicznych

Pierwsze dwie części Infiniset (C4 i Wikipedia) składają się ze znanych danych.

Zbiór danych C4, który zostanie wkrótce omówiony, to specjalnie przefiltrowana wersja zbioru danych Common Crawl.

Tylko 25% danych pochodzi z nazwanego źródła (tzw C4 zestaw danych i Wikipedii).

Reszta danych, które stanowią większość zbioru danych Infiniset, 75%, składa się ze słów zeskrobanych z Internetu.

Artykuł badawczy nie mówi, w jaki sposób dane zostały pozyskane ze stron internetowych, z jakich stron zostały uzyskane ani żadnych innych szczegółów na temat zeskrobanych treści.

Google używa tylko ogólnych opisów, takich jak „Dokumenty internetowe w języku innym niż angielski”.

Słowo „mętny” oznacza, gdy coś nie jest wyjaśnione i jest w większości ukryte.

Mroczny to najlepsze słowo opisujące 75% danych, które Google wykorzystał do szkolenia LaMDA.

Warto przeczytać!  Szybkie przewijanie do przodu w roku 2024: można się spodziewać dużych zmian w technologiach osobistych | Wiadomości technologiczne

Są na to pewne wskazówki może dać ogólne pojęcie jakie witryny znajdują się w 75% treści internetowych, ale nie możemy być tego pewni.

Zbiór danych C4

C4 to zbiór danych opracowany przez Google w 2020 r. C4 oznacza „Kolosalny Czysty Czołgający się Korpus”.

Ten zestaw danych jest oparty na danych Common Crawl, które są zbiorem danych typu open source.

Informacje o wspólnym indeksowaniu

Common Crawl to zarejestrowana organizacja non-profit, która co miesiąc indeksuje Internet w celu tworzenia bezpłatnych zestawów danych, z których każdy może korzystać.

Organizacja Common Crawl jest obecnie prowadzona przez osoby, które pracowały dla Fundacji Wikimedia, byłych Googlerów, założyciela Blekko, a za doradców zaliczają się osoby takie jak Peter Norvig, dyrektor ds. badań w Google i Danny Sullivan (również z Google).

Jak rozwija się C4 z Common Crawl

Surowe dane Common Crawl są czyszczone poprzez usuwanie elementów takich jak cienka treść, nieprzyzwoite słowa, lorem ipsum, menu nawigacyjne, deduplikacja itp. w celu ograniczenia zestawu danych do głównej zawartości.

Celem odfiltrowania zbędnych danych było usunięcie bełkotu i zachowanie przykładów naturalnego języka angielskiego.

Oto, co napisali naukowcy, którzy stworzyli C4:

„Aby zebrać nasz podstawowy zestaw danych, pobraliśmy tekst wyodrębniony z sieci z kwietnia 2019 r. i zastosowaliśmy wspomniane filtrowanie.

W ten sposób powstaje zbiór tekstu, który jest nie tylko o rzędy wielkości większy niż większość zestawów danych używanych do wstępnego uczenia (około 750 GB), ale zawiera również stosunkowo czysty i naturalny tekst w języku angielskim.

Nazwaliśmy ten zestaw danych „Colossal Clean Crawled Corpus” (lub w skrócie C4) i udostępniamy go jako część zestawów danych TensorFlow…”

Istnieją również inne niefiltrowane wersje C4.

Artykuł badawczy opisujący zbiór danych C4 nosi tytuł Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer (PDF).

W innym artykule badawczym z 2021 r. (Documenting Large Webtext Corpora: A Case Study on the Colossal Clean Crawled Corpus – PDF) zbadano skład witryn zawartych w zbiorze danych C4.

Co ciekawe, w drugim artykule badawczym wykryto anomalie w oryginalnym zbiorze danych C4, które spowodowały usunięcie stron internetowych, które były dopasowane do latynosów i afroamerykanów.

Strony internetowe o tematyce latynoskiej zostały usunięte przez filtr listy zablokowanych (przekleństwa itp.) w przypadku 32% stron.

Strony internetowe dostosowane do Afroamerykanów zostały usunięte w tempie 42%.

Przypuszczalnie te niedociągnięcia zostały naprawione…

Kolejnym odkryciem było to, że 51,3% zbioru danych C4 składało się ze stron internetowych hostowanych w Stanach Zjednoczonych.

Warto przeczytać!  Sztuczna inteligencja Apple, która pojawi się w iOS 18, ma być dostępna wyłącznie na urządzeniu. Oto, co to oznacza

Wreszcie analiza oryginalnego zestawu danych C4 z 2021 r. potwierdza, że ​​​​zbiór danych stanowi zaledwie ułamek całego Internetu.

Analiza stwierdza:

„Nasza analiza pokazuje, że chociaż ten zbiór danych stanowi znaczną część skrawka publicznego Internetu, w żadnym wypadku nie jest reprezentatywny dla świata anglojęzycznego i obejmuje szeroki zakres lat.

Podczas tworzenia zestawu danych ze skrobania sieci raportowanie domen, z których pochodzi tekst, jest integralną częścią zrozumienia zestawu danych; proces zbierania danych może prowadzić do znacznie innej dystrybucji domen internetowych, niż można by się spodziewać”.

Poniższe statystyki dotyczące zbioru danych C4 pochodzą z drugiego artykułu badawczego, do którego link znajduje się powyżej.

25 najlepszych stron internetowych (pod względem liczby tokenów) w C4 to:

  1. patenty.google.com
  2. pl.wikipedia.org
  3. en.m.wikipedia.org
  4. www.nytimes.com
  5. www.latimes.com
  6. www.theguardian.com
  7. czasopisma.plos.org
  8. www.forbes.com
  9. www.huffpost.com
  10. patenty.com
  11. www.scribd.com
  12. www.washingtonpost.com
  13. www.głupi.com
  14. ipfs.io
  15. www.frontiersin.org
  16. www.businessinsider.com
  17. www.chicagotribune.com
  18. www.booking.com
  19. www.theatlantic.com
  20. link.springer.com
  21. www.aljazeera.com
  22. www.kickstarter.com
  23. caselaw.findlaw.com
  24. www.ncbi.nlm.nih.gov
  25. www.npr.org

Oto 25 najlepiej reprezentowanych domen najwyższego poziomu w zbiorze danych C4:

Google Bard AI –  Jakie witryny były używane do trenowania?Zrzut ekranu z Dokumentowanie dużych korpusów tekstów internetowych: studium przypadku dotyczące kolosalnego, czystego zindeksowanego korpusu

Jeśli chcesz dowiedzieć się więcej o zbiorze danych C4, polecam przeczytanie dokumentu Documenting Large Webtext Corpora: A Case Study on the Colossal Clean Crawled Corpus (PDF), a także oryginalnego artykułu badawczego z 2020 r. (PDF), dla którego stworzono C4.

Czym mogą być dane dialogów z forów publicznych?

50% danych treningowych pochodzi z „dane dialogów z forów publicznych”.

To wszystko, co artykuł badawczy Google LaMDA mówi o tych danych treningowych.

Jeśli ktoś zgadnie, Reddit i inne najlepsze społeczności, takie jak StackOverflow, to bezpieczne zakłady.

Reddit jest używany w wielu ważnych zestawach danych, takich jak te opracowane przez OpenAI o nazwie WebText2 (PDF), otwarte przybliżenie WebText2 o nazwie OpenWebText2 oraz własny zestaw danych Google WebText-like (PDF) z 2020 r.

Google opublikowało również szczegóły innego zestawu danych publicznych witryn dialogowych na miesiąc przed publikacją artykułu LaMDA.

Ten zestaw danych zawierający publiczne witryny dialogowe nosi nazwę MassiveWeb.

Nie spekulujemy, że zestaw danych MassiveWeb został użyty do szkolenia LaMDA.

Ale zawiera dobry przykład tego, co Google wybrał dla innego modelu językowego, który skupiał się na dialogu.

MassiveWeb został stworzony przez DeepMind, którego właścicielem jest Google.

Został zaprojektowany do użytku przez duży model językowy o nazwie Gopher (link do PDF artykułu badawczego).

Warto przeczytać!  Call of Duty Mobile Season 4 „Veiled Uprising” zadebiutuje 27 kwietnia. Szczegóły dotyczące nowych funkcji i przepustki bojowej

MassiveWeb korzysta ze źródeł internetowych dialogów, które wykraczają poza Reddit, aby uniknąć tworzenia stronniczości w stosunku do danych, na które ma wpływ Reddit.

Nadal korzysta z Reddita. Ale zawiera również dane zebrane z wielu innych witryn.

Publiczne strony dialogowe zawarte w MassiveWeb to:

  • Reddit
  • Facebook
  • Quora
  • Youtube
  • Średni
  • Przepełnienie stosu

Ponownie, nie sugeruje to, że LaMDA został przeszkolony w powyższych witrynach.

Ma to po prostu pokazać, czego Google mógł użyć, pokazując zestaw danych, nad którym Google pracował mniej więcej w tym samym czasie co LaMDA, który zawiera witryny typu forum.

Pozostałe 37,5%

Ostatnia grupa źródeł danych to:

  • 12,5% koduje dokumenty z witryn związanych z programowaniem, takich jak strony z pytaniami i odpowiedziami, samouczki itp.;
  • 12,5% Wikipedia (angielski)
  • 6,25% angielskie dokumenty internetowe
  • 6,25% Dokumenty internetowe w języku innym niż angielski.

Google nie określa, jakie witryny są w Programowanie witryn z pytaniami i odpowiedziami kategoria, która stanowi 12,5% zbioru danych, na którym trenowało LaMDA.

Możemy więc tylko spekulować.

Stack Overflow i Reddit wydają się oczywistymi wyborami, zwłaszcza że zostały uwzględnione w zbiorze danych MassiveWeb.

Co „samouczki” zostały zindeksowane? Możemy tylko spekulować, czym mogą być te strony z samouczkami.

To pozostawia ostatnie trzy kategorie treści, z których dwie są wyjątkowo niejasne.

Angielskojęzyczna Wikipedia nie wymaga dyskusji, wszyscy znamy Wikipedię.

Ale następujące dwa nie są wyjaśnione:

język angielski I nieanglojęzyczny Strony językowe to ogólny opis 13% serwisów znajdujących się w bazie.

To wszystkie informacje, które Google podaje na temat tej części danych treningowych.

Czy Google powinien zachować przejrzystość w kwestii zbiorów danych używanych przez Bard?

Niektórzy wydawcy czują się nieswojo, że ich witryny są wykorzystywane do uczenia systemów AI, ponieważ ich zdaniem systemy te mogą w przyszłości sprawić, że ich witryny staną się przestarzałe i znikną.

Czy to prawda, czy nie, dopiero się okaże, ale jest to autentyczny niepokój wyrażany przez wydawców i członków społeczności marketingu w wyszukiwarkach.

Google jest frustrująco niejasny, jeśli chodzi o strony internetowe używane do szkolenia LaMDA, a także o to, jakiej technologii użyto do zeskrobywania stron internetowych w celu uzyskania danych.

Jak widać w analizie zbioru danych C4, metodologia wyboru zawartości strony internetowej do trenowania dużych modeli językowych może wpłynąć na jakość modelu językowego poprzez wykluczenie pewnych populacji.

Czy Google powinien bardziej przejrzyście informować o tym, które strony są wykorzystywane do szkolenia sztucznej inteligencji, czy przynajmniej publikować łatwy do znalezienia raport przejrzystości na temat wykorzystanych danych?

Wyróżniony obraz autorstwa Shutterstock/Asier Romero




Źródło