Technologia

Google opracowuje nowy system AI do generowania muzyki o wysokiej wierności

oen.pl

27 stycznia, 2023
3 min read

Google opracowuje nowy system AI do generowania muzyki o wysokiej wierności

Badacze Google LLC opracowali system sztucznej inteligencji, który może generować muzykę o wysokiej wierności na podstawie opisu tekstowego dostarczonego przez użytkownika.

Google szczegółowo opisał system w artykule z 26 stycznia dokument badawczy zauważony dzisiaj przez TechCrunch. Sztuczna inteligencja, znana jako MusicLM, została przeszkolona na 280 000 godzin dźwięku. Opiera się na wcześniejszym generatorze muzyki opartym na sztucznej inteligencji o nazwie AudioLM szczegółowe ostatni październik.

Nowy system MusicLM pobiera opis ścieżki muzycznej w języku naturalnym jako dane wejściowe i automatycznie generuje odpowiedni dźwięk. Użytkownicy mogą określić rodzaj i liczbę instrumentów, które sztuczna inteligencja ma symulować, gatunek i inne szczegóły.

MusicLM pozwala również użytkownikom opisywać utwór w bardziej abstrakcyjny sposób. Podczas jednego z wewnętrznych testów badacze Google poinstruowali sztuczną inteligencję, aby generowała muzykę, która „wywołuje wrażenie zagubienia w kosmosie”. Ponadto MusicLM jest w stanie generować muzykę na podstawie melodii gwizdanej lub nuconej przez użytkownika.

System generuje muzykę, która w niektórych przypadkach „pozostaje spójna przez kilka minut”, jak wyszczególnili badacze Google. Wewnętrzne testy wykazały, że system AI zapewnia wyższą jakość dźwięku niż istniejące generatory muzyki oparte na sztucznej inteligencji. Co więcej, czyni to, ściślej dopasowując się do opisu podanego przez użytkownika.

Warto przeczytać! Leica postanowiła zatrzeć granice między profesjonalnymi aparatami a smartfonami

MusicLM obejmuje nie jedną, ale kilka sieci neuronowych, z których każda zarządza inną częścią procesu generowania muzyki. Sieci neuronowe systemu oparte są na tzw. architekturze transformatorowej. Wprowadzona przez Google w 2017 roku architektura jest popularną metodą projektowania systemów AI, która jest szczególnie szeroko stosowana do przetwarzania języka naturalnego.

Sieci neuronowe zwykle analizują wiele punktów danych podczas podejmowania decyzji, na przykład, w jaki sposób należy wygenerować utwór muzyczny. Architektura Transformer umożliwia sieci neuronowej ustalanie priorytetów analizowanych punktów danych na podstawie ich ważności. Najważniejsze szczegóły wpływają na wynik obróbki w większym stopniu niż reszta, co poprawia dokładność.

System MusicLM obejmuje również podejście oparte na sztucznej inteligencji, znane jako modelowanie sekwencji po sekwencji. Podejście to polega na przekształceniu fragmentu tekstu, takiego jak opis utworu muzycznego przez użytkownika, w abstrakcyjną reprezentację matematyczną zwaną osadzeniem. To osadzanie można przekształcić w inny typ danych, na przykład dźwięk, łatwiej niż w oryginalny opis tekstowy.

Google nie udostępniło jeszcze kodu dla MusicLM. Jednak badacze firmy opublikowali zestaw danych szkoleniowych AI, aby wesprzeć dalsze badania nad automatycznym generowaniem muzyki. Zbiór danych obejmuje około 5500 utworów muzycznych, z których każdy zawiera towarzyszący mu opis tekstowy, który ma ułatwić ich interpretację w sieciach neuronowych.

Warto przeczytać! WhatsApp wprowadza funkcję udostępniania ankiet na kanałach: Wszystkie szczegóły