Technologia

Nowe badanie AI przedstawia metodę kaskadowej ukrytej dyfuzji zwanej Moûsai, która może generować wiele minut wysokiej jakości muzyki stereo o częstotliwości 48 kHz z opisów tekstowych

  • 1 lutego, 2023
  • 4 min read
Nowe badanie AI przedstawia metodę kaskadowej ukrytej dyfuzji zwanej Moûsai, która może generować wiele minut wysokiej jakości muzyki stereo o częstotliwości 48 kHz z opisów tekstowych


To trudny temat, ponieważ generowanie muzyki, czy generowanie dźwięku, obejmuje wiele komponentów na różnych poziomach abstrakcji. Chociaż trudna, zautomatyzowana lub wspomagana modelem produkcja muzyczna była popularnym tematem badań. Zachęcające jest obserwowanie, jak wiele modeli głębokiego uczenia się może przyczynić się do produkcji dźwięku, biorąc pod uwagę niedawne pojawienie się modeli głębokiego uczenia się i ich sukces w przetwarzaniu wizji komputerowej i języka naturalnego. Rekurencyjne sieci neuronowe, przeciwstawne sieci generatywne, autoenkodery i transformatory są używane w istniejących modelach generowania dźwięku.

Modele dyfuzyjne, nowszy rozwój modeli generatywnych, zostały wykorzystane w syntezie głosu, ale nie zostały jeszcze w pełni zbadane pod kątem tworzenia muzyki. Ponadto istnieje kilka uporczywych trudności w dziedzinie syntezy muzyki, w tym konieczność:

  1. Modeluj strukturę długoterminową.
  2. Popraw jakość dźwięku.
  3. Poszerz różnorodność muzyczną.
  4. Włącz prostsze sterowanie syntezą, takie jak monity tekstowe.

Umożliwienie jednostkom produkowania muzyki przy użyciu przystępnego interfejsu tekstowego może umożliwić ogółowi społeczeństwa udział w procesie twórczym. Może również pomóc twórcom znaleźć inspirację i zaoferować nieskończone źródło oryginalnych próbek audio. Przemysł muzyczny odniósłby ogromne korzyści z dodania jednego modelu, który mógłby obsłużyć wszystkie sugerowane funkcje.

Warto przeczytać!  Maxwell to jak dotąd nasz najlepiej brzmiący zestaw słuchawkowy do gier

Z krajobrazu istniejących modeli generujących muzykę w Tabeli 1 mogą zaobserwować, że powyższe trudności są wszechobecne w literaturze. Na przykład większość systemów zamiany tekstu na dźwięk może wytworzyć tylko kilka sekund dźwięku. Wiele często potrzebuje długiego okresu wnioskowania, trwającego nawet kilka godzin GPU, aby stworzyć minutę dźwięku. Jeśli chodzi o bezwarunkowe tworzenie muzyki, które różni się od modeli generowania tekstu na muzykę, niektóre mogą tworzyć wysokiej jakości próbki i działać w czasie rzeczywistym na procesorze. Mimo to często są szkoleni w zakresie jednej modalności i potrzebują pomocy w radzeniu sobie ze strukturami długoterminowymi. W tym celu opracowali Moûsai 2, warunkowy tekstowo kaskadowy model dyfuzji (rysunek 1), który ma na celu jednoczesne rozwiązanie każdego z powyższych problemów.

Ich model Moûsai wykorzystuje unikalną technikę dwustopniowej kaskadowej dyfuzji, przedstawioną na rysunku 1. W pierwszym kroku przebieg audio jest kompresowany przy użyciu nowatorskiego automatycznego kodera dyfuzyjnego. Zredukowane ukryte reprezentacje drugiego etapu są uczone na podstawie osadzania tekstu wytwarzanego przez wstępnie wytrenowany model językowy. Obie fazy wykorzystują efektywną sieć U-Net, którą dostroili, zapewniając dużą szybkość wnioskowania, która umożliwia wiarygodne wykorzystanie w nadchodzących aplikacjach.

Rysunek 1: Dwustopniowa architektura generowania ich modelu jest używana do wnioskowania. Aby być bardziej precyzyjnym, najpierw osadzają tekst w osadzonym tekście przy użyciu wstępnie wytrenowanego i zamrożonego modelu językowego. Skompresowane utajenie jest następnie wykorzystywane do kondycjonowania dekodera dyfuzyjnego w celu wytworzenia końcowego kształtu fali po kondycjonowaniu generatora dyfuzyjnego w celu wygenerowania go na tekście.

W rezultacie, następujące elementy są głównymi wkładami Ich pracy:

Warto przeczytać!  Google naprawia siódmą lukę dnia zerowego w przeglądarce Chrome — zaktualizuj teraz

1. W oparciu o kontekst przekraczający znak minutowy umożliwiają generowanie muzyki stereo 48 kHz o długim kontekście przekraczającej znak minutowy i generują różnorodność muzyki.

2. proponują wydajną architekturę 1D U-Net dla obu etapów kaskady, pozwalającą na produkcję dźwięku w czasie rzeczywistym na pojedynczym konsumenckim GPU. Ponadto, ponieważ każdy krok ich systemu można nauczyć na pojedynczym procesorze graficznym A100 w ciągu około tygodnia, cały system można przeszkolić i obsługiwać przy skromnych zasobach, które można znaleźć w większości uczelni.

3. opisują nowy autoenkoder wielkości dyfuzji, który użyty na etapie generowania architektury do zastosowania dyfuzji utajonej może skompresować sygnał audio 64 razy w porównaniu z oryginalnym przebiegiem przy minimalnej utracie jakości.


Sprawdź Papier, Github, oraz Próbny. Cała zasługa za te badania należy się badaczom tego projektu. Nie zapomnij też dołączyć nasz subreddit z ponad 13 tysiącami ML, Kanał DiscordaI Biuletyn e-mailowygdzie dzielimy się najnowszymi wiadomościami z badań nad sztuczną inteligencją, fajnymi projektami AI i nie tylko.


Warto przeczytać!  Informacje techniczne 29 maja: specjalna edycja Phone 2a, Sony rabaty na PS5 Slim i nie tylko | Wiadomości techniczne

Aneesh Tickoo jest stażystą konsultingu w MarktechPost. Obecnie kontynuuje studia licencjackie w dziedzinie nauki o danych i sztucznej inteligencji w Indyjskim Instytucie Technologii (IIT) w Bhilai. Większość czasu spędza pracując nad projektami mającymi na celu wykorzystanie mocy uczenia maszynowego. Jego zainteresowania badawcze to przetwarzanie obrazu i pasjonuje się budowaniem wokół niego rozwiązań. Uwielbia kontakt z ludźmi i współpracę przy ciekawych projektach.



Źródło