Technologia

Utajona dyfuzja w długim kontekście upraszcza wysokiej jakości zamianę tekstu na muzykę

oen.pl

6 lutego, 2023
4 min read

Utajona dyfuzja w długim kontekście upraszcza wysokiej jakości zamianę tekstu na muzykę

Niedawny wzrost popularności modeli dyfuzji do produkcji obrazów spowodował ponowne zainteresowanie możliwością zastosowania podobnych modeli w innych obszarach syntezy mediów. Jednak zastosowanie modeli dyfuzji do generowania muzyki jest tematem, który nie został jeszcze dokładnie zbadany.

Jest to złożony temat do rozwiązania, ponieważ generowanie muzyki lub generowanie dźwięku obejmuje wiele komponentów na różnych poziomach abstrakcji. Pomimo wyzwań, dziedzina badań nad zautomatyzowaną lub wspomaganą modelem produkcją muzyczną była zajęta. Wraz z niedawnym rozwojem modeli głębokiego uczenia się i ich sukcesem w dziedzinie widzenia komputerowego i przetwarzania języka naturalnego zachęcające jest obserwowanie, w jaki sposób modele głębokiego uczenia się mogą przyczynić się do produkcji dźwięku. Wykorzystując rekurencyjne sieci neuronowe, przeciwstawne sieci generatywne i transformatory, istniejące modele generowania dźwięku badają wykorzystanie tych technik. Ponadto najnowsze modele generatywne były używane do syntezy mowy, ale nie do syntezy muzyki.

Rozwój muzyki wymaga zarządzania różnymi czynnikami, m.in

wymiar czasowy,
długoterminowa struktura,
wiele warstw nakładających się dźwięków i
subtelności, które mogą dostrzec tylko wytrawni słuchacze.

Jest to trudny temat, ponieważ tworzenie muzyki lub dźwięku obejmuje kilka elementów, które są abstrakcyjne na różnych poziomach. Pomimo tego, że studiowanie zautomatyzowanej lub wspomaganej modelami produkcji muzycznej jest trudne, zyskało popularność. Biorąc pod uwagę niedawny rozwój modeli głębokiego uczenia się i ich sukces w przetwarzaniu obrazu komputerowego i języka naturalnego, zachęcające jest zobaczenie, jak wiele mogą one wnieść do tworzenia dźwięku. Istniejące modele generowania dźwięku wykorzystują rekurencyjne sieci neuronowe, przeciwstawne sieci generatywne, autoenkodery i transformatory.

Warto przeczytać! Brytyjski regulator uderza w umowę Activision z Microsoftem o wartości 75 miliardów dolarów

Chociaż były one używane w syntezie głosu, modele dyfuzyjne — nowszy przełom w modelach generatywnych — nie zostały jeszcze dokładnie zbadane pod kątem produkcji muzycznej.

Dyscyplina syntezy muzyki stoi również przed kilkoma ciągłymi wyzwaniami, takimi jak konieczność:

Stwórz długoterminowy model struktury.
Popraw jakość dźwięku.
Zwiększ zakres muzyki.
Pozwól na łatwiejszą kontrolę syntezy, taką jak monity tekstowe.

Ogół społeczeństwa można zachęcić do zaangażowania się w proces twórczy, umożliwiając poszczególnym osobom komponowanie muzyki za pomocą przystępnego interfejsu tekstowego. Może również inspirować twórców i zapewniać niewyczerpany zapas kreatywnych próbek audio.

Przemysł muzyczny znacznie skorzystałby na dodaniu jednego modelu, który zawiera wszystkie wymienione funkcje. W tej pracy naukowcy badają możliwość modeli dyfuzji do produkcji muzyki warunkowej tekstowo. Ponadto naukowcy opracowują metodę kaskadowej dyfuzji utajonej, aby na podstawie opisów tekstowych wytwarzać wiele minut wysokiej jakości muzyki stereo o częstotliwości 48 kHz. Naukowcy dążą do uzyskania odpowiedniej szybkości wnioskowania dla każdego modelu, dążąc do pracy w czasie rzeczywistym na pojedynczym konsumenckim GPU. Oprócz przeszkolonych modeli naukowcy oferują różnorodne biblioteki typu open source, aby wesprzeć przyszłe prace nad tym tematem.

Warto przeczytać! IPL 2023: Porównanie indywidualnych planów abonamentowych Airtel, Jio, Vodafone i BSNL

Wniosek

W ich pracy, naukowcy zaprezentowali Moûsai, podejście do generowania dźwięku oparte na kształtach fal składających się z dwóch modeli dyfuzji. Najpierw naukowcy przeszkolili autoenkoder dyfuzyjny, aby 64 razy skompresować spektrogram tylko wielkości. Następnie skompresowany sygnał utajony jest dekodowany z powrotem do kształtu fali przy użyciu specjalnie zaprojektowanej sieci 1D U-Net i dyfuzji.

W drugim etapie naukowcy trenują model dyfuzyjny, aby zbudować nowy utajony z warunkowania szumem na osadzonych tekstach pobranych z zamrożonego modelu transformatora T5, wykorzystując tę samą architekturę 1D U-Net, co w pierwszym etapie. W przeciwieństwie do wcześniejszych wysiłków, naukowcy wykazali, że ich model może generować minuty wysokiej jakości muzyki w czasie rzeczywistym na konsumenckim GPU z atrakcyjnym połączeniem tekst-audio. Oprócz przeszkolonych modeli badacze udostępnili szereg bibliotek typu open source, aby ułatwić przyszłe prace nad tym tematem. Naukowcy spodziewają się, że ich obecne prace utorują drogę przyszłym aplikacjom generującym tekst do muzyki o lepszej jakości i dłuższym kontekście.

Przeglądaj Papier, GithubI Próbnyodpowiednio.

Źródło