Das Multi-Source Diffusion Model (MSDM) der Universität Rom Ein Durchbruch in der KI-Forschung für Musiksynthese und -trennungDas Multi-Source Diffusion Model (MSDM) der Universität Rom Ein Durchbruch in der KI-Forschung für Musiksynthese und -trennung

Warum ist das MSDM KI-Modell so besonders?

Forscher aus dem GLADIA Research Lab der Universität Rom haben einen riesigen Schritt in der KI-Forschung gemacht. Sie haben ein KI-Modell entwickelt, das sowohl Musik erzeugen als auch einzelne Bestandteile einer Musikmischung trennen kann. Das Modell heißt Multi-Source Diffusion Model (MSDM). Damit bringen sie uns einen Schritt näher an ein universelles Audio-Modell.

Was ist ein universelles Audio-Modell?

Ein universelles Audio-Modell in der Künstlichen Intelligenz (KI) wäre ein Modell, das in der Lage ist, eine Vielzahl von Aufgaben im Audio-Bereich zu erfüllen. Dies könnte beispielsweise die Erzeugung von Musik, die Trennung von Musikquellen, die Erkennung von Mustern und Melodien, die Transkription von Audio in Text, die Emotionserkennung in der menschlichen Stimme, die Geräuscherkennung und viele andere Aufgaben umfassen.

Ein solches Modell wäre in der Lage, Kontext und Bedeutung aus rohen Audiodaten zu extrahieren und könnte in einer Reihe von Anwendungen eingesetzt werden, von der Verbesserung von Hörgeräten und Sprachassistenten bis hin zur Musikproduktion und -analyse.

Bislang gibt es in der KI-Forschung noch kein wirklich universelles Audio-Modell, aber es gibt mehrere spezialisierte Modelle, die für bestimmte Aufgaben ausgelegt sind. Der neue Forschungsansatz aus Italien, der in deiner vorherigen Frage beschrieben wurde, stellt einen wichtigen Schritt in Richtung der Entwicklung solch eines universellen Modells dar, da er sowohl die Erzeugung als auch die Trennung von Musik ermöglicht.

Wie funktioniert das MSDM?

Das Modell lernt über die gemeinsame Wahrscheinlichkeitsdichte von Quellen, die einen Kontext teilen. Dies wird als “Prior-Verteilung” bezeichnet. Das Erzeugen von Musik erfolgt durch das Ziehen von Proben aus dieser Prior-Verteilung. Die Trennung der Musik erfolgt durch das Bedingen der Prior-Verteilung auf der Mischung und dann durch das Ziehen von Proben aus der daraus resultierenden Posterior-Verteilung.

Mit welchen Daten wurde das Modell trainiert?

Die Forscher haben für ihre Experimente das Slakh2100-Datensatz verwendet. Dieser besteht aus über 2100 Tracks und ist ein Standard-Datensatz für die Quellentrennung. Sie haben sich hauptsächlich wegen der großen Menge an Daten für Slakh2100 entschieden. Dies ist besonders wichtig, um die Leistungsfähigkeit eines generativen Modells festzustellen.

Welche weiteren Aufgaben kann das MSDM erfüllen?

Zusätzlich zu den klassischen Aufgaben kann das Modell auch Teilaufgaben lösen, wie zum Beispiel die Quellen-Imputation. Dabei wird ein Teil der Quellen generiert, während die anderen gegeben sind. So könnte beispielsweise ein Klavier-Track generiert werden, der gut zu den Schlagzeug-Tracks passt.

Wie wurde das MSDM Modell trainiert?

Das Modell wurde mit einer diffusionsbasierten generativen Methode trainiert, die als “Rauschunterdrückendes Score-Matching” bekannt ist. Dabei wird die “Score”-Funktion der Zielverteilung approximiert, anstatt die Verteilung selbst. Die Forscher führten auch eine neue Stichprobenmethode ein, die auf Dirac-Delta-Funktionen basiert, um bemerkenswerte Ergebnisse bei der Quellentrennung zu erzielen.

Wie gut hat das MSDM Modell abgeschnitten?

Die Leistung des Modells bei der Quellentrennung war vergleichbar mit der anderer moderner Regressionsmodelle. Die Forscher stellten jedoch fest, dass die Leistung ihres Algorithmus durch die aktuell verfügbaren Daten eingeschränkt ist. Sie planen, dieses Problem anzugehen, indem sie Mischungen vorab trennen und als Datensatz verwenden.

Zusammenfassend haben die Forscher mit ihrem Multi-Source Diffusion Model einen Durchbruch in der Musikdomäne erreicht. Sie hoffen, dass ihre Arbeit andere Forscher inspiriert, vertiefte Untersuchungen in diesem Bereich durchzuführen.

Quelle: Studien-Papier

GitHub