Forscher von Meta AI und der Universität Cambridge verbessern große Sprachmodelle (LLMs) mit Spracherkennungsfähigkeiten, um Sprache in Text zu übersetzen.Forscher von Meta AI und der Universität Cambridge verbessern große Sprachmodelle (LLMs) mit Spracherkennungsfähigkeiten, um Sprache in Text zu übersetzen.

Forscher von Meta AI und der Universität Cambridge

Forscher von Meta AI und der Universität Cambridge untersuchen, wie man große Sprachmodelle (LLMs) dazu bringt, Spracherkennungsfähigkeiten zu entwickeln. LLMs sind aktuell sehr beliebt, vor allem durch den Einsatz des bekannten ChatGPT von OpenAI. Dieser Chatbot kann Fragen beantworten, lange Textabschnitte zusammenfassen, Codeschnipsel vervollständigen, Texte in andere Sprachen übersetzen und vieles mehr.

Große Sprachmodelle und ihre Fähigkeiten

Große Sprachmodelle lernen, indem sie das nächste Wort in einer großen Menge an Textdaten vorhersagen, ganz ohne explizite Anleitung. Dadurch können sie viel Wissen über die Welt in ihren neuronalen Netzwerken speichern, was sie für viele Aufgaben nützlich macht. Obwohl sie bereits in verschiedenen Bereichen gute Leistungen gezeigt haben, geht die aktuelle Forschung einen Schritt weiter und versucht, durch den Einsatz eines kleinen Audio-Encoders, die Fähigkeiten der LLMs zu erweitern und ihnen die Erkennung von Sprache zu ermöglichen.

Meta AI: Erweiterung der Sprachmodelle um Spracherkennung

Einbindung von Audio-Daten in LLMs

Der Prozess besteht darin, eine Reihe von akustischen Einbettungen, also Darstellungen von Audiodaten, direkt in die vorhandenen Texttoken-Einbettungen einzufügen. Dadurch kann das LLM Aufgaben zur automatischen Spracherkennung (ASR) erfüllen, ähnlich wie es seine textbasierte Entsprechung tut. Es kann gesprochene Kommunikation in gedruckten Text übersetzen. Untersucht werden dabei verschiedene Faktoren, wie die Größe und Bildrate des Audio-Encoder-Modells, die Anpassung der LLM-Parameter, Texttoken-Maskierung und der Typ des verwendeten großen Sprachmodells, um die Erkennungsgenauigkeit zu verbessern.

Bewertung und Ergebnisse

Das Team hat die Wirksamkeit der Verschmelzung von Audio- und Textinformationen demonstriert und dabei die Multilingual LibriSpeech (MLS) Datenbank zur Bewertung ihrer Methode verwendet. Die Ergebnisse zeigten, dass diese Anpassung es dem LLM ermöglicht, 18% besser bei Spracherkennungsaufgaben zu sein als monolinguale Baselines. Außerdem konnte gezeigt werden, dass das LLM, obwohl es hauptsächlich auf Englisch trainiert wurde, gut bei der mehrsprachigen Spracherkennung abschneidet.

Meta AI: Weitere Experimente und Schlussfolgerungen

Neben dem Hauptexperiment hat die Forschung auch andere Aspekte der Leistung des erweiterten LLM untersucht. Es wurden Ablationstests durchgeführt, um herauszufinden, ob das LLM während des Trainings eingefroren werden kann, ohne seine ursprünglichen Fähigkeiten zu verlieren. Dabei wurden die Parameter des LLM nicht verändert, während das ASR-System trainiert wurde, und es konnte gezeigt werden, dass es immer noch gut mehrsprachige ASR leisten kann, auch wenn das LLM eingefroren ist.

Das Team hat auch die Auswirkungen untersucht, die sich ergeben, wenn man den Audio-Encoder vergrößert, den Audio-Encoder-Stride erhöht und weniger Audio-Einbettungen erzeugt. Durch diese Tests soll die Wirksamkeit und Effizienz des ASR-Systems verbessert werden. Insgesamt erscheint der Ansatz vielversprechend, da die Ergebnisse die Durchführbarkeit von mehrsprachiger ASR sogar mit größeren Audio-Encodern oder längeren Strides zeigen, was darauf hindeutet, dass LLMs in der Lage sind, lange Audioeingaben zu verarbeiten.

Quelle: Studien Papier