ModernBERT - Beitrag auf KINEWS24

Sechs Jahre nach seiner Einführung ist BERT, ein Eckpfeiler der Natural Language Processing (NLP), immer noch allgegenwärtig. Doch nun kündigt sich ein Nachfolger an: ModernBERT. Entwickelt von Answer.AI und LightOn in Zusammenarbeit mit weiteren Forschern, verspricht diese neue Modellfamilie eine deutliche Verbesserung in Sachen Geschwindigkeit, Genauigkeit und Kontextverständnis – und das bei schlankeren Dimensionen.

Während im Bereich der Large Language Models (LLMs) wie GPT, Llama und Claude in den letzten Jahren beeindruckende Fortschritte erzielt wurden, blieben die sogenannten Encoder-Modelle, zu denen auch BERT gehört, tendenziell im Schatten. Encoder-Modelle sind jedoch die Arbeitstiere vieler praktischer Anwendungen, von der semantischen Suche in Retrieval Augmented Generation (RAG)-Systemen bis hin zur Inhaltsklassifizierung und Entitätsextraktion. ModernBERT zielt darauf ab, die in der LLM-Forschung gewonnenen Erkenntnisse in die Welt der Encoder zu übertragen und damit eine neue Ära für diese wichtigen Modelle einzuleiten.

Das musst Du wissen: ModernBERT

Nachfolger von BERT: ModernBERT ist als direkter Ersatz für BERT-ähnliche Modelle konzipiert.
Verbesserte Performance: Übertrifft BERT und seine Nachfolger in Genauigkeit und Geschwindigkeit.
Längerer Kontext: Verarbeitet Sequenzen mit bis zu 8192 Token (verglichen mit 512 bei BERT).
Effizientere Architektur: Nutzt moderne Transformer-Architekturen für schnellere Verarbeitung.
Mit Code trainiert: Beinhaltet umfangreiche Code-Daten im Trainingsdatensatz, was neue Anwendungsfälle eröffnet.
Zwei Modellgrößen: Verfügbar als „Base“ (139 Millionen Parameter) und „Large“ (395 Millionen Parameter) Version.
Open Source: Die Modelle sind auf Hugging Face verfügbar und können frei verwendet und angepasst werden.

Encoder-Modelle: Die unbesungenen Helden der KI

Obwohl generative Modelle wie ChatGPT derzeit im Rampenlicht stehen, sind Encoder-Modelle wie BERT weiterhin unerlässlich für zahlreiche Anwendungen. Ihre Stärke liegt in der effizienten Erzeugung von Embedding-Vektoren, komprimierten numerischen Darstellungen von Text, die für Suchaufgaben, Klassifizierung und andere nicht-generative Aufgaben optimiert sind. Im Gegensatz zu Decoder-Modellen, die sequenziell von links nach rechts arbeiten, können Encoder den gesamten Eingabetext gleichzeitig erfassen und so ein umfassenderes Verständnis entwickeln.

Die Entwickler von ModernBERT argumentieren, dass Decoder-Modelle für viele praktische Anwendungen zu groß, zu langsam und zu ressourcenintensiv sind. Encoder-Modelle hingegen bieten ein optimales Verhältnis von Leistung und Effizienz. Dies spiegelt sich auch in den Downloadzahlen auf Hugging Face wider: BERT-basierte Modelle werden nach wie vor deutlich häufiger heruntergeladen als die populärsten LLMs.

ModernBERT im Detail: Architektur und Training

ModernBERT profitiert von den Fortschritten in der LLM-Forschung der letzten Jahre. Die Architektur basiert auf „Transformer++“, einer Weiterentwicklung des ursprünglichen Transformer-Modells, die auch in Llama 2 zum Einsatz kommt. Zu den wichtigsten Neuerungen gehören:

Rotary Positional Embeddings (RoPE): Verbessern das Verständnis der Wortpositionen und ermöglichen die Verarbeitung längerer Sequenzen.
GeGLU-Schichten: Ersetzen die traditionellen MLP-Schichten für eine verbesserte Aktivierungsfunktion.
Eliminierung von Bias-Termen: Optimiert die Parameternutzung.
Zusätzliche Normalisierungsschicht: Stabilisiert das Training.

Ein weiterer entscheidender Faktor für die Leistungsfähigkeit von ModernBERT ist das Training. Das Modell wurde auf einem vielfältigen Datensatz von 2 Billionen Token trainiert, der neben Text auch Code und wissenschaftliche Artikel umfasst. Diese breite Datenbasis, kombiniert mit einem dreiphasigen Trainingsprozess, soll ModernBERT in verschiedenen Anwendungsbereichen überlegen machen.

Leistung überzeugt: Benchmarks und Anwendungsfälle

Die veröffentlichten Benchmark-Ergebnisse zeigen, dass ModernBERT in verschiedenen NLP-Aufgaben führend ist. Es übertrifft nicht nur BERT und seine direkten Nachfolger, sondern schlägt sogar das etablierte DeBERTaV3 in wichtigen Bereichen wie dem GLUE-Benchmark – und das bei einem deutlich geringeren Speicherbedarf und höherer Geschwindigkeit.

Besonders hervorzuheben ist die Fähigkeit von ModernBERT, lange Kontexte von bis zu 8192 Token zu verarbeiten. Dies ist ein entscheidender Vorteil für Anwendungen wie RAG, bei denen das Verständnis des gesamten Dokuments für die Informationsfindung wichtig ist. Darüber hinaus ist ModernBERT das erste Encoder-Modell, das mit einer signifikanten Menge an Code trainiert wurde, was neue Möglichkeiten für Code-Suche und codebezogene KI-Anwendungen eröffnet.

Die Entwickler betonen die praktische Anwendbarkeit von ModernBERT. Durch den Fokus auf Effizienz lässt sich das Modell auch auf weniger leistungsstarker Hardware gut einsetzen. Die „Base“-Version könnte sogar für Anwendungen in Browsern oder auf Smartphones geeignet sein.

Ein Aufruf an die Community

Mit der Veröffentlichung von ModernBERT auf Hugging Face laden die Entwickler die Community ein, das Potenzial des Modells zu erkunden. Bis zum 10. Januar 2025 läuft ein Wettbewerb für die besten Demonstrationen von ModernBERT. Die Gewinner werden nicht nur auf dem Blogbeitrag vorgestellt, sondern erhalten auch einen Amazon-Gutschein und ein Hugging Face Pro-Abonnement.

Fazit: ModernBERT könnte zum neuen Standard werden

ModernBERT tritt an, um die Nachfolge von BERT anzutreten und verspricht, die Welt der Encoder-Modelle zu revolutionieren. Durch die Kombination moderner Architekturen, eines umfangreichen und diversen Trainingsdatensatzes sowie einem Fokus auf Effizienz bietet ModernBERT ein attraktives Gesamtpaket für eine Vielzahl von NLP-Anwendungen. Ob sich ModernBERT tatsächlich als neuer Standard etablieren kann, wird die Zukunft zeigen. Die vielversprechenden ersten Ergebnisse und die offene Verfügbarkeit lassen jedoch aufhorchen und machen neugierig auf die kommenden Entwicklungen in diesem wichtigen Bereich der Künstlichen Intelligenz.

Quelle: https://huggingface.co/blog/modernbert