ModernBERT - Beitrag auf KINEWS24

Starten Sie Ihre KI-Reise mit Deutschlands modernster KI-Beratung

Business, Language Models

ModernBERT betritt die Bühne: Das vielversprechende Upgrade für NLP-Workloads beerbt den Platz von BERT

BY Oliver Welling

20 December, 2024
08:58

Sechs Jahre nach seiner Einführung ist BERT, ein Eckpfeiler der Natural Language Processing (NLP), immer noch allgegenwärtig. Doch nun kündigt sich ein Nachfolger an: ModernBERT. Entwickelt von Answer.AI und LightOn in Zusammenarbeit mit weiteren Forschern, verspricht diese neue Modellfamilie eine deutliche Verbesserung in Sachen Geschwindigkeit, Genauigkeit und Kontextverständnis – und das bei schlankeren Dimensionen.

Während im Bereich der Large Language Models (LLMs) wie GPT, Llama und Claude in den letzten Jahren beeindruckende Fortschritte erzielt wurden, blieben die sogenannten Encoder-Modelle, zu denen auch BERT gehört, tendenziell im Schatten. Encoder-Modelle sind jedoch die Arbeitstiere vieler praktischer Anwendungen, von der semantischen Suche in Retrieval Augmented Generation (RAG)-Systemen bis hin zur Inhaltsklassifizierung und Entitätsextraktion. ModernBERT zielt darauf ab, die in der LLM-Forschung gewonnenen Erkenntnisse in die Welt der Encoder zu übertragen und damit eine neue Ära für diese wichtigen Modelle einzuleiten.

Das musst Du wissen: ModernBERT

Nachfolger von BERT: ModernBERT ist als direkter Ersatz für BERT-ähnliche Modelle konzipiert.
Verbesserte Performance: Übertrifft BERT und seine Nachfolger in Genauigkeit und Geschwindigkeit.
Längerer Kontext: Verarbeitet Sequenzen mit bis zu 8192 Token (verglichen mit 512 bei BERT).
Effizientere Architektur: Nutzt moderne Transformer-Architekturen für schnellere Verarbeitung.
Mit Code trainiert: Beinhaltet umfangreiche Code-Daten im Trainingsdatensatz, was neue Anwendungsfälle eröffnet.
Zwei Modellgrößen: Verfügbar als „Base“ (139 Millionen Parameter) und „Large“ (395 Millionen Parameter) Version.
Open Source: Die Modelle sind auf Hugging Face verfügbar und können frei verwendet und angepasst werden.

Encoder-Modelle: Die unbesungenen Helden der KI

Obwohl generative Modelle wie ChatGPT derzeit im Rampenlicht stehen, sind Encoder-Modelle wie BERT weiterhin unerlässlich für zahlreiche Anwendungen. Ihre Stärke liegt in der effizienten Erzeugung von Embedding-Vektoren, komprimierten numerischen Darstellungen von Text, die für Suchaufgaben, Klassifizierung und andere nicht-generative Aufgaben optimiert sind. Im Gegensatz zu Decoder-Modellen, die sequenziell von links nach rechts arbeiten, können Encoder den gesamten Eingabetext gleichzeitig erfassen und so ein umfassenderes Verständnis entwickeln.

Die Entwickler von ModernBERT argumentieren, dass Decoder-Modelle für viele praktische Anwendungen zu groß, zu langsam und zu ressourcenintensiv sind. Encoder-Modelle hingegen bieten ein optimales Verhältnis von Leistung und Effizienz. Dies spiegelt sich auch in den Downloadzahlen auf Hugging Face wider: BERT-basierte Modelle werden nach wie vor deutlich häufiger heruntergeladen als die populärsten LLMs.

ModernBERT im Detail: Architektur und Training

ModernBERT profitiert von den Fortschritten in der LLM-Forschung der letzten Jahre. Die Architektur basiert auf „Transformer++“, einer Weiterentwicklung des ursprünglichen Transformer-Modells, die auch in Llama 2 zum Einsatz kommt. Zu den wichtigsten Neuerungen gehören:

Rotary Positional Embeddings (RoPE): Verbessern das Verständnis der Wortpositionen und ermöglichen die Verarbeitung längerer Sequenzen.
GeGLU-Schichten: Ersetzen die traditionellen MLP-Schichten für eine verbesserte Aktivierungsfunktion.
Eliminierung von Bias-Termen: Optimiert die Parameternutzung.
Zusätzliche Normalisierungsschicht: Stabilisiert das Training.

Ein weiterer entscheidender Faktor für die Leistungsfähigkeit von ModernBERT ist das Training. Das Modell wurde auf einem vielfältigen Datensatz von 2 Billionen Token trainiert, der neben Text auch Code und wissenschaftliche Artikel umfasst. Diese breite Datenbasis, kombiniert mit einem dreiphasigen Trainingsprozess, soll ModernBERT in verschiedenen Anwendungsbereichen überlegen machen.

Leistung überzeugt: Benchmarks und Anwendungsfälle

Die veröffentlichten Benchmark-Ergebnisse zeigen, dass ModernBERT in verschiedenen NLP-Aufgaben führend ist. Es übertrifft nicht nur BERT und seine direkten Nachfolger, sondern schlägt sogar das etablierte DeBERTaV3 in wichtigen Bereichen wie dem GLUE-Benchmark – und das bei einem deutlich geringeren Speicherbedarf und höherer Geschwindigkeit.

Besonders hervorzuheben ist die Fähigkeit von ModernBERT, lange Kontexte von bis zu 8192 Token zu verarbeiten. Dies ist ein entscheidender Vorteil für Anwendungen wie RAG, bei denen das Verständnis des gesamten Dokuments für die Informationsfindung wichtig ist. Darüber hinaus ist ModernBERT das erste Encoder-Modell, das mit einer signifikanten Menge an Code trainiert wurde, was neue Möglichkeiten für Code-Suche und codebezogene KI-Anwendungen eröffnet.

Die Entwickler betonen die praktische Anwendbarkeit von ModernBERT. Durch den Fokus auf Effizienz lässt sich das Modell auch auf weniger leistungsstarker Hardware gut einsetzen. Die „Base“-Version könnte sogar für Anwendungen in Browsern oder auf Smartphones geeignet sein.

Ein Aufruf an die Community

Mit der Veröffentlichung von ModernBERT auf Hugging Face laden die Entwickler die Community ein, das Potenzial des Modells zu erkunden. Bis zum 10. Januar 2025 läuft ein Wettbewerb für die besten Demonstrationen von ModernBERT. Die Gewinner werden nicht nur auf dem Blogbeitrag vorgestellt, sondern erhalten auch einen Amazon-Gutschein und ein Hugging Face Pro-Abonnement.

Fazit: ModernBERT könnte zum neuen Standard werden

ModernBERT tritt an, um die Nachfolge von BERT anzutreten und verspricht, die Welt der Encoder-Modelle zu revolutionieren. Durch die Kombination moderner Architekturen, eines umfangreichen und diversen Trainingsdatensatzes sowie einem Fokus auf Effizienz bietet ModernBERT ein attraktives Gesamtpaket für eine Vielzahl von NLP-Anwendungen. Ob sich ModernBERT tatsächlich als neuer Standard etablieren kann, wird die Zukunft zeigen. Die vielversprechenden ersten Ergebnisse und die offene Verfügbarkeit lassen jedoch aufhorchen und machen neugierig auf die kommenden Entwicklungen in diesem wichtigen Bereich der Künstlichen Intelligenz.

Quelle: https://huggingface.co/blog/modernbert

Roulette Orphelins Strategie

Roulette Orphelins Strategie Royal Panda bietet auch unterhaltsame Soft-Spiele, Roulette-Spiele zu spielen. Spieler finden Slots mit unterschiedlichen Funktionen wie Wild-Symbolen,.

by
7 October, 2025

Alle Neuen Online Casinos Mit Bonus Ohne Einzahlung

Alle Neuen Online Casinos Mit Bonus Ohne Einzahlung Der RTP-Prozentsatz (Return to Player) informiert Sie über die potenziellen Gewinne, alle.

by
7 October, 2025

by
7 October, 2025

Alle Neuen Online Casinos Mit Bonus Ohne Einzahlung

by
7 October, 2025

Online Casinos Mit Playtech

by
7 October, 2025

Cybersecurity

Ethik und Gesellschaft

Events

Interviews und Meinungen

Investment

Politik und Regulierung

Unternehmen

Audio

Grafik

Hardware

Language Models

Video

Cybersecurity

Ethik und Gesellschaft

Events

Interviews und Meinungen

Investment

Politik und Regulierung

Unternehmen

Audio

Grafik

Hardware

Language Models

Video

Business, Language Models

ModernBERT betritt die Bühne: Das vielversprechende Upgrade für NLP-Workloads beerbt den Platz von BERT

Das musst Du wissen: ModernBERT

Encoder-Modelle: Die unbesungenen Helden der KI

ModernBERT im Detail: Architektur und Training

Leistung überzeugt: Benchmarks und Anwendungsfälle

Ein Aufruf an die Community

Fazit: ModernBERT könnte zum neuen Standard werden

Ähnliche Beiträge

Folge uns

Beliebte Artikel

About Author

Maßgeschneiderte KI-Lösungen für Ihr Unternehmen

TechNow ist Ihr strategischer Partner für den erfolgreichen Einsatz von Künstlicher Intelligenz.

HOT CATEGORIES

Cybersecurity

Events

Interviews und Meinungen

Investment

Unternehmen

TAGS