Test-Time Compute Scaling: Die Weiterentwicklung von Large Language Models (LLMs) hat in den letzten Jahren vor allem durch immer größere Trainingsbudgets stattgefunden. Doch die Ressourcen für gigantische Modelle sind mittlerweile kaum noch finanzierbar. Eine neue Strategie gewinnt deshalb an Bedeutung: Test-Time Compute Scaling. Dabei wird die Rechenzeit nicht im Training, sondern während der Inferenz effizient genutzt. Ein prominentes Beispiel ist OpenAI’s o1-Modell, das durch „längeres Nachdenken“ schwierige Aufgaben besser löst.
In einem neuen Blogpost stellt das Team von Hugging Face Strategien vor, wie offene Modelle durch dynamische Testzeit-Inferenz ähnlich starke Ergebnisse erzielen können wie größere Modelle. Die präsentierten Methoden konzentrieren sich vor allem auf Search-Based Techniques, die Lösungen Schritt für Schritt verbessern und so auch komplexe mathematische Probleme lösen können.
Das musst Du wissen: Test-Time Compute Scaling
- Was ist Test-Time Compute Scaling?
- Eine Methode, bei der Modelle während der Inferenz (Testzeit) länger „nachdenken“, um schwierigere Probleme zu lösen.
- Hauptstrategien:
- Self-Refinement: Iterative Verfeinerung von Antworten durch das Modell selbst.
- Search Against a Verifier: Mehrere Antworten generieren und mithilfe eines Verifiers die beste auswählen.
- Techniken im Fokus:
- Best-of-N: Auswahl der besten Antwort aus mehreren Kandidaten mithilfe eines Reward-Modells.
- Beam Search mit Process Reward Models (PRMs): Systematische Suche nach Teillösungen mit schrittweiser Bewertung.
- DVTS (Diverse Verifier Tree Search): Erweiterung von Beam Search, die Vielfalt bei der Lösungssuche erhöht.
- Ergebnisse: Kleine Modelle (z. B. Llama 1B) können durch diese Strategien auf Benchmarks wie MATH-500 größere Modelle wie Llama 70B übertreffen.
- Einsatzgebiete: Besonders vorteilhaft bei begrenzter Hardware oder speicherintensiven Anwendungen.
Dynamische Inferenz: Strategien für bessere Ergebnisse
Das Team von Hugging Face hat drei zentrale Suchstrategien analysiert und implementiert, um offene Modelle wie Llama 1B und Llama 3B zu optimieren:
1. Best-of-N: Mehrere Antworten, eine Auswahl
Bei der Best-of-N-Methode generiert das Modell mehrere Kandidatenlösungen und wählt die beste anhand eines Reward-Modells aus. Hierbei gibt es zwei Varianten:
- Vanilla Best-of-N: Die Antwort mit dem höchsten Reward wird gewählt.
- Weighted Best-of-N: Die Rewards identischer Antworten werden aufsummiert, wodurch wiederkehrende hochwertige Antworten priorisiert werden.
Ergebnis: Weighted Best-of-N liefert bessere Ergebnisse, vor allem bei höheren Rechenbudgets. Dennoch zeigt sich eine Plateau-Bildung ab etwa 256 Kandidaten.
2. Beam Search mit Process Reward Models
Beam Search bietet eine systematische Möglichkeit, Lösungen Schritt für Schritt zu erweitern. Durch die Kombination mit Process Reward Models (PRMs), die Zwischenlösungen bewerten, lassen sich vielversprechende Pfade frühzeitig identifizieren.
Highlights der Methode:
- Effizienz: Beam Search mit 4 Strahlen erreicht dieselbe Genauigkeit wie Best-of-N mit 16 Kandidaten.
- Performance: Mit nur 32 Lösungswegen kann ein 1B-Modell die Genauigkeit eines 8B-Modells erreichen.
Ein Nachteil zeigt sich bei einfachen Problemen oder großen Testzeit-Rechenbudgets, bei denen Beam Search zu wenig Vielfalt bietet.
3. DVTS: Mehr Vielfalt für bessere Lösungen
Um das Problem der mangelnden Vielfalt bei Beam Search zu lösen, entwickelte Hugging Face Diverse Verifier Tree Search (DVTS). Hierbei wird die Suche in mehrere unabhängige Teilbäume aufgeteilt, die jeweils individuell erweitert werden.
Vorteile:
- Bessere Ergebnisse bei einfachen und mittleren Problemen.
- Optimiert für große Rechenbudgets, bei denen Beam Search seine Grenzen zeigt.
Compute-Optimal Scaling: Die beste Strategie für jedes Problem
Ein entscheidendes Ergebnis der Studie ist die Idee des compute-optimal scaling: Statt einer einzelnen Suchmethode werden verschiedene Strategien je nach Problemkomplexität und Rechenbudget kombiniert. Beispielsweise eignen sich Best-of-N für einfachere Probleme, während Beam Search bei komplexeren Aufgaben besser abschneidet.
Das Zusammenspiel dieser Methoden führt zu einer optimalen Nutzung der verfügbaren Rechenzeit und ermöglicht beeindruckende Ergebnisse. So kann das kleine Llama 3B-Modell mit compute-optimal scaling sogar die Leistung des deutlich größeren Llama 70B übertreffen.
Wohin geht die Reise mit Test-Time Compute Scaling?
Die Forschung zeigt, dass Test-Time Compute Scaling großes Potenzial birgt, aber auch Herausforderungen mit sich bringt:
- Stärkere Verifier: Der Erfolg dieser Methoden hängt stark von der Qualität der Reward-Modelle ab.
- Selbst-Verifikation: Modelle, die ihre eigenen Antworten validieren können, sind das Ziel, aber schwer umzusetzen.
- Erweiterung auf andere Domänen: Während die Techniken in mathematischen und strukturierten Bereichen funktionieren, bleibt die Übertragung auf weniger verifizierbare Aufgaben offen.
- Daten-Generierung: Test-Time Compute kann als Werkzeug zur Generierung von Trainingsdaten dienen, um Modelle iterativ zu verbessern.
Fazit: Test-Time Compute Scaling revolutioniert die Inferenz
Test-Time Compute Scaling eröffnet neue Möglichkeiten, die Leistungsfähigkeit von LLMs zu verbessern, ohne ständig größere Modelle trainieren zu müssen. Durch intelligente Suchstrategien wie Best-of-N, Beam Search und DVTS können kleinere Modelle wie Llama 1B leistungsstarke Ergebnisse erzielen und sogar größere Modelle schlagen.
Die Kombination aus effizienter Testzeit-Inferenz, starken Verifiern und Compute-Optimal Scaling wird in Zukunft eine zentrale Rolle spielen – besonders, wenn Ressourcen begrenzt sind.
Quelle: Scaling Test-Time Compute with Open Models – Hugging Face
Test-Time Compute Scaling, Beam Search, Best-of-N, DVTS, LLMs, Process Reward Models, Compute-Optimal Scaling, Hugging Face, Llama 1B, MATH-500