S1-32B: So einfach geht Test-Zeit-Skalierung bei LLMs für bessere Ergebnisse!
Einfache Test-Zeit-Skalierung für LLMs: S1-32B übertrifft o1-preview mit "Budget Forcing" und minimalem Datensatz. Open-Source-Modell, Code & Daten verfügbar!
Einfache Test-Zeit-Skalierung für LLMs: S1-32B übertrifft o1-preview mit "Budget Forcing" und minimalem Datensatz. Open-Source-Modell, Code & Daten verfügbar!