OpenAI PaperBench: Neuer Maßstab zur Bewertung von KIs Forschungsfähigkeiten
PaperBench: OpenAIs neuer Test misst KIs Fähigkeit zur Forschungsreplikation. Erfahre Details zu Aufbau, Leistung (Claude 3.5: 21%), Menschenvergleich & der Code-Dev-Variante.