FaRel-Bench testet die logischen Fähigkeiten von Sprachmodellen
FaRel-Bench ist ein Benchmarking-Projekt, das die logischen Fähigkeiten großer Sprachmodelle (LLMs) durch Familienbeziehungs-Quizze testet. Diese Tests nutzen bekannte Familienbeziehungen, um die Modelle herauszufordern.