ChatGPT-4 schlägt Menschen bei moralischer BeurteilungChatGPT-4 schlägt Menschen bei moralischer Beurteilung
Können große Sprachmodelle als moralische Experten gelten?

In der modernen Welt spielen Künstliche Intelligenz (KI) und große Sprachmodelle (LLMs) eine immer größere Rolle in verschiedenen Bereichen, von der Übersetzung bis hin zur Arzneimittelforschung. Doch können diese Modelle auch als moralische Experten betrachtet werden? Diese Frage steht im Mittelpunkt einer Studie von Danica Dillion und Kollegen, die die moralischen Fähigkeiten von GPT-4o mit denen eines menschlichen Ethikexperten verglichen hat.

Traditionell wurde die Moral als ein Bereich angesehen, der komplex und kontextabhängig ist und daher schwer von Maschinen zu erfassen ist. Allerdings zeigen neuere Arbeiten, dass LLMs moralische Urteile mit hoher Genauigkeit widerspiegeln können. Doch wahre moralische Expertise erfordert nicht nur übereinstimmende Urteile, sondern auch klare und vertrauenswürdige moralische Begründungen.

In der Studie wurde die Fähigkeit von GPT-4o, moralische Ratschläge zu geben, mit der von Kwame Anthony Appiah, dem bekannten Ethiker der New York Times, verglichen. Dabei stellte sich heraus, dass GPT-4o in vielerlei Hinsicht besser abschnitt als der menschliche Ethikexperte.

Das musst du wissen – ChatGPT-4 schlägt Menschen bei moralischer Beurteilung

  • Vergleich mit menschlichen Ethikexperten: GPT-4o wurde mit dem Ethiker der New York Times verglichen und schnitt in mehreren Kategorien besser ab.
  • Bewertungskriterien: Die Studie bewertete moralische Ratschläge hinsichtlich ihrer Moralität, Vertrauenswürdigkeit, Nachdenklichkeit, Nuanciertheit und Richtigkeit.
  • Ergebnisse: GPT-4o’s Ratschläge wurden als moralischer, vertrauenswürdiger, durchdachter und richtiger bewertet als die des menschlichen Ethikers.
  • Erklärungsqualität: Die Erklärungen von GPT-4o wurden als klarer und überzeugender empfunden.
  • Erkennung von KI: Obwohl die Ratschläge von GPT-4o als besser bewertet wurden, konnten die Teilnehmer dennoch oft erkennen, dass sie von einer KI stammten.

Die Studie untersuchte, ob LLMs wie GPT-4o eine moralische Expertise besitzen, indem sie ihre Urteile mit denen von Menschen und Experten verglich. Dabei wurden drei Hauptkriterien herangezogen:

  1. Übereinstimmung der Urteile: Hierbei wurde untersucht, inwieweit die Urteile von GPT-4o mit denen der allgemeinen Bevölkerung oder von anerkannten Experten übereinstimmen.
  2. Methodik der Urteilsbildung: Es wurde geprüft, ob die Art und Weise der Entscheidungsfindung von GPT-4o der von Menschen ähnelt.
  3. Erklärungsfähigkeit: Ein zentrales Kriterium war die Fähigkeit von GPT-4o, seine moralischen Urteile klar und überzeugend zu erklären.

Die Ergebnisse zeigten, dass GPT-4o in der Lage ist, moralische Urteile nicht nur zu fällen, sondern diese auch auf eine Weise zu begründen, die von den Menschen als nachvollziehbar und vertrauenswürdig angesehen wird.

Tiefergehende Analyse der Ergebnisse

In zwei Studien wurde die Qualität der moralischen Erklärungen und Ratschläge von GPT-4o bewertet:

  1. Studie 1: Moralische Erklärungen
    • Methode: Teilnehmer lasen moralische Szenarien und bewerteten Erklärungen von GPT-4o und menschlichen Teilnehmern.
    • Ergebnisse: Die Erklärungen von GPT-4o wurden als moralischer, vertrauenswürdiger, durchdachter und richtiger bewertet. Die Nuanciertheit der Erklärungen war ähnlich hoch wie die der Menschen.
    • Erkennung von KI: Die Teilnehmer erkannten die von GPT-4o generierten Erklärungen häufiger als KI-generiert, obwohl diese qualitativ hochwertiger waren.
  2. Studie 2: Moralische Ratschläge
    • Methode: Teilnehmer bewerteten moralische Ratschläge von GPT-4o und dem Ethiker der New York Times.
    • Ergebnisse: GPT-4o’s Ratschläge wurden insgesamt als besser bewertet. Sie wurden als moralischer, vertrauenswürdiger, durchdachter und richtiger empfunden.
    • Sprachanalyse: Eine explorative Analyse zeigte, dass GPT-4o mehr moralische und positive Sprache verwendete, was teilweise die hohe Bewertung seiner Ratschläge erklärte.

Die Studienergebnisse zeigen, dass GPT-4o in der Lage ist, moralische Urteile und Ratschläge auf einem Niveau zu geben, das dem von menschlichen Experten entspricht oder dieses sogar übertrifft. Diese Fähigkeit, moralische Begründungen klar und überzeugend zu kommunizieren, ist entscheidend für den Einsatz von LLMs in Bereichen, die komplexe ethische Entscheidungen erfordern.

Obwohl GPT-4o in diesen Studien als moralischer Experte anerkannt wurde, bleibt die Herausforderung bestehen, sicherzustellen, dass diese Modelle in der Lage sind, ihre Entscheidungsprozesse transparent zu erklären und moralische Standards der Gesellschaft zu reflektieren. Die Ergebnisse legen nahe, dass LLMs wertvolle Werkzeuge in moralisch relevanten Bereichen sein könnten, insbesondere wenn sie in Zusammenarbeit mit menschlichen Experten eingesetzt werden.

#KünstlicheIntelligenz #MoralischeExpertise #GPT4o #Ethik #Sprachmodelle #KI #MoralischeEntscheidungen #Technologie

Dillion, D., Mondal, D., Tandon, N., & Gray, K. (2024). Large Language Models as Moral Experts: GPT-4o Outperforms Expert Ethicist in Providing Moral Guidance. Department of Psychology and Neuroscience, University of North Carolina at Chapel Hill; Allen Institute for Artificial Intelligence.

Verfügbar unter: osf.io/9684s, Studien-Paper-PDF