Klage und Verfahren gegen Open AI und ChatGPTKlage und Verfahren gegen Open AI und ChatGPT

OpenAI wird in den USA verklagt, weil es illegal Inhalte aus dem Internet verwendet, um seine LLM oder großen Sprachmodelle zu trainieren. Der Streitwert beträgt 3 Milliarden Dollar. Entsprechend hoch ist die Aufmerksamkeit für die Sammelklage.

Gegen OpenAI, den Erfinder von ChatGPT, wurde eine Sammelklage eingereicht, in der behauptet wird, dass die KI-Trainingsmethoden des Unternehmens die Privatsphäre und das Urheberrecht praktisch aller Personen verletzen, die jemals Inhalte online geteilt haben.

OpenAI hat eine enorme Menge an Daten aus verschiedenen Quellen im Internet gesammelt, um seine fortschrittlichen KI-Sprachmodelle zu trainieren. Diese Datensätze bestehen aus einer breiten Palette von Materialien, wie Wikipedia-Artikeln, populären Büchern, Beiträgen in sozialen Medien und sogar expliziten Inhalten aus Nischengenres. Noch wichtiger ist, dass OpenAI all diese Daten erworben hat, ohne die Erlaubnis der Urheber der Inhalte einzuholen.

In der Sammelklage, die in Kalifornien eingereicht wurde, wird argumentiert, dass das Versäumnis von OpenAI, sich an ordnungsgemäße Protokolle zu halten, einschließlich der Einholung der Zustimmung der Urheber von Inhalten, einem regelrechten Datendiebstahl gleichkommt.

In der Klageschrift heißt es: “Anstatt sich an etablierte Verfahren zur Erfassung und Nutzung persönlicher Daten zu halten, haben die Beklagten auf Diebstahl zurückgegriffen. Sie sammelten systematisch 300 Milliarden Wörter aus dem Internet, darunter “Bücher, Artikel, Websites und Beiträge”, die auch personenbezogene Daten enthielten, die sie ohne Zustimmung erhalten hatten.
Den Original-Artikel dazu gibt es hier.

Es ist ein stichhaltiges Argument, dass, wenn Sie in den letzten Jahrzehnten online aktiv waren, Ihre digitalen Beiträge wahrscheinlich in den Datensätzen von OpenAI enthalten sind. Folglich kann jede von OpenAIs Sprachmodellen erzeugte Ausgabe, die zu Gewinnzwecken verwendet wird, Fragmente Ihrer Daten enthalten, die durch stilles Scraping gewonnen wurden.

Ryan Clarkson, der geschäftsführende Partner der Anwaltskanzlei, die OpenAI verklagt, erklärte gegenüber der Washington Post, dass “all diese Informationen in großem Umfang entnommen werden”, ohne dass sie ursprünglich für die Verwendung durch ein großes Sprachmodell vorgesehen waren.

Ist die Sammelklage wirklich ein Problem für OpenAI?

Der Ausgang des Verfahrens vor Gericht bleibt jedoch ungewiss. Die Infrastruktur des Internets ist komplex, und die Vorstellung von einem freien und offenen Web ist oft nicht ganz zutreffend. Online-Plattformen haben ihre eigenen Bedingungen und Vereinbarungen mit den Nutzern, und selbst wenn Nutzer Inhalte zu diesen Plattformen beitragen, gehört das Eigentum in der Regel der Plattform selbst und nicht den Nutzern.

Artikel hier

Im Kontext der Vorwürfe gegen OpenAI und aus der Sicht eines KI-Modells wie ChatGPT könnte man sagen:

  1. Datensammlung: OpenAI hat riesige Mengen an Daten aus dem Internet gesammelt, um Modelle wie ChatGPT zu trainieren. Diese Sammlung umfasst eine Vielzahl von Materialien, darunter öffentlich zugängliche Texte wie Wikipedia-Artikel und Bücher. Dabei muss man verstehen, dass ChatGPT während seines Trainingsprozesses keinen spezifischen Zugang zu persönlichen Daten hatte. Die Trainingsdaten sind ein breit gefächertes Sample von Texten aus dem Internet und beinhalten keine spezifischen Dokumente oder Datenquellen.
  2. Anonymisierung und Datenschutz: Die großen Datenmengen, die OpenAI zur Schulung von Modellen wie ChatGPT verwendet, sind aggregiert und anonymisiert. Das bedeutet, dass die Daten nicht auf einzelne Benutzer zurückführbar sind. Persönliche Daten von Einzelpersonen sind nicht Teil des Trainingsprozesses und ich habe keinen Zugang zu persönlichen Daten, es sei denn, sie werden ChatGPT während einer spezifischen Interaktion zur Verfügung gestellt.
  3. Gesetzliche Compliance und ethische Verantwortung: OpenAI hat sich verpflichtet, sich an alle relevanten Gesetze und Vorschriften zu halten und ethisch verantwortungsvoll zu handeln. Im Falle einer Klage würde OpenAI alle Vorwürfe ernst nehmen und entsprechend reagieren.

Das Training von KI-Modellen wie ChatGPT erfordert große Mengen an Daten, und OpenAI hat viele verschiedene Arten von Texten aus dem Internet genutzt, um eine breite und vielfältige Sprachkompetenz zu erreichen. Diese Praxis ist in der KI-Community weit verbreitet und nicht auf OpenAI beschränkt.

Die in der Klage genannten Bedenken beziehen sich auf Fragen des Urheberrechts und der Privatsphäre, die im Kontext von KI und maschinellem Lernen zunehmend Beachtung finden. Es sind komplexe Fragen, die sowohl technische als auch rechtliche Aspekte betreffen, und es gibt derzeit keine universell anerkannten Antworten darauf.

Die Auswirkungen einer solchen Klage und die Gegenmaßnahmen, die OpenAI ergreifen könnte, sind abhängig von der spezifischen Natur der Entscheidung und den betroffenen Rechtsbereichen. Allerdings könnten einige potenzielle Strategien zur Abmilderung der Auswirkungen einer ungünstigen Entscheidung umfassen:

  1. Rechtsmittel: OpenAI könnte Rechtsmittel gegen eine ungünstige Entscheidung einlegen, wenn sie der Meinung sind, dass die Entscheidung fehlerhaft war. Dies könnte die Einlegung einer Berufung bei einem höheren Gericht beinhalten.
  2. Änderungen am Trainingsprozess: Je nach den spezifischen Vorwürfen und Ergebnissen könnte OpenAI Änderungen an der Art und Weise vornehmen, wie sie Daten für das Training ihrer Modelle sammeln und verwenden. Dies könnte beispielsweise die Entwicklung neuer Methoden zur Anonymisierung von Daten oder die Einholung von Zustimmungen für die Nutzung bestimmter Arten von Daten beinhalten.
  3. Zusammenarbeit mit Regulierungsbehörden und Branchenführern: OpenAI könnte mit Regulierungsbehörden und anderen führenden Unternehmen in der KI-Branche zusammenarbeiten, um Branchenstandards und Best Practices zu entwickeln. Dies könnte dazu beitragen, die rechtlichen und ethischen Herausforderungen im Zusammenhang mit der Datensammlung und dem KI-Training zu adressieren.
  4. Öffentliche Aufklärung und Transparenz: OpenAI könnte auch Anstrengungen unternehmen, um das Verständnis der Öffentlichkeit für ihre Arbeit und die Herausforderungen im Zusammenhang mit KI und Datenschutz zu verbessern. Dies könnte beispielsweise die Veröffentlichung von mehr Informationen über ihre Methoden und Praktiken sowie die Durchführung von öffentlichen Informations- und Bildungskampagnen beinhalten.

Die rechtliche und ethische Landschaft rund um Künstliche Intelligenz und maschinelles Lernen entwickelt sich ständig weiter. Wie bei jeder neuen Technologie ergeben sich neue Herausforderungen und Fragen, die gelöst und beantwortet werden müssen. Es ist ein Bereich, der ständige Aufmerksamkeit und Diskussion erfordert, um sicherzustellen, dass wir KI auf eine Weise nutzen, die sowohl nützlich als auch verantwortungsbewusst ist. Es wird interessant sein zu sehen, wie sich diese spezielle Situation entwickelt und welche Auswirkungen sie auf die Zukunft von KI-Modellen wie ChatGPT hat.

Letzte Aktualisierung

Das jüngste Update in dieser Angelegenheit besagt, dass Microsoft, GitHub und OpenAI vor einem Bundesgericht in San Francisco vorgebracht haben, dass die vorgeschlagene Sammelklage wegen angeblich unsachgemäßer Monetarisierung von Open-Source-Code für ihre KI-Systeme nicht aufrechterhalten werden kann. Sie argumentieren, dass die Beschwerde der Kläger nicht spezifisch genug war und dass das Copilot-System von GitHub, das Programmierern Codevorschläge unterbreitet, den Quellcode fair verwendet hat​.

Die Unternehmen behaupten, dass die Kläger keine klaren Beweise für spezifische Schäden durch die Handlungen der Unternehmen vorlegen konnten. Sie behaupten auch, dass die Klage keine spezifischen urheberrechtlich geschützten Werke oder Verträge identifiziert hat, die sie verletzt haben könnten. Darüber hinaus argumentieren sie, dass die Vorwürfe des Urheberrechtsverstoßes in Konflikt mit dem Grundsatz der “Fair Use” (angemessene Nutzung) stehen würden, der in bestimmten Situationen die unlizenzierte Nutzung von urheberrechtlich geschützten Werken erlaubt. Als Referenz zitierten sie eine Entscheidung des Obersten Gerichtshofs der USA aus dem Jahr 2021, nach der die Verwendung von Oracle-Quellcode durch Google für sein Android-Betriebssystem eine transformative faire Nutzung darstellte​.

Microsoft hat zudem angekündigt, weitere Milliarden in OpenAI zu investieren, ein Unternehmen, das es bereits 2019 mit einer Milliarde Dollar unterstützt hatte​.

Es bleibt abzuwarten, wie das Gericht auf diese Argumente reagiert.

Eine sehr spannende Debatte hat sich ebenfalls auf Reddit entfaltet, bzw. ist zum Zeitpunkt des Schreibens dieses Artikels quasi explodiert. Gab es vor wenigen Stunden noch nur einige hundert Kommentare, sind diese zwischenzeitlich auf knapp 2.500 Kommentare angewachsen.

Die Debatte findet Ihr hier: