Google hat mit neuer Privicy Policy eine globale Spielwiese für sich geschaffenGoogle hat mit neuer Privicy Policy eine globale Spielwiese für sich geschaffen

Am Wochenende hat Google die Datenschutzrichtlinien aktualisiert. Das hat bei Google eine lange Tradition, diesmal ist es aber anders gelagert:

Mit den neuen Datenschutzrichtlinien soll Google alles (!), was Du gerade online postest für KI Training, bzw. zum auslesen benutzen können. Damit erklärt Google quasi, dass das gesamte (frei zugängliche) Internet Ihre private Spielwiese zum Training aller Google-KIs ist.

“Google verwendet die Informationen, um unsere Dienste zu verbessern und neue Produkte, Funktionen und Technologien zu entwickeln, die unseren Nutzern und der Öffentlichkeit zugute kommen”, heißt es in den neuen Google-Richtlinien. “Zum Beispiel verwenden wir öffentlich zugängliche Informationen, um die KI-Modelle von Google zu trainieren und Produkte und Funktionen wie Google Translate, Bard und Cloud-KI-Funktionen zu entwickeln.”

Scrape it!

Wenn Google Deine Texte lesen kann, wird dieser (jeder/alle (!!!)) Texte auch benutzt werden – und automatisch in den Besitz von Google übergehen, damit unsere Daten später in den Bots von Google Ihr Werk tun können. Selbstverständlich zum Wohl der User (und ganz sicher nicht zum finanziellen Wohl von Google, oder deren Eigentümern und Aktionären).

In der vorherigen Version war noch die Rede von “Sprachmodellen” und “Google Translate” – in der neuen Version werden Bard und Cloud KIs ausdrücklich mit genannt.

Kleiner Unterschied, große Wirkung: “lesen” und “verwenden”

Datenschutzrichtlinien beschreiben üblicherweise, wie ein Unternehmen die gesammelten Daten in den eigenen Applikationen verwendet. In den neuen Datenschutzrichtlinien – und es ist mindestens fraglich ob das überhaupt haltbar ist – behält sich Google das Recht vor Daten zu sammeln und zu nutzen, die in irgendeinem Teil des (öffentlichen) Webs gepostet werden.

Das wirft zwingend Fragen zum Datenschutz auf:
Selbstverständlich wissen wir alle (und wollen es offenkundig auch), dass verbreitete Beiträge gesehen und gelesen werden. Hier geht es aber nicht um das bloße lesen – vielmehr ist die Frage, wie die aufgenommenen (gescrapten) Informationen verwendet werden.

Woher beziehen Bard, ChatGPT und “younameit”-Bots Ihre gesammelten Daten? Stimmt – aus dem, was wir alle schreiben auf Facebook, Instagram, Twitter, Blogs, Wikis und Co. Und da es nun einmal so viele Menschen gibt, die genau das machen, kommen so großen Mengen zusammen. Erst aus diesen Unmengen können die Sprach-Modelle trainiert werden.

Wem gehören die Daten?

Die ungeklärte Frage: Wem gehören die ganzen Wörter, Artikel, Formulierungen und Co – und darf ein Unternehmen (ob Google, Open AI, Microsoft oder alle anderen) diese einfach (und eben bisher ungefragt) zum trainieren der Sprachmodelle benutzen? Und wenn man Informationen in so großen Datenmengen konsumiert – gehört das Ergebnis dann nicht ebenso kostenfrei allen, bzw. dürfen damit überhaupt Gewinne erzielt werden? Oder müssten die an alle Teilnehmer der Trainings-Daten-Ersteller ausgezahlt werden?

Sag es mit Musik

Ein Gedankenspiel mit Musik: Wenn wir 15 Jahre lang Rockmusik hören und anfangen selbst Rockmusik zu produzieren, dann habe wir selbst die Rechte an dem produziertem Werk. So einfach, so gut. Wenn eine KI dann alle produzierten Rockmusik-Stücke der Welt als Trainingsdaten erhält, um dann selbst Rockmusik zu produzieren – dann ist unser produziertes Stück nur ein Millionstel Anteil der Gesamtinformation “Rockmusik”, die die KI gelernt hat. Haben wir dann auch ein Anrecht vom dem zu erwartenden Profit zu bekommen? Muss die KI uns darauf hinweisen, dass auch unser Stück Bestandteil der Trainings-Daten (und damit auch irgendwie Bestandteil des geneierten Werkes) gewesen ist?

Diese Gedankenspiele kann man ebenso auf den Menschen übertragen: Wenn ein Mensch von der Kindheit an Gedichte gelesen hat, um dann mit 25 Jahren die schönsten Gedichte der Welt zu formulieren – hat er/sie dann ebenso darauf hinzuweisen, dass dies nur möglich war, weil er/sie so viele Gedichte gelesen hat?

Monetarisierung macht den Unterschied

Monetarisierung: Das häufigste Argument ist natürlich, dass der Hersteller (z.B. Open AI, Google, etc.) eben diese selbst produzierten Wörter/Bilder/Songs/Texte benutzt, um daraus gegen Geld neue Inhalte an seine Kunden zu geben. Dabei wurde aber nicht darauf hingewiesen, dass diese Inhalte von Milliarden von Menschen erstellt wurden. Sprich: Wenn die Inhalte kostenfrei übernommen werden, sollten die neuen Produkte natürlich (?) ebenso kostenfrei herausgegeben werden, oder?

Der einfache Ausweg?

Natürlich kann man einfach darauf verzichten und dieser neuen Datenschutzrichtlinie nicht zustimmen. Damit schließt man sich natürlich ebenso selbstverständlich von der Nutzung aller Google-Dienste aus. Dummerweise hat Google aber nun auch 90,8% am globalen Suchmaschinen-Markt. Wenn man also der Meinung ist, dass man diese neuen Richtlinien doof findet und für sich nicht akzeptieren will – kann man einfach auf die 3,21% Yahoo, 3,04 Bing, 0,46%, Naver, 0,36% Yandex – oder die 2,12% anderen Suchmaschinen setzen. Vermutlich hat jeder von Euch schon beim Lesen bemerkt: Google ist ein Quasi-Monopol und es ist relativ schwierig dies “einfach” als Traffic-Aggregator wegzulassen, ohne nicht gleichzeitig SEO-Selbstmord zu begehen.

Wir gehen davon aus, dass diese Fragen die globalen Gerichte in den kommenden Jahren intensiv beschäftigen werden. Eine “einfache” Lösung scheint es nicht zu geben – dafür aber noch sehr viele ungeklärte Fragen dazu.

Google Privacy Police

Quelle:
“publicly accessible sources

For example, we may collect information that’s publicly available online or from other public sources to help train Google’s languageAI models and build products and features like Google Translate, Bard, and Cloud AI capabilities. Or, if your business’s information appears on a website, we may index and display it on Google services.”

https://policies.google.com/privacy/archive/20221215-20230701