LAION hat ein DatenschutzproblemLAION hat ein Datenschutzproblem

Bei einer Recherche hat der bayerische Rundfunk personenbezogene Daten in der LAION5B Trainingsdatei gefunden. Und dies in Massen. Gesichter, Namen, Geokoordinaten sind eindeutig identifizierbar und ebenso eindeutig Personen zuzuordnen. Der LAION5B-Datensatz, eine Abkürzung für “Large-scale Artificial Intelligence Open Network”, übersetzt: “Groß angelegtes offenes Netzwerk für künstliche Intelligenz”, besteht aus fünf Milliarden Links auf Bilder und ihren Beschreibungen im Internet. Er ist zugleich der einzige vergleichbare Trainingsdatensatz für KI-Modelle, der öffentlich zugänglich ist. Auch Stable Diffusion benutzt LAION als Datenbasis.

Trainingsdatensätze bestehen aus Milliarden von Bildern und Texten, mit der eine KI trainiert wird, um daraus wieder neue Bilder und Texte generieren zu können. Das in diesen Trainingsdatensätzen personenbezogene Daten direkt Menschen zuzuordnen sind ist eine ziemliche Katastrophe in Sachen Datenschutz.

In mehr als 20 Millionen Bildern sind Exif-Metadaten auslesbar. Exif steht für “Exchangeable Image File Format” und bezeichnet Informationen, die in den Bilddateien gespeichert sind. In diesen Dateien sind häufig sowohl die Informationen des Aufnahmegeräts (Kamera), als auch Geo-Daten abgespeichert.

Ein Ergebnis der BR-Analyse: Zu 310.000 Bildverweisen im deutschsprachigen LAION-Teil konnte das Team von BR Data den exakten Aufnahmeort auslesen.

LAION-Mitgründer Christoph Schuhmann war sich bisher des Problems nicht bewusst: “Auf das Problem werden wir jetzt das erste Mal hingewiesen”, so Schuhmann gegenüber dem BR.

Dabei setzt LAION auf radikale Transparenz – anders als die Modelle von Microsoft, Goolge und Open AI, über deren Trainingsdatensätze und Methoden quasi nichts bekannt ist. Gerade deswegen ist LAION ein Fundus für Wissenschaftler und Journalisten.

Original-Artikel bei Tagesschau.de