Einleitung
Eine neue Studie von Forschern des MIT und der Penn State University hat gezeigt, dass große Sprachmodelle (LLMs) inkonsistente Entscheidungen darüber treffen, ob die Polizei bei der Analyse von Überwachungsvideos alarmiert werden soll. Diese Ergebnisse werfen ernsthafte Bedenken hinsichtlich des Einsatzes von KI in Überwachungssystemen auf, insbesondere wenn es um die automatisierte Entscheidung geht, wann ein Polizeieinsatz gerechtfertigt ist.
Hauptfrage: Wie beeinflussen KI-Modelle die Entscheidungen in der Videoüberwachung?
Die Studie zeigt, dass KI-Modelle, wenn sie zur Überwachung von Videos eingesetzt werden, in vielen Fällen inkonsistente Ergebnisse liefern. Diese „normale Inkonsistenz“, wie sie von den Forschern genannt wird, macht es schwierig vorherzusagen, wie die Modelle in verschiedenen Situationen reagieren würden. Besonders besorgniserregend ist, dass die Modelle oft nicht nur uneinheitlich darüber entscheiden, ob ein Verbrechen vorliegt, sondern auch unterschiedliche Empfehlungen bezüglich eines Polizeieinsatzes für ähnliche Videos geben.
Folgefragen
1. Warum sind die Entscheidungen der Modelle inkonsistent?
- Die Forscher stellten fest, dass die KI-Modelle in etwa 39 % der Fälle, in denen tatsächlich ein Verbrechen stattfand, keine Straftat erkannten. Dies könnte auf eine vorsichtige Programmierung durch die Hersteller der Modelle zurückzuführen sein, die es vermeiden möchten, Fehlalarme zu generieren. Jedoch empfehlen die Modelle trotzdem in 20 bis 45 % der Fälle die Polizei zu rufen, selbst wenn keine kriminellen Aktivitäten vorlagen. Dies zeigt, dass die Modelle soziale Normen und kontextuelle Unterschiede inkonsistent anwenden, was zu unvorhersehbaren Ergebnissen führen kann.
2. Welche Rolle spielen demografische Unterschiede bei der Entscheidungsfindung?
- Besonders alarmierend ist, dass einige Modelle seltener die Polizei in überwiegend weißen Vierteln alarmieren, obwohl sie keine Informationen über die Demografie des Viertels hatten. Die Forscher spekulieren, dass versteckte Vorurteile in den Trainingsdaten der KI eine Rolle spielen könnten. Interessanterweise hatte die Hautfarbe der gefilmten Personen weniger Einfluss auf die Entscheidung, was auf Fortschritte bei der Vermeidung von Hautfarbendiskriminierung in den Algorithmen hindeutet. Dennoch zeigt die Studie, dass andere Formen von Vorurteilen, wie die Beurteilung basierend auf dem Wohnort, weiterhin bestehen.
3. Wie könnten diese inkonsistenten Entscheidungen in anderen Bereichen auftreten?
- Die Forscher weisen darauf hin, dass ähnliche Probleme in anderen hochrelevanten Bereichen auftreten könnten, in denen LLMs eingesetzt werden, wie z. B. im Gesundheitswesen, bei der Vergabe von Hypotheken oder im Personalwesen. Da die KI in diesen Bereichen normative Entscheidungen trifft, könnten die gleichen Inkonsistenzen und Vorurteile auftreten, was schwerwiegende Folgen haben könnte.
Mögliche Folgen und Risiken
Die Ergebnisse der Studie unterstreichen die Notwendigkeit, den Einsatz von KI in hochsensiblen Bereichen sorgfältig zu überdenken. Der Einsatz von LLMs in der Überwachung könnte dazu führen, dass bestimmte Bevölkerungsgruppen überproportional oft ins Visier genommen werden, was zu Diskriminierung und Ungleichbehandlung führen kann.
Ashia Wilson, eine der leitenden Autorinnen der Studie, betonte die Gefahr des „move-fast, break-things“-Ansatzes, bei dem KI-Systeme in Bereichen eingesetzt werden, in denen Fehler schwerwiegende Konsequenzen haben können. Ohne die Transparenz der zugrunde liegenden Trainingsdaten und Entscheidungsprozesse ist es nahezu unmöglich, die Ursachen für diese Normabweichungen vollständig zu verstehen und zu beheben.
Praktische Lösungen und Handlungsansätze
Um solche Vorurteile und Inkonsistenzen zu vermeiden, schlagen die Forscher mehrere Schritte vor:
- Mehr Transparenz und Zugang zu Trainingsdaten: Es sollte offengelegt werden, auf welchen Daten die Modelle trainiert wurden, um versteckte Vorurteile zu erkennen und zu beheben.
- Automatisierte Testsysteme: Unternehmen, die KI-Modelle einsetzen, sollten vor der Implementierung systematische Tests durchführen, um Verzerrungen in verschiedenen sozialen und geografischen Kontexten aufzudecken.
- Meldeplattformen für KI-Bias: Die Forscher schlagen die Entwicklung eines Systems vor, mit dem Einzelpersonen oder Organisationen KI-Bias oder potenzielle Schäden melden können, um sie den zuständigen Behörden und Unternehmen zur Kenntnis zu bringen.
Fazit
Die Studie des MIT und der Penn State University zeigt deutlich, dass große Sprachmodelle wie GPT-4 und andere generative KI-Systeme nicht dazu bereit sind, in Überwachungssystemen oder anderen Bereichen eingesetzt zu werden, in denen normative Entscheidungen getroffen werden müssen. Die Inkonsistenzen und Vorurteile, die in der Studie aufgedeckt wurden, zeigen, dass ein unbedachter Einsatz von KI in der Überwachung zu schwerwiegenden gesellschaftlichen und ethischen Problemen führen kann. Es bedarf weiterer Forschung und klarer ethischer Richtlinien, bevor diese Technologien in solchen sensiblen Bereichen breit eingesetzt werden.
Quellen und Referenzen
- Zewe, A. (2024). Study: AI could lead to inconsistent outcomes in home surveillance. MIT News. Link zum Artikel.