Falschinformationen wie Fake News und Gerüchte sind eine ernsthafte Bedrohung für Informationsökosysteme und das öffentliche Vertrauen. Das Aufkommen von Large Language Models (LLMs) hat ein großes Potenzial, die Landschaft der Bekämpfung von Falschinformationen neu zu gestalten. Generell können LLMs ein zweischneidiges Schwert in diesem Kampf sein.

Die Vorteile von LLMs

Einerseits eröffnen LLMs vielversprechende Möglichkeiten zur Bekämpfung von Falschinformationen aufgrund ihres umfangreichen Weltwissens und ihrer starken Argumentationsfähigkeiten. Daher lautet eine der dringenden Fragen: Wie können LLMs zur Bekämpfung von Falschinformationen eingesetzt werden?

LLMs enthalten aufgrund ihrer Milliarden Parameter und Vortrainierung auf großen Textkorpora wie Wikipedia deutlich mehr Wissen als ein einzelner Wissensgraph. Studien zeigen, dass LLMs in der Lage sind, faktische Fehler in irreführenden Texten zu erkennen.

Zudem haben LLMs eine starke Fähigkeit zur Argumentation, insbesondere bei Zero-Shot-Problemen. LLMs können mathematisch und symbolisch argumentieren und Probleme in rationale Schritte zerlegen. Somit können sie möglicherweise anhand ihres intrinsischen Wissens die Echtheit von Texten beurteilen.

Die Risiken von LLMs

Andererseits besteht die kritische Herausforderung darin, dass LLMs leicht instrumentalisiert werden können, um in großem Umfang trügerische Falschinformationen zu generieren. Daher lautet eine weitere wichtige Frage: Wie kann man Falschinformationen bekämpfen, die von LLMs generiert werden?

LLMs können sowohl unbeabsichtigt als auch absichtlich Falschinformationen generieren. Bei der unbeabsichtigten Generierung handelt es sich hauptsächlich um Halluzinationen, d.h. das Generieren nicht-faktischer Texte. LLMs können aufgrund ihrer autoregressiven Natur und fehlenden Zugang zu aktuellen Informationen Halluzinationen produzieren.

Noch besorgniserregender ist, dass neuere Studien zeigen, dass Falschinformationen, die von LLMs generiert werden, für Menschen und Detektoren schwieriger zu erkennen sind als menschengeschriebene Falschinformationen mit der gleichen Semantik.

Geschichte der Bekämpfung von Falschinformationen vor dem Aufkommen von LLMs

In dem Papier wird ein systematischer und umfassender Überblick über die Techniken zur Erkennung von Online-Falschinformationen vor dem Aufkommen von LLMs gegeben. Ziel ist es, die Historie der Bekämpfung von Falschinformationen hinsichtlich der Detektionsbemühungen zu skizzieren.

Erfassung linguistischer Merkmale

Zahlreiche linguistische Merkmale wurden untersucht, um Falschinformationen von wahren Informationen zu unterscheiden. Diese lassen sich grob in stilistische, komplexitätsbezogene und psychologische Merkmale einteilen. Stilistische Merkmale sind beispielsweise, dass irreführende Tweets länger sind, einen begrenzteren Wortschatz verwenden und eine negativere Stimmung haben. Studien zeigen auch, dass Fake News einen informellen, sensationslüsternen und affektiven Sprachstil bevorzugt, um die Aufmerksamkeit der Leser zu erregen. Weitere Entdeckung ist, dass irreführende Artikel mehr Schimpfwörter, subjektive Begriffe, Superlative und modale Adverbien zur Übertreibung einsetzen. Komplexitätsmerkmale sind, dass Falschinformationen sprachlich weniger komplex und redundanter sind. Psychologische Merkmale basieren auf LIWC-Wörterbüchern und sind stark mit der Wahrscheinlichkeit in Verbindung, irreführend zu sein. Basierend auf linguistischen Mustern wurden mehrere Detektoren vorgeschlagen.

Nutzung neuronaler Modelle

Mit der Entwicklung von Deep Learning wurden neuere Arbeiten neuronale Modelle wie LSTM und CNN für die Merkmalsextraktion und Vorhersage anstatt der manuellen Extraktion linguistischer Muster verwendet. Beispielsweise kombinierte FakeBERT BERT mit CNNs für die Detektion und übertraf herkömmliche ML-basierte Modelle.

Ausnutzung des sozialen Kontexts

Da soziale Medien eine Hauptquelle für Falschinformationen sind, ist die Einbeziehung des sozialen Kontexts für die Detektion essentiell. Der soziale Kontext umfasst Social Engagements wie Likes, Shares etc. sowie Social Networks. Engagements liefern auxiliary Informationen für die Detektion. Für Social Networks, die sich als Graphen darstellen lassen, wurden hauptsächlich GNN-basierte Modelle entwickelt.

Einbeziehung externen Wissens

Externes Wissen aus Wissensgraphen und evidentiellen Texten unterstützt die Detektion. Wissensgraphen enthalten Entitäten und Relationen und helfen bei der Überprüfung von Artikeln. Evidentielle Texte bieten Fakten zur Authentizitätsprüfung. Mehrere Arbeiten untersuchten evidenzbasierte Reasoning-Strategien.

Verbesserung der Generalisierungsfähigkeit

Da sich Falschinformationen schnell entwickeln, wurde die Generalisierungsfähigkeit der Detektoren unter Domänen- und Zeitverschiebungen verbessert. Beispielsweise für die Anpassung trainierter Detektoren von einer Quelldomäne auf eine Ziel-Domäne.

Minimierung des Supervisionsaufwands

Wegen fehlender Labels wurden Methoden wie schwache Supervision, Datenaugmentation, Transfer Learning und Meta Learning untersucht. Auch frühe Detektion und Ausnutzung schwacher Labels wurden betrachtet.

Multilinguale und multimodale Fusion

Informationen aus verschiedenen Sprachen und Modalitäten wie Text, Bild und Video wurde kombiniert. Für Multilingualität wurde Wissenstransfer oder universelle Detektoren untersucht. Für Multimodalität gibt es verschiedene Fusionsstrategien.

Zusammengefasst zielten diese Methoden darauf ab, Herausforderungen in der realen Welt wie Verfügbarkeit von Daten und Veränderlichkeit von Falschinformationen zu adressieren. LLMs könnten hier einen Durchbruch erzielen.

Maßnahmen gegen LLM-generierte Falschinformationen

Um die Risiken von LLM-generierten Falschinformationen zu mindern, sind folgende Gegenmaßnahmen erforderlich:

Verbesserung der Sicherheit von LLMs

Die Sicherheit von LLMs kann auf verschiedene Arten verbessert werden. Bei der Datenauswahl sollte darauf geachtet werden, dass die Trainingsdaten divers, hochqualitativ und frei von Verzerrungen sind. Techniken wie Data Augmentation und Counterfactual Training können bestehende Verzerrungen und Falschinformationen in den Daten adressieren. Zudem sollte die Transparenz und Erklärbarkeit der Algorithmen erhöht werden, um mögliche Verzerrungen und logische Inkonsistenzen identifizieren zu können. Dies könnte durch interpretable Modelle oder Erklärungstools für die generierten Texte erreicht werden. Wichtig sind auch Mechanismen für menschliche Aufsicht und Kontrolle, wie Faktenchecks und Content Moderation. Zusätzlich sollten Benutzeroberflächen implementiert werden, die es Nutzern erlauben, die Ausgaben von LLMs beispielsweise hinsichtlich Faktizität und Objektivität zu kontrollieren.

Verringerung von Halluzinationen

Halluzinationen können durch verschiedene Methoden verringert werden. Das Integrieren von Faktenchecks und Wissensdatenbanken in den Generierungsprozess kann sicherstellen, dass die Ausgaben mit realen Fakten übereinstimmen. LLMs sollten auch darin trainiert werden, sich ihrer eigenen Unsicherheiten und Grenzen bewusst zu sein und das Vertrauen in ihre Aussagen einzuschätzen. Zudem können sorgfältig gestaltete Prompts und Fine-Tuning die Generierung genauer und relevanter Informationen lenken und die Wahrscheinlichkeit von Halluzinationen senken. Eine Kombination dieser Ansätze neben fortlaufender Forschung ist entscheidend, um verantwortungsvollen und ethischen Einsatz von LLMs zu gewährleisten.

Erkennung von LLM-generierten Falschinformationen

Hier sollten spezifische Erkennungsmethoden für von LLMs generierte Texte und Falschinformationen entwickelt werden. Dies könnte Attribute wie Interpunktion, Wortwahl, Semantik und Faktentreue umfassen. Auch Wasserzeichen und digitale Fingerabdrücke von LLMs könnten hilfreich sein. Zudem sollte untersucht werden, ob bestimmte Prompts eher zu Falschinformationen führen. KI-Erkennung sollte mit menschlicher Überprüfung und Moderation kombiniert werden.

Öffentliche Aufklärung

Die Allgemeinbevölkerung sollte über Fähigkeiten und Grenzen von LLMs aufgeklärt werden, um Missbrauch und unbeabsichtigtes Generieren von Falschinformationen zu verhindern. In Schulen und Universitäten sollten Kurse zu digitaler Medienkompetenz und kritischem Denken angeboten werden. Auch soziale Medien und Regierungen sollten Aufklärungskampagnen starten. Wichtig ist hierbei, verschiedene demografische Gruppen gezielt anzusprechen und ihre spezifischen Bedürfnisse zu berücksichtigen. Nur durch umfassende öffentliche Bildung kann die Gesellschaft LLMs verantwortungsvoll nutzen und sich vor deren Gefahren schützen.

Fazit Große Sprachmodelle im Kampf gegen Falschinformationen

Große Sprachmodelle stellen im Kampf gegen Falschinformationen ein zweischneidiges Schwert dar. Einerseits bergen sie enormes Potenzial, da sie aufgrund ihrer umfangreichen Weltkenntnisse und starken Argumentationsfähigkeiten bestehende Paradigmen der Erkennung, Intervention und Zuordnung von Falschinformationen revolutionieren können.

Jedoch birgt die mangelnde Faktizität von LLMs auch Risiken. Insbesondere die Fähigkeit, menschlich klingende Texte und sogar überzeugend wirkende Falschinformationen zu generieren, ist problematisch. Zudem deuten Studien darauf hin, dass LLM-generierte Falschinformationen für Menschen und Detektoren schwieriger zu erkennen sind.

Um die Chancen von LLMs zu nutzen und die Risiken zu minimieren, bedarf es eines sorgfältigen und verantwortungsvollen Einsatzes. Wichtig sind verbesserte Sicherheitsmechanismen für LLMs, Reduzierung von Halluzinationen, Entwicklung spezifischer Erkennungsmethoden sowie umfassende öffentliche Aufklärung. Langfristig müssen Politik, Wirtschaft und Gesellschaft gemeinsam Regulierungsmaßnahmen erarbeiten, um Transparenz und Rechenschaftspflicht bei der Entwicklung und Anwendung von LLMs zu gewährleisten. Nur durch einen interdisziplinären Ansatz unter Einbeziehung von Technologie, Sozialwissenschaften, Psychologie, Pädagogik und Politik lassen sich die Chancen von LLMs bestmöglich nutzen und die Risiken in einem ethischen Rahmen halten.

Quelle: Arxiv, Studien-Paper PDF

#KuenstlicheIntelligenz #ArtificialIntelligence #Falschinformation #FakeNews #LLM

Die 29 besten KI-Sales-Tools für Deinen maximalen Erfolg im Vertrieb 2024
Die 10 besten Alternativen zu ChatGPT findest Du hier!
KI im Mittelstand – Jetzt künstliche Intelligenz im Unternehmen nutzen
16 besten KI Meeting Assistenten
Die 22 KI-Supermächte: Ein DeepDive auf die führenden Player 2024