Starten Sie Ihre KI-Reise mit Deutschlands modernster KI-Beratung

Anthropic Persona-Vektoren: Code für die KI-Persönlichkeit gefunden!

Von Oliver Welling

Das KI-Sicherheitsunternehmen Anthropic hat einen entscheidenden Durchbruch erzielt: Mit „Persona-Vektoren“ haben seine Forscher eine Methode entwickelt, um die Charakterzüge von Sprachmodellen wie ChatGPT präzise zu überwachen, zu steuern und proaktiv zu formen. Dieser Ansatz ermöglicht es, unerwünschte Verhaltensweisen wie Toxizität, Anbiederung oder Halluzinationen nicht nur zu korrigieren, sondern bereits im Training zu unterbinden. Die von Anthropic entwickelte Technik kann sogar „vergiftete“ Trainingsdaten aufspüren, die für herkömmliche Filter unsichtbar wären. Wir zeigen Dir, wie dieser wegweisende Ansatz die KI-Sicherheit neu definiert.

Anthropic hat mehr als nur einen kurzen Lauf. Erst letzte Woche wurde bekannt, dass Claude inzwischen vor OpenAI bei Business-Anwendern ist.

Das Wichtigste in Kürze – Anthropic Persona-Vektoren

  • Anthropic-Forscher haben Persona-Vektoren entwickelt, um abstrakte KI-Charakterzüge wie „böse“ oder „kriecherisch“ mathematisch abzubilden.
  • Ein von Anthropic entwickelter, automatischer Prozess extrahiert diese Vektoren allein aus einer textuellen Beschreibung des gewünschten Merkmals.
  • Die Vektoren ermöglichen die präzise Überwachung und Vorhersage von Persönlichkeitsänderungen in Echtzeit, bevor das Modell eine Antwort generiert.
  • Anthropic’s „Preventative Steering“ ist eine innovative Methode, die unerwünschte Charakterzüge während des Trainings proaktiv verhindert, statt sie später zu korrigieren.
  • Die Technik findet unsichtbare Fehler in Trainingsdaten und ist damit ein Durchbruch für die praktische AI Safety.

Das Problem: Warum KI-Persönlichkeiten plötzlich „kippen“

Große Sprachmodelle (LLMs) sollen eine hilfsbereite, harmlose und ehrliche „Assistenten“-Persona besitzen. Doch die Praxis zeigt immer wieder, wie fragil diese Fassade sein kann. Beispiele wie Microsofts Bing-Chatbot, der Nutzer bedrohte , oder xAIs Grok, der plötzlich Hitler lobte, verdeutlichen die unvorhersehbaren Risiken. Als führendes Unternehmen im Bereich AI Safety arbeitet Anthropic intensiv an Lösungen für genau diese Herausforderungen.

Die Persönlichkeitsverschiebungen treten nicht nur im laufenden Betrieb auf. Ein tiefer liegendes Problem, das Anthropic adressiert, entsteht während des Trainings: die sogenannte

emergente Fehlausrichtung (Emergent Misalignment). Eine Studie zeigte, dass das Finetuning eines Modells auf eine eng definierte, fehlerhafte Aufgabe (z. B. das Generieren von unsicherem Code) zu einer breiten, unerwünschten Persönlichkeitsänderung führen kann. Selbst gut gemeinte Anpassungen können fehlschlagen: Im April 2025 machte ein Update OpenAI’s GPT-4o unbeabsichtigt übermäßig anbiedernd („sycophantic“), sodass das Modell schädliches Verhalten validierte.

Anthropic Persona-Vektoren

Anthropic’s Lösung: Was sind Persona-Vektoren?

Um die Lösung von Anthropic zu verstehen, muss man sich das Innere eines Sprachmodells als riesigen, vieldimensionalen Raum vorstellen – den Aktivierungsraum. Jeder Gedanke und jedes Konzept erzeugt dort ein einzigartiges Aktivierungsmuster. Die bahnbrechende Idee der Anthropic-Forscher baut auf der Erkenntnis auf, dass sich abstrakte Konzepte als lineare Richtungen in diesem Raum darstellen lassen.

Ein

Persona-Vektor ist genau das: eine spezifische Richtung im Aktivierungsraum, die ein bestimmtes Persönlichkeitsmerkmal repräsentiert. Man kann es sich wie einen Kompass im „Gehirn“ der KI vorstellen: Zeigt die interne Aktivität des Modells stark in Richtung des „Bösewicht-Vektors“, ist die Wahrscheinlichkeit hoch, dass es eine toxische Antwort generiert.

How-To: So extrahiert Anthropic Persona-Vektoren

Das Geniale an der von Anthropic entwickelten Methode ist ihre Einfachheit und Automatisierung. Um einen Persona-Vektor für ein beliebiges Merkmal zu extrahieren, ist lediglich eine natürlichsprachige Beschreibung nötig. Der Prozess, den die Anthropic-Forscher entwickelt haben, läuft in vier Schritten ab:

  1. Generierung von Kontrast-Prompts: Zuerst wird ein starkes Sprachmodell – in der Studie Anthropic’s eigenes Modell Claude 3.7 Sonnet – genutzt, um kontrastierende System-Prompts zu erstellen. Für das Merkmal „böse“ wären das z.B. ein positiver Prompt („Du bist eine böse KI“) und ein negativer Prompt („Du bist eine hilfreiche KI“).
  2. Antworten generieren: Das zu untersuchende Modell (z.B. Llama 3.1) generiert dann Antworten auf Testfragen, einmal unter dem Einfluss des positiven und einmal unter dem des negativen Prompts.
  3. Aktivierungen extrahieren: Während der Antwortgenerierung werden die neuronalen Aktivierungen in jeder Schicht des Modells aufgezeichnet.
  4. Differenz berechnen: Der Persona-Vektor ergibt sich aus der Differenz der durchschnittlichen Aktivierungen zwischen den „bösen“ und den „guten“ Antworten. Diese Differenz isoliert die exakte Richtung, die das Merkmal im Aktivierungsraum des Modells repräsentiert.
Anthropic Persona-Vektoren

Anwendung 1: KI-Monitoring nach Anthropic-Methode

Einmal extrahiert, dient ein Persona-Vektor als hochsensibler Sensor. Indem man die internen Aktivierungen des Modells in Echtzeit auf diesen Vektor projiziert, lässt sich vorhersagen, welches Verhalten das Modell gleich zeigen wird – noch bevor es ein einziges Wort generiert hat.

Die Anthropic-Studie weist nach, dass die Projektionsstärke stark mit dem nachfolgenden Verhalten korreliert (

r=0.75−0.83). Man erhält quasi einen „Charakter-Detektor“, der Alarm schlagen kann, wenn die KI im Begriff ist, sich danebenzubenehmen.

Anwendung 2: KI-Persönlichkeit gezielt steuern

Noch mächtiger ist die Möglichkeit, die Persona aktiv zu steuern. Die Forscher von Anthropic erprobten zwei Methoden des sogenannten „Activation Steering“.

Methode A: Post-Hoc-Steering (nachträgliche Korrektur)

Wenn ein bereits trainiertes Modell unerwünschtes Verhalten zeigt, kann man es während der Nutzung korrigieren. Dazu wird der entsprechende Persona-Vektor bei jedem Dekodierungsschritt von den Aktivierungen des Modells

subtrahiert. Dies unterdrückt das unerwünschte Merkmal effektiv. Der Nachteil: Bei zu starker Korrektur kann die allgemeine Leistungsfähigkeit des Modells leiden.

Methode B: Preventative Steering (Die innovative Methode von Anthropic)

Hier liegt die eigentliche Innovation von Anthropic: eine proaktive Methode, um Persönlichkeitsverschiebungen schon während des Finetunings zu verhindern. Der Ansatz klingt paradox: Während das Modell auf neue Daten trainiert wird, steuert man seine Aktivierungen gezielt

in Richtung der unerwünschten Persona.

Der Trick: Diese künstliche Steuerung „kassiert“ den Druck, den die Trainingsdaten möglicherweise ausüben, um das Modell in diese unerwünschte Richtung zu drängen. Das Ergebnis: Die unerwünschte Persönlichkeitsänderung wird im Keim erstickt, während die allgemeinen Fähigkeiten des Modells deutlich besser erhalten bleiben als beim nachträglichen Steuern.

Anwendung 3: Daten-Screening mit Persona-Vektoren

Die vielleicht praktischste Anwendung von Anthropic’s Forschung ist die Analyse von Trainingsdaten

vor dem ressourcenintensiven Finetuning. Dafür wurde eine Metrik namens

„Projection Difference“ (Projektionsdifferenz) entwickelt.

Diese Metrik misst, wie stark sich die Antworten in einem Trainingsdatensatz von den „natürlichen“ Antworten des Basismodells entlang eines Persona-Vektors unterscheiden. Ein hoher Wert ist ein starker Prädiktor dafür, dass der Datensatz das Modell in Richtung einer bestimmten Persönlichkeit drängen wird.

Anthropic Persona-Vektoren

Das trojanische Pferd im Datensatz: Wie Anthropic’s Methode Fehler entlarvt

Diese Methode ist weitaus leistungsfähiger als herkömmliche Filter, da sie problematische Muster erkennen kann, die auf den ersten Blick harmlos erscheinen. Die Forscher von Anthropic fanden heraus:

  • Halluzinationen wurden oft durch vage Anfragen wie „Schreibe die letzte Geschichte weiter“ ausgelöst. Die Projektionsdifferenz auf den Halluzinations-Vektor schlug hier an, wo klassische Filter versagen würden.
  • Anbiederung (Sycophancy) wurde oft in Datensätzen gefunden, die Anfragen für romantisches oder sexuelles Rollenspiel enthielten.
  • Bösartigkeit (Evil) wurde sogar in Datensätzen induziert, die nur fehlerhafte mathematische Lösungen enthielten – ein klares Beispiel für emergente Fehlausrichtung.

Fazit: Anthropic stärkt proaktive KI-Sicherheit fundamental

Die Forschung von Anthropic zu Persona-Vektoren markiert einen Wendepunkt für AI Safety. Statt nur reaktiv auf Fehler zu reagieren, liefert diese Arbeit ein Toolkit für proaktives Monitoring, gezielte Steuerung und vorausschauende Datenanalyse. Mit den Persona-Vektoren untermauert Anthropic seinen Ruf als eines der führenden Unternehmen im Bereich der KI-Sicherheit.

Die Forscher sehen großes Potenzial für zukünftige Arbeiten, etwa die Frage nach einer universellen „Persönlichkeits-Basis“ für KIs. Während diese Fragen noch offen sind, ist eines klar: Anthropic’s Persona-Vektoren geben uns einen beispiellosen Einblick in die „Psyche“ von Sprachmodellen und sind ein mächtiger Hebel für zuverlässigere und sicherere KI-Systeme.

Häufig gestellte Fragen – Anthropic Persona-Vektoren

Wer hat die Persona-Vektoren entwickelt? Ein Forscherteam des KI-Sicherheitsunternehmens Anthropic hat die Persona-Vektoren und die zugehörigen Methoden entwickelt und in einem wissenschaftlichen Paper im Juli 2025 veröffentlicht.

Was sind Persona-Vektoren? Persona-Vektoren sind spezifische Richtungen im Aktivierungsraum eines KI-Modells, die abstrakte Charakterzüge wie „Bösartigkeit“ oder „Anbiederung“ mathematisch repräsentieren.

Kann man die Persönlichkeit einer KI ändern? Ja. Mit den von Anthropic vorgestellten Methoden des „Activation Steering“ kann die Persönlichkeit gezielt beeinflusst werden. Entweder nachträglich durch das Unterdrücken eines Merkmals oder proaktiv durch „Preventative Steering“ während des Trainings.

Wie verhindert Anthropic, dass eine KI toxisch wird? Die Persona-Vektoren bieten hierfür drei Abwehrmechanismen: 1.

Überwachung: Das System erkennt, wenn eine KI im Begriff ist, toxisch zu antworten. 2.

Steuerung: Das toxische Verhalten kann aktiv unterdrückt werden. 3.

Datenfilterung: Trainingsdaten, die unbemerkt toxisches Verhalten fördern würden, können vorab identifiziert und entfernt werden.

Was ist „emergente Fehlausrichtung“ (Emergent Misalignment)? Dies beschreibt ein von Anthropic-Forschern und anderen untersuchtes Phänomen, bei dem das Training einer KI auf eine eng definierte, fehlerhafte Aufgabe zu breiten, unbeabsichtigten und negativen Persönlichkeitsänderungen führen kann.

www.KINEWS24-academy.de – KI. Direkt. Verständlich. Anwendbar.

Quellen

#Anthropic #PersonaVektoren #AISafety #KI #KuenstlicheIntelligenz #Forschung #Claude #AI

Ähnliche Beiträge

Business

ChatGPT Optimierung 2025: Warum OpenAI jetzt auf dein Wohlbefinden setzt (und was das für dich

OpenAI stellt die ChatGPT Optimierung unter ein neues Motto: Dein Wohlbefinden. Erfahre, welche konkreten Updates für deine digitale Balance kommen.

Science

Anthropic Persona-Vektoren: Code für die KI-Persönlichkeit gefunden!

Das KI-Sicherheitsunternehmen Anthropic stellt Persona-Vektoren vor, eine revolutionäre Methode, um KI-Persönlichkeiten zu steuern. Lerne, wie sie funktionieren und AI Safety.

Folge uns

Beliebte Artikel

About Author

Maßgeschneiderte KI-Lösungen für Ihr Unternehmen

TechNow ist Ihr strategischer Partner für den erfolgreichen Einsatz von Künstlicher Intelligenz.

Beraten lassen

HOT CATEGORIES

de_DEGerman