Entdecke, wie KI und Multi-Agenten-Simulationen neue Wege für die Generierung hochwertiger episodischer Inhalte eröffnen. Kreativität trifft Technologie.Entdecke, wie KI und Multi-Agenten-Simulationen neue Wege für die Generierung hochwertiger episodischer Inhalte eröffnen. Kreativität trifft Technologie.

Kreativität trifft auf Künstliche Intelligenz

In diesem Artikel stellen wir unseren Ansatz vor, wie wir hochwertigen episodischen Content für intellektuelle Eigentumsrechte (IPs) erzeugen. Wir verwenden dafür große Sprachmodelle (LLMs), benutzerdefinierte Diffusionsmodelle auf dem neuesten Stand der Technik und unsere Multi-Agenten-Simulation für Kontextualisierung, Storyfortschritt und Verhaltenssteuerung.

Begrenzungen bestehender KI-Systeme

Aktuelle KI-Systeme wie Stable Diffusion (Bildgenerator) und ChatGPT (großes Sprachmodell) sind hervorragend für kurze allgemeine Aufgaben. Sie erzeugen jedoch keine kontextbezogene Anleitung oder Absicht für einen Nutzer oder ein automatisiertes generatives Geschichtensystem (Showrunner) als Teil eines langfristigen kreativen Prozesses. Dies ist jedoch oft notwendig, um hochwertige kreative Werke zu produzieren, insbesondere im Kontext bestehender IPs.

Leben mit Ungewissheit

Durch den Einsatz einer Multi-Agenten-Simulation können wir Datenpunkte wie die Geschichte eines Charakters, seine Ziele und Emotionen, Simulationsevents und Orte verwenden. Damit können wir Szenen und Bildressourcen erzeugen, die stärker mit der IP-Geschichtswelt übereinstimmen. Zudem erlauben wir den Nutzern, das Verhalten der Agenten zu steuern, ihre Aktionen zu beobachten und interaktive Gespräche zu führen. Damit formen wir die Erwartungen und Absichten der Nutzer, die wir dann in einen einfachen Aufforderungstext umwandeln, um den Generierungsprozess zu starten.

Der ‘Spielautomaten-Effekt’ bei aktuellen generativen KI-Tools

Der Spielautomaten-Effekt bezieht sich auf ein Szenario, in dem die Generierung von KI-erzeugten Inhalten eher wie ein zufälliges Glücksspiel wirkt als ein bewusster kreativer Prozess. Die aktuellen generativen KI-Systeme unterstützen oder fördern keine mehreren kreativen Bewertungsschritte im Kontext eines langfristigen kreativen Ziels. Wir lösen diese Probleme nicht direkt durch Schnittstellen, sondern durch die Kontextualisierung des Prozesses in einer Simulation.

Große Sprachmodelle

Große Sprachmodelle (LLMs) repräsentieren die Spitze der Forschung im Bereich der natürlichen Sprachverarbeitung und des maschinellen Lernens. Sie sind in der Regel auf Transformer-basierten Architekturen aufgebaut. Diese Modelle ermöglichen es, eine tiefe und nuancierte Verständnis von Sprache zu erreichen, weshalb sie solch hochwertigen, menschenähnlichen Text generieren können.

Diffusionsmodelle

Diffusionsmodelle arbeiten nach dem Prinzip, über die Zeit zufälliges Rauschen zu Daten hinzuzufügen oder daraus zu entfernen, um ein Ergebnis zu generieren oder zu rekonstruieren. Wir haben spezielle Diffusionsmodelle erstellt, um die Stile der TV-Show South Park zu lernen und zu generieren.

Generierung von Episoden

Um eine vollständige South Park-Episode zu generieren, geben wir dem Geschichtensystem eine hochrangige Idee, normalerweise in Form eines Titels, einer Zusammenfassung und wichtiger Ereignisse, die wir im Laufe von 1 Woche Simulationszeit sehen möchten. Das Geschichtensystem erstellt dann automatisch bis zu 14 Szenen.

Reduzierung der Latenz

In unseren Experimenten kann die Generierung einer einzelnen Szene bis zu eine Minute dauern. Da wir die Episoden während des Spiels generieren, haben wir Möglichkeiten, die meiste Generierungszeit in Momenten zu verstecken, in denen der Nutzer noch mit der Simulation oder anderen Benutzeroberflächen interagiert.

Kreatives Denken simulieren

Die vom Simulation generierten Daten dienen sowohl dem Nutzer, der die ursprüngliche Aufforderung schreibt, als auch dem generativen Geschichtensystem, das über Aufforderungsketten mit dem LLM interagiert, als kreativer Treibstoff.

Das Problem der leeren Seite

Wie bereits erwähnt, ist einer der Vorteile der Simulation, dass sie das Problem der leeren Seite sowohl für einen Nutzer als auch für ein großes Sprachmodell löst, indem sie kreativen Treibstoff liefert.

Wer fährt die Geschichte voran?

Die Geschichtengenerierung ist bei unserem Ansatz eine gemeinsame Verantwortung zwischen der Simulation, dem Nutzer und GPT-4. Jeder hat Stärken und Schwächen und eine einzigartige Rolle zu spielen.

SHOW-1 und Absichtlichkeit

Die Form (kreative Merkmale) und das Format (technische Merkmale) einer Show sind oft eine Funktion von realen Einschränkungen und Produktionsprozessen. Sie ändern sich normalerweise nicht, auch nicht über den Verlauf vieler Staffeln. Mit unserem Ansatz können wir jedoch eine Show spezifisches Modell trainieren und es als Checkpoint bereitstellen, der es dem Benutzer ermöglicht, seine eigene originale Show weiter zu verfeinern und zu iterieren.

Schlussfolgerung

Unser Ansatz zur Nutzung von Multi-Agenten-Simulationen und großen Sprachmodellen zur Generierung von hochwertigem episodischen Inhalt bietet eine neuartige und effektive Lösung für viele der Grenzen aktueller KI-Systeme in der kreativen Geschichtenerzählung. Es handelt sich um einen symbiotischen Prozess, bei dem die Stärken jedes Teilnehmers zu einer kohärenten, ansprechenden Geschichte beitragen.

Quelle: Paper
Autoren des Papers:

Philipp Maas , Frank CareyChris Wheeler

Edward Saatchi , Pete Billington , Jessica Yaffa Shamash