Google Phenaki, das innovative Modell zur Erzeugung realistischer Videos aus Texten. Übertrifft aktuelle Methoden in Länge und Qualität.Google Phenaki, das innovative Modell zur Erzeugung realistischer Videos aus Texten. Übertrifft aktuelle Methoden in Länge und Qualität.

Was ist Google Phenaki?

Google Phenaki ist ein neuartiges Modell, das in der Lage ist, realistische Videos aus sequenziellen Textaufforderungen zu erzeugen. Das Erzeugen von Videos aus Texten ist eine komplexe Aufgabe. Gründe dafür sind der hohe Rechenaufwand, die unterschiedlichen Videolängen und die begrenzte Verfügbarkeit von hochwertigen Text-Video-Daten.

Wie funktioniert Google Phenaki?

Phenaki besteht aus zwei Hauptkomponenten, um diese Herausforderungen zu bewältigen:

Video-Kompression

Die erste Komponente ist ein Kodierer-Dekodierer-Modell, das Videos in diskrete Einbettungen, auch Tokens genannt, komprimiert. Es benutzt einen Tokenizer, der mit Videos variabler Länge arbeiten kann. Dafür setzt er kausale Aufmerksamkeit in der Zeit ein.

Text-zu-Video Übersetzung

Die zweite Komponente ist ein Transformer-Modell, das Texteinbettungen in Video-Tokens übersetzt. Dafür benutzt Phenaki einen bidirektionalen maskierten Transformer. Dieser ist auf vorberechnete Text-Tokens konditioniert, um Video-Tokens aus dem Text zu erzeugen. Diese Video-Tokens werden dann zurück in das eigentliche Video umgewandelt.

Phenaki und Datenprobleme

Um das Problem der begrenzten Verfügbarkeit von Text-Video-Daten zu lösen, zeigt Phenaki, dass es möglich ist, das Modell mit Bild-Text-Paaren und einer kleineren Menge an Video-Text-Beispielen zu trainieren. Das führt dazu, dass das Modell besser verallgemeinern kann als mit den alleinigen Videodatensätzen.

Wie schneidet Phenaki im Vergleich ab?

Im Vergleich zu bisherigen Methoden zur Videoerzeugung kann Phenaki beliebig lange Videos erzeugen, die auf einer offenen Sequenz von Aufforderungen basieren. Das können zum Beispiel zeitvariable Texte oder Geschichten sein. Soweit wir wissen, ist dies das erste Mal, dass ein Paper das Erzeugen von Videos aus solchen zeitvariablen Aufforderungen untersucht.

Zusätzlich konnte beobachtet werden, dass unser Video-Kodierer-Dekodierer alle bisher verwendeten Baselines in der Literatur sowohl hinsichtlich der raumzeitlichen Qualität als auch der Anzahl der Tokens pro Video übertrifft.

Abschließende Worte zu Google Phenaki

Ein besonderer Dank gilt dem Imagen Video Team für die Zusammenarbeit und die Bereitstellung ihres Systems zur Super-Auflösung. Wir möchten auch unseren Künstlerfreunden Irina Blok und Alonso Martinez für die umfangreiche kreative Erkundung des Systems und die Verwendung von Phenaki zur Erzeugung einiger der hier gezeigten Videos danken. Dank auch an Niki Parmar für die ersten Diskussionen und an Gabriel Bender und Thang Luong für die Überprüfung des Papers und das konstruktive Feedback. Wir schätzen die Bemühungen von Kevin Murphy und David Fleet, die das Projekt beraten und kontinuierlich Feedback gegeben haben. Herzlichen Dank an Evan Rapoport, Douglas Eck und Zoubin Ghahramani für ihre vielfältige Unterstützung dieses Projekts. Tim Salimans und Chitwan Saharia haben uns bei der Erarbeitung gemeinsamer Benchmarks geholfen. Jason Baldridge war ein wichtiger Sparringspartner für Ideen. Alex Rizkowsky war sehr hilfreich bei der Organisation, während Erica Moreira und Victor Gomes eine reibungslose Ressourcenplanung für das Projekt sicherstellten. Sarah Laszlo und Kathy Meier-Hellstern haben uns sehr dabei geholfen, wichtige Praktiken der verantwortungsbewussten KI in dieses Projekt zu integrieren, wofür wir enorm dankbar sind. Abschließend möchten wir Blake Hechtman und Anselm Levskaya für ihre Hilfe bei der Behebung verschiedener JAX-Probleme danken.


Quelle: Cornell University, Studien-Paper, Website Phenaki