Neueste Fortschritte in automatischer Videound Musiksynthese mit KI WebTV. Live-Streaming von Demo-Videos, erstellt mit Zeroscope und MusicGen Open-Source-Modellen.Neueste Fortschritte in automatischer Videound Musiksynthese mit KI WebTV. Live-Streaming von Demo-Videos, erstellt mit Zeroscope und MusicGen Open-Source-Modellen.

Einleitung KI WebTV

KI WebTV ist eine experimentelle Demo, die neueste Fortschritte in der automatischen Video- und Musiksynthese zeigt. Es soll ein Unterhaltungsangebot darstellen, das auf einfache und zugängliche Weise Videos zeigt, die mit Open-Source-Text-zu-Video-Modellen wie Zeroscope und MusicGen erstellt wurden. Aber beachte: Es handelt sich eher um eine Technik-Demo als um eine tatsächliche Show.

Technik

Die AI WebTV funktioniert, indem sie eine Sequenz von Videoaufnahme-Aufforderungen nimmt (also Prompts) und diese an ein Text-zu-Video-Modell weitergibt, um eine Sequenz von Takes zu generieren. Zusätzlich werden ein Basisthema und eine Idee (von einem Menschen geschrieben) durch ein LLM (in diesem Fall ChatGPT) geschickt, um eine Vielzahl individueller Aufforderungen für jeden Videoclip zu generieren.

Modell für Video

Das zentrale Videomodell ist Zeroscope V2, ein auf ModelScope basiertes Modell. Zeroscope besteht aus zwei Teilen, die zusammengekettet werden können: Zuerst mit zeroscope_v2_576, um einen 576×320 Video-Clip zu generieren, und dann optional mit zeroscope_v2_XL, um das Video auf 1024×576 hochzuskalieren.

Implementierung des KI WebTV

KI WebTV ist in NodeJS und TypeScript implementiert und nutzt verschiedene Dienste, die auf Hugging Face gehostet werden. Zur schnellen Prototypenerstellung werden zwei duplizierte Hugging Face Spaces mit Gradio aufgerufen, welche Zeroscope ausführen.

Post-Processing

Nach dem Hochskalieren wird ein einzelner Take (ein Video-Clip) an FILM (Frame Interpolation for Large Motion) weitergegeben, einen Frame-Interpolationsalgorithmus. Während des Post-Processing wird auch Musik hinzugefügt, die mit MusicGen generiert wurde.

Ausstrahlung des Streams

Zum Erstellen eines Videostreams können mehrere Tools verwendet werden. Derzeit verwendet KI WebTV FFmpeg, um eine Playlist aus mp4-Videodateien und m4a-Audiodateien zu lesen. Für Smartphones gibt es einen Twitch Mirror.

Beobachtungen und Beispiele

Es zeigt sich, dass die Anwendung des zweiten Durchgangs von Zeroscope XL die Bildqualität erheblich verbessert. Auch der Einfluss der Frame-Interpolation ist deutlich sichtbar.

Fehlversuche

Das Modell hat manchmal Schwierigkeiten mit Bewegung und Richtung. Hier scheint der Clip rückwärts abgespielt zu werden. Auch das Modifikator-Schlüsselwort grün wurde nicht berücksichtigt. Bei realistischen Szenen können wir manchmal Artefakte wie sich bewegende vertikale Linien oder Wellen sehen. Es ist unklar, was dies verursacht.

Empfehlungen

Es gibt einige frühe Empfehlungen, die aus den vorherigen Beobachtungen gemacht werden können:

  • Verwendung von video-spezifischen Aufforderungs-Schlüsselwörtern
  • Aufrechterhaltung der Konsistenz zwischen den Szenen
  • Nutzung der Frame-Interpolation

KI WebTV – zukünftige Arbeit

Wir hoffen, dass dir der KI WebTV-Stream gefallen hat und dass er dich inspiriert, in diesem Bereich mehr zu bauen. Da es sich um einen ersten Versuch handelte, standen viele Dinge nicht im Fokus der Technik-Demo: Die Erzeugung längerer und abwechslungsreicherer Sequenzen, das Hinzufügen von Audio (Soundeffekten, Dialogen), das Generieren und Orchestrieren komplexer Szenarien oder das Lassen eines Sprachmodell-Agenten, der mehr Kontrolle über die Pipeline hat. Einige dieser Ideen könnten in zukünftige Updates des KI WebTV einfließen, aber wir können es auch kaum erwarten zu sehen, was die Gemeinschaft von Forschern, Ingenieuren und Erbauern erfinden wird!

Quelle: Huggingface