Table of Contents

Eine Momentaufnahme wird lebendig

Google Research Vlogger: Google hat ein neues KI-Modell namens “Vlogger” vorgestellt, das ein einziges Foto einer Person in einen animierten Avatar verwandeln kann. Dieser Avatar bewegt sich natürlich und ist in der Lage, Mimik, Gestik und Körperbewegungen darzustellen, während er synchron zu einer Audioaufnahme spricht. Das Besondere an Vlogger ist, dass es keine umfangreichen Trainingsdaten der jeweiligen Person benötigt – ein einziges Foto reicht aus.

Image to Video Generation:

Here are more examples of talking face generation using just a single input image and driving audio. pic.twitter.com/7bZUkIxhVi
— Roni Rahman (@heyronir) March 19, 2024

Die Kernfunktion von Vlogger ist es, einen fotorealistischen und zeitlich konsistenten Video-Avatar aus nur einem einzigen Eingabefoto einer Person zu erzeugen. Dieser generierte Avatar kann dann synchron zu einer beliebigen Audioeingabe mimikartig sprechen und sich bewegen.

Im Detail funktioniert dies durch einen zweistufigen Prozess: Zunächst analysiert ein stochastisches Diffusionsmodell die Audiodaten und leitet daraus eine Sequenz von 3D-Gesichtsausdrücken, Kopf- und Körperposen ab. Diese dienen dann als räumlich-zeitliche Kontrollen für ein neuartiges, bildgenerierendes Diffusionsmodell.

Video Editing:

In this case, VLOGGER takes a video and changes the expression of the subject by e.g. closing the mouth or the eyes. pic.twitter.com/kTQlKfjEcf
— Roni Rahman (@heyronir) March 19, 2024

Dieses zweite Modell rendert schließlich Frame für Frame das Videomaterial, indem es die Audio- und Posendaten mit dem Eingabefoto kombiniert. Dabei werden nicht nur die Lippenbewegungen, sondern auch Mimik, Gestik, Blickrichtung, Augenblinzeln und sogar die Bewegung von Accessoires wie Ohrringen oder einer Frisur auf verblüffend natürliche und lebendige Weise animiert.

Ein entscheidender Vorteil von Vlogger ist, dass das System völlig personenunabhängig arbeitet. Es benötigt keine separaten Trainingsdaten der abzubildenden Person, sondern nur ein einzelnes Portraitfoto. Einmal mit einem riesigen Datensatz wie MENTOR vortrainiert, kann es potentiell jeden Menschen in einen realistischen Video-Avatar verwandeln.

Trainiert mit riesigem Datensatz

Video Translation:

One of the primary applications of this model is in video translation.

For instance, VLOGGER can take an existing video in one language and adjust the lip and facial movements to match new audio, such as Spanish. pic.twitter.com/6vjj2JKjdh
— Roni Rahman (@heyronir) March 19, 2024

Der MENTOR-Datensatz wurde speziell für die Entwicklung von Vlogger zusammengestellt und ist einer der größten seiner Art. Er umfasst beeindruckende 2.000 Stunden an hochauflösendem Videomaterial von über 800.000 verschiedenen Personen.

Was den Datensatz so wertvoll macht, ist seine enorme Vielfalt. Er deckt eine breite Palette unterschiedlicher ethnischer Gruppen, Altersgruppen, Körpertypen und Posen ab. Neben Aufnahmen von Oberkörpern und Gesichtern enthält er auch viele Sequenzen mit dynamischen Handbewegungen und Gesten.

Durch diese riesige Menge an Trainingsdaten aus allen möglichen Perspektiven konnte Vlogger ein tiefgehendes Verständnis dafür entwickeln, wie sich Menschen in ihrer Vielfalt äußerlich darstellen und bewegen. Es lernte die subtilen Muster und Abhängigkeiten zwischen Audioeingang, Mimik, Gestik und Körperhaltung zu modellieren.

Dieser datengetriebene Ansatz auf Basis des MENTOR-Datensatzes erlaubt es Vlogger, völlig personenunabhängig zu arbeiten. Das Modell muss nicht für jede neue Identität separat trainiert werden, sondern kann seine Fähigkeiten dank MENTOR direkt auf beliebige Einzelfotos übertragen.

Die Autoren betonen, dass die Skalierung auf einen so großen und diversen Datensatz entscheidend für die Leistungsfähigkeit und Fairness von Vlogger war. So kann es z.B. Vorurteile gegenüber bestimmten Ethnien oder Geschlechtern vermeiden.

Erstellung realistischer Bewegungen

Im ersten Schritt kommt ein spezielles stochastisches Diffusionsmodell zum Einsatz. Dieses analysiert die Audioeingabe und leitet daraus eine Sequenz von 3D-Gesichtsausdrücken, Kopf- und Körperposen ab. Da die Beziehung zwischen Audiosignal und resultierenden Bewegungen höchst komplex und nicht eindeutig ist, muss dieser Schritt stochastisch modelliert werden.

Die so erzeugten 3D-Representations von Mimik, Gestik und Pose dienen dann als räumlich-zeitliche Kontrolldaten für Vloggers zweites neuartiges Diffusionsmodell. Dieses ist speziell dafür ausgelegt, fotorealistische Videoframes zu generieren, die den Kontrollvorgaben exakt folgen.

Frame für Frame wandelt dieses Modell die 3D-Repräsentationen in lebendig animierte 2D-Ausgabebilder um. Dabei werden selbst kleinste Details wie Lippenbewegungen, Lidschlag, Blickrichtungswechsel oder die natürliche Bewegung von Objekten wie Ohrringen oder Frisuren auf verblüffend realistische Art und Weise dargestellt.

Durch geschickte Modellierung von zeitlicher Kohärenz und den Einsatz generativer Bilddiffusionsmodelle gelingt es, jede Phase der Mimik, Gestik und Haltung als flüssige Sequenz fotorealistischer Bilder zu rendern.

Entscheidend ist, dass die gesamte Synthese vollautomatisch aus dem Eingabe-Standbild und der Audiospur erfolgt, ohne manuelle Nachbearbeitung oder spezielles Tracking der Person. Vlogger vereint so erstmals Audio-zu-Bewegung und Text-zu-Bild in einem durchgängigen Modell.

Potenzielle Anwendungen und Risiken

Eine solche Technologie bietet zahlreiche Einsatzmöglichkeiten, beispielsweise für Chatbots, virtuelle Assistenten, VR-Anwendungen oder die Filmbranche. Gleichzeitig birgt die enorme Effizienz und Einfachheit von Vlogger aber auch Risiken: Die Erstellung von sogenannten “Deepfakes” – verfälschten Videos und Bildern – wird deutlich erleichtert. Zwar räumen die Entwickler dieses Missbrauchspotenzial ein, letztendlich überwiegt für sie aber der Nutzen der Technologie.

Fazit Google Research Vlogger

Vlogger ist zweifellos eine beeindruckende technologische Leistung, die uns einen Ausblick auf die Zukunft audiovisueller KI-Systeme gibt. Während die Möglichkeiten faszinieren, müssen wir jedoch wachsam bleiben für die Risiken, die eine solch mächtige Technologie mit sich bringen kann. Ein verantwortungsvoller und ethischer Umgang ist unerlässlich, um zu verhindern, dass Vlogger für Desinformation und Identitätsmissbrauch missbraucht wird. Die Zukunft wird zeigen, wie dieses Spannungsfeld zwischen Innovation und Integrität aufgelöst werden kann.

Quelle: Google Research,

#KuenstlicheIntelligenz #KI #artificialintelligence #AI #Google #Animation #Avatare #Vlogger #Videos

Google Research Vlogger – Ein Bild wird zu einem KI Avatar

ByOliver Welling

Eine Momentaufnahme wird lebendig

Trainiert mit riesigem Datensatz

Erstellung realistischer Bewegungen

Potenzielle Anwendungen und Risiken

Fazit Google Research Vlogger

Die 29 besten KI-Sales-Tools für Deinen maximalen Erfolg im Vertrieb 2024

Die 10 besten Alternativen zu ChatGPT findest Du hier!

KI im Mittelstand – Jetzt künstliche Intelligenz im Unternehmen nutzen

16 besten KI Meeting Assistenten

Die 22 KI-Supermächte: Ein DeepDive auf die führenden Player 2024

Keymate.ai ist ChatGPT MIT Google Search – Krasse Kombi

By Oliver Welling

Related Post

OpenAI und Reddit verkünden Partnerschaft

KINews24 Update, Freitag, 17.5.2024

Google PaliGemma

You missed

OpenAI und Reddit verkünden Partnerschaft

KINews24 Update, Freitag, 17.5.2024

Google PaliGemma

Sony Music setzt klare Grenzen für Künstlichen Intelligenz

ByOliver Welling

Eine Momentaufnahme wird lebendig

Trainiert mit riesigem Datensatz

Erstellung realistischer Bewegungen

Potenzielle Anwendungen und Risiken

Fazit Google Research Vlogger

Die 29 besten KI-Sales-Tools für Deinen maximalen Erfolg im Vertrieb 2024

Die 10 besten Alternativen zu ChatGPT findest Du hier!

KI im Mittelstand – Jetzt künstliche Intelligenz im Unternehmen nutzen

Related Posts

By Oliver Welling

Related Post

You missed