AI-Art-Generator von Meta

Make-A-Video verwandelt Text in Videos

30.09.2022
Von 


Florian Maier beschäftigt sich mit diversen Themen rund um Technologie und Management.
Mit Make-A-Video stellt die Facebook-Mutter Meta in Kürze erstmals einen AI-Art-Generator zur öffentlichen Nutzung bereit, der Text in Videos verwandelt.
Mit Make-A-Video beendet Meta das statische Zeitalter der KI-Kunst. Lesen Sie, was der AI-Art-Generator der Facebook-Mutter drauf hat.
Mit Make-A-Video beendet Meta das statische Zeitalter der KI-Kunst. Lesen Sie, was der AI-Art-Generator der Facebook-Mutter drauf hat.
Foto: teh_z1b - shutterstock.com

Die in jüngster Zeit populär gewordenen AI-Art-Generatoren, etwa Midjourney, DALL-E oder Stable Diffusion, zeichnen sich in erster Linie dadurch aus, Text in statische Bilder zu verwandeln. Facebook- und Instagram-Mutterkonzern Meta treibt es mit der generativen KI nun ein Stück weiter und hat Make-A-Video vorgestellt:

Der AI-Art-Generator aus dem Hause Zuckerberg kombiniert KI-Kunst und Interpolation, um kurze Videos zu erstellen - die ein bisschen an herkömmliche GIFs erinnern. "Das System lernt anhand von Text-Bild-Paaren, wie die Welt aussieht, und anhand von Videomaterial ohne zugehörigen Text, wie sich die Welt bewegt. Im Rahmen unseres Engagements für transparente Forschung teilen wir die Details in einem Forschungspapier und planen die Veröffentlichung einer Demo", schreibt der Konzern in einer Pressemitteilung.

Make-A-Video: Das kann Metas AI-Art-Generator

Dabei zeichnet sich Metas AI-Art-Generator im Wesentlichen durch drei Features aus:

1. Videos aus Text generieren

Aus Texteingaben kreiert Make-A-Video ein entsprechendes Video. So erzeugt der etwas längliche Input "A fluffy baby sloth with an orange knitted hat trying to figure out a laptop close up highly detailes studio lighting screen reflecting in ist eye" folgendes Ergebnis:

2. Videos aus statischen Bildern generieren

Metas KI-Kunst-Generator ist auch in der Lage, zwei statische Bilder miteinander zu einem Video zu "vernetzen" - also die zwischenliegenden Einzelbilder per KI zu erzeugen und einzufügen. Natürlich können auch statische Einzelbilder in Bewegung versetzt werden. So lassen sich zum Beispiel antike Gemälde in Bewegtbild verwandeln:

3. Variationen vorhandener Videos erstellen

Schließlich erzeugt Make-A-Video auch aus vorhandenem Video-Input Variationen. Diese unterscheiden sich vom Original in diversen Details beispielsweise Farbgebung oder Bildeinstellung.

KI-Kunst: Auf ins Bewegtbild-Zeitalter

Wie die KI-Forscher von Meta im zugehörigen Research Paper (PDF) erklären, baut Make-A-Video auf den kürzlich erzielten Fortschritten im Bereich Text-to-Image-Generation (T2I) auf und übersetzt diese in Text-to-Video-Generation (T2V). "Make-A-Video setzt in sämtlichen Aspekten - räumliche und zeitliche Auflösung sowie Texttreue - neue Standards, wenn es darum geht, Videos aus Text zu erzeugen - sowohl nach quantitativen als auch qualitativen Maßstäben", schreiben die Forscher selbstbewusst.

Wie Meta mitteilt, verwendet sein AI-Art-Generator öffentlich zugängliche Datensätze, was der Forschung eine zusätzliche Ebene der Transparenz verleihen soll: "Wir teilen diese Forschungsergebnisse auf dem Gebiet der generativen KI mit der Community, um ihr Feedback einzuholen und werden unser Responsible-AI-Framework nutzen, um unseren Ansatz für diese neue Technologie weiterzuentwickeln."

Auch Mark Zuckerberg feiert Make-A-Video im Rahmen eines Facebook-Posts: "Das ist ein ziemlich erstaunlicher Fortschritt. Die Erstellung von Videos ist viel schwieriger als die von Fotos, da das System nicht nur jedes einzelne Pixel korrekt erstellen, sondern auch vorhersagen muss, wie sich die Pixel im Laufe der Zeit verändern werden. Make-A-Video löst dieses Problem, indem es eine Unsupervised-Learning-Ebene hinzufügt, die es dem System ermöglicht, Bewegungen in der physischen Welt zu verstehen und sie auf die herkömmliche Text-Bild-Erzeugung anzuwenden", schreibt der Meta-CEO.

In der Tat scheint Meta mit seinem AI-Art-Generator die KI-Kunst in ein neues Bewegtbild-Zeitalter zu überführen. Ähnliche Features dürften bei Midjourney und Stable Diffusion vermutlich nicht allzu lange auf sich warten lassen. Wenn es soweit ist, dürfte uns eine Flut von KI-generierten Videokunstwerken erwarten. Wie das aussehen könnte, zeigt ein Blick in die Make-A-Video-Beispielgalerie: