Text-to-Video mit OpenAI Sora

Podcastende Hunde sind erst der Anfang

16.02.2024
Von 


Florian Maier beschäftigt sich mit diversen Themen rund um Technologie und Management.
OpenAI hat ein neues KI-Modell vorgestellt. Erste Experimente demonstrieren, was mit dem Text-to-Video-Modell künftig möglich sein wird.
OpenAI Sora verspricht kreative Bewegtbildergüsse ohne viel Aufwand.
OpenAI Sora verspricht kreative Bewegtbildergüsse ohne viel Aufwand.
Foto: Reshetnikov_art | shutterstock.com

ChatGPT-Macher OpenAI hat mit Sora ein neues KI-Modell angekündigt, das Text-Prompts in Bewegtbild verwandelt. OpenAI-CEO Sam Altman bezeichnete die Ankündigung von Sora auf der Kurznachrichten-Plattform X als "bemerkenswerten Moment" und erklärte, dass das Modell derzeit auf potenzielle Risiken und Fehler abgeklopft werde und zunächst ausgewählten Content-Kreatoren zu Experimentierzwecken zur Verfügung stehe.

Das kann OpenAIs neue Text-zu-Video-KI

Welche Features Sora in Zukunft auszeichnen sollen, stellt OpenAI auf seiner Webseite in Aussicht. Kurz zusammengefasst soll Sora in der Lage sein, Videos von bis zu einer Minute Länge aus Texteingaben zu generieren und dabei in der Lage sein,

  • komplexe Szenen mit mehreren Protagonisten darzustellen;

  • spezifische Bewegungsabläufe umzusetzen;

  • mehrere Kameraeinstellungen innerhalb eines Videos umzusetzen;

  • akkurate Details auch für Hintergründe und Nebenobjekte zu liefern;

  • zu "verstehen", wie Dinge in der physischen Welt existieren.

Wie der Output konkret aussieht, der daraus resultiert, veranschaulichen einige Beispiele, die Altman über seinen X-Account geteilt hat:

Das KI-Unternehmen schränkt dabei jedoch ein: "Das aktuelle Modell weist Schwächen auf und hat möglicherweise Probleme, die physikalischen Details komplexer Szenen zu simulieren sowie spezifische Instanzen von Ursache und Wirkung zu erkennen. Beispielsweise könnte ein Mensch in einen Keks beißen - der danach möglicherweise keine Bissspuren aufweist." Darüber hinaus könne es auch vorkommen, dass Sora bei den räumlichen Details eines Prompts Fuckups produziere - etwa wenn es darum gehe, rechts und links zu unterscheiden.

Um Deepfakes vorzubeugen, hat OpenAI außerdem angekündigt, Tools zu entwickeln, die erkennen können, ob ein Video mit Sora generiert wurde. In Sachen Sicherheit kann das Unternehmen aber auch auf Bewährtes zurückgreifen: "Wir entwickeln nicht nur neue Techniken in Vorbereitung auf das Deployment, sondern nutzen auch bestehende Safety-Features, die wir für unsere Produkte entwickelt haben, die DALL-E3 nutzen und die auch auf Sora anwendbar sind", schreiben die Verantwortlichen von OpenAI und führen Text Classifier als Beispiel an. Die sollen verhindern, dass Prompts in das System einfließen, die gegen die Nutzungsbedingungen verstoßen.

Weitere technische Details zu Sora stellt OpenAI in einem ausführlichen technischen Report zur Verfügung.