ChatGPT-Macher OpenAI hat mit Sora ein neues KI-Modell angekündigt, das Text-Prompts in Bewegtbild verwandelt. OpenAI-CEO Sam Altman bezeichnete die Ankündigung von Sora auf der Kurznachrichten-Plattform X als "bemerkenswerten Moment" und erklärte, dass das Modell derzeit auf potenzielle Risiken und Fehler abgeklopft werde und zunächst ausgewählten Content-Kreatoren zu Experimentierzwecken zur Verfügung stehe.
here is sora, our video generation model:https://t.co/CDr4DdCrh1
— Sam Altman (@sama) February 15, 2024
today we are starting red-teaming and offering access to a limited number of creators.@_tim_brooks @billpeeb @model_mechanic are really incredible; amazing work by them and the team.
remarkable moment.
Das kann OpenAIs neue Text-zu-Video-KI
Welche Features Sora in Zukunft auszeichnen sollen, stellt OpenAI auf seiner Webseite in Aussicht. Kurz zusammengefasst soll Sora in der Lage sein, Videos von bis zu einer Minute Länge aus Texteingaben zu generieren und dabei in der Lage sein,
komplexe Szenen mit mehreren Protagonisten darzustellen;
spezifische Bewegungsabläufe umzusetzen;
mehrere Kameraeinstellungen innerhalb eines Videos umzusetzen;
akkurate Details auch für Hintergründe und Nebenobjekte zu liefern;
zu "verstehen", wie Dinge in der physischen Welt existieren.
Wie der Output konkret aussieht, der daraus resultiert, veranschaulichen einige Beispiele, die Altman über seinen X-Account geteilt hat:
https://t.co/uCuhUPv51N pic.twitter.com/nej4TIwgaP
— Sam Altman (@sama) February 15, 2024
https://t.co/qbj02M4ng8 pic.twitter.com/EvngqF2ZIX
— Sam Altman (@sama) February 15, 2024
1) What https://t.co/w6b9T1WWue
— Sam Altman (@sama) February 15, 2024
Das KI-Unternehmen schränkt dabei jedoch ein: "Das aktuelle Modell weist Schwächen auf und hat möglicherweise Probleme, die physikalischen Details komplexer Szenen zu simulieren sowie spezifische Instanzen von Ursache und Wirkung zu erkennen. Beispielsweise könnte ein Mensch in einen Keks beißen - der danach möglicherweise keine Bissspuren aufweist." Darüber hinaus könne es auch vorkommen, dass Sora bei den räumlichen Details eines Prompts Fuckups produziere - etwa wenn es darum gehe, rechts und links zu unterscheiden.
Um Deepfakes vorzubeugen, hat OpenAI außerdem angekündigt, Tools zu entwickeln, die erkennen können, ob ein Video mit Sora generiert wurde. In Sachen Sicherheit kann das Unternehmen aber auch auf Bewährtes zurückgreifen: "Wir entwickeln nicht nur neue Techniken in Vorbereitung auf das Deployment, sondern nutzen auch bestehende Safety-Features, die wir für unsere Produkte entwickelt haben, die DALL-E3 nutzen und die auch auf Sora anwendbar sind", schreiben die Verantwortlichen von OpenAI und führen Text Classifier als Beispiel an. Die sollen verhindern, dass Prompts in das System einfließen, die gegen die Nutzungsbedingungen verstoßen.
Weitere technische Details zu Sora stellt OpenAI in einem ausführlichen technischen Report zur Verfügung.