Nach wochenlangen Spekulationen über einen mögliches Google-Konkurrenzprodukt hat ChatGPT-Entwickler OpenAI ein neues Sprachmodell (Large Language Model; LLM) als Desktop-Version angekündigt - inklusive eines umfassenden Upgrades für die Benutzeroberfläche. Das neue, multimodale LLM trägt den Namen GPT-4o (das O steht für "omni") und unterstützt laut OpenAI User-Prompts in Text-, Audio- und Bildform. GPT-4o kann so unter anderem:
Screenshots, Fotos, Dokumente oder Diagramme verarbeiten;
Gesichtsausdrücke erkennen;
handgeschriebene Informationen identifizieren;
auf Audio-Inputs mit menschenähnlicher Schnelligkeit reagieren.
Say hello to GPT-4o, our new flagship model which can reason across audio, vision, and text in real time: https://t.co/MYHZB79UqN
— OpenAI (@OpenAI) May 13, 2024
Text and image input rolling out today in API and ChatGPT with voice and video in the coming weeks. pic.twitter.com/uuthKZyzYx
"Sie versuchen, aufzuholen"
"GPT-4o ist im Vergleich zu bestehenden Modellen vor allem besser, wenn es um Seh- und Hörverständnis geht", schreibt OpenAI in seiner Ankündigung. Im Rahmen einer Live-Präsentation von GPT-4o verkündete OpenAI-CTO Mira Murati zudem, dass GPT-4o auch neue Memory-Fähigkeiten an Bord haben wird. Diese ermöglichten der KI laut der Managerin, aus früheren Gesprächen mit Nutzern zu lernen und diese Informationen für künftige Outputs zu verarbeiten.
Die Fähigkeiten von GPT-4o und darauf basierenden Chatbots konnten bei OpenAIs Live-Demonstration überzeugen: GPT-4o war unter anderem in der Lage, zwischen Murati, die Italienisch sprach, und Barret Zoph, Leiter der Post-Training-Abteilung von OpenAI und auf Englisch unterwegs, erfolgreich hin und her zu übersetzen. Zudem konnte ChatGPT auf 4o-Basis bei dieser Gelegenheit - trotz kleinerer, technischer Zickereien - auch mit einer emotional vorgetragenen Gute-Nacht-Geschichte, der Analyse von Programmcode sowie der Lösung einer handschriftlich notierten Mathe-Aufgabe überzeugen. Laut der OpenAI-CTO sollen die neuen Funktionen von GPT-4o in den kommenden Wochen eingeführt werden - zunächst für eine kleine Gruppe von Partnern.
Chirag Dekate, Vice President beim Analystenhaus Gartner, zeigt sich zwar beeindruckt vom neuen, multimodalen LLM, sieht OpenAI aber im Gegensatz zu früher nicht mehr als Branchenführer im Bereich Generative AI: "Sie versuchen gerade den Rückstand aufzuholen, der entstanden ist, als Google vor drei Monaten Gemini 1.5 vorgestellt hat. Auch dabei handelte es sich um ein multimodales KI-Modell - allerdings mit einem Kontextfenster von einer Million Token. Je größer dieses Fenster ist, desto mehr Daten können eingegeben werden, was wiederum für bessere Ergebnisse sorgt."
Details zur Größe des GPT-4o-Kontextfensters ließ die Präsentation von OpenAI zunächst vermissen. Auf der offiziellen Webseite wird sie jedoch inzwischen mit 128.000 Token angegeben - demselben Wert wie GPT-4 Turbo. Nathaniel Whittemore, CEO bei der KI-Trainingsplattform Superintelligent, bezeichnet die Ankündigung von OpenAI als "polarisierend": "Manche haben das Gefühl, einen Blick in die Zukunft geworfen zu haben, andere fragen sich: 'Das war's schon?'. Dabei geht es auch darum, was nicht präsentiert wurde - nämlich ein GPT-4.5 oder GPT-5." (fm)
Dieser Beitrag basiert auf einem Artikel unserer US-Schwesterpublikation Computerworld.