GPT-4o vorgestellt

Läuft OpenAI der Konkurrenz hinterher?

14.05.2024
Von 
Lucas Mearian ist Senior Reporter bei der Schwesterpublikation Computerworld  und schreibt unter anderem über Themen rund um  Windows, Future of Work, Apple und Gesundheits-IT.
OpenAI hat mit GPT-4o sein neues Flaggschiff-LLM vorgestellt. Ob das so überlegen ist, wie es das Unternehmen gerne hätte, daran bestehen Zweifel.
OpenAI-CTO Mura Murati demonstriert gemeinsam mit Head of Frontiers Research Mark Chen und Head of Post-Training Barret Zoph die Features von GPT-4o.
OpenAI-CTO Mura Murati demonstriert gemeinsam mit Head of Frontiers Research Mark Chen und Head of Post-Training Barret Zoph die Features von GPT-4o.
Foto: OpenAI

Nach wochenlangen Spekulationen über einen mögliches Google-Konkurrenzprodukt hat ChatGPT-Entwickler OpenAI ein neues Sprachmodell (Large Language Model; LLM) als Desktop-Version angekündigt - inklusive eines umfassenden Upgrades für die Benutzeroberfläche. Das neue, multimodale LLM trägt den Namen GPT-4o (das O steht für "omni") und unterstützt laut OpenAI User-Prompts in Text-, Audio- und Bildform. GPT-4o kann so unter anderem:

  • Screenshots, Fotos, Dokumente oder Diagramme verarbeiten;

  • Gesichtsausdrücke erkennen;

  • handgeschriebene Informationen identifizieren;

  • auf Audio-Inputs mit menschenähnlicher Schnelligkeit reagieren.

"Sie versuchen, aufzuholen"

"GPT-4o ist im Vergleich zu bestehenden Modellen vor allem besser, wenn es um Seh- und Hörverständnis geht", schreibt OpenAI in seiner Ankündigung. Im Rahmen einer Live-Präsentation von GPT-4o verkündete OpenAI-CTO Mira Murati zudem, dass GPT-4o auch neue Memory-Fähigkeiten an Bord haben wird. Diese ermöglichten der KI laut der Managerin, aus früheren Gesprächen mit Nutzern zu lernen und diese Informationen für künftige Outputs zu verarbeiten.

Die Fähigkeiten von GPT-4o und darauf basierenden Chatbots konnten bei OpenAIs Live-Demonstration überzeugen: GPT-4o war unter anderem in der Lage, zwischen Murati, die Italienisch sprach, und Barret Zoph, Leiter der Post-Training-Abteilung von OpenAI und auf Englisch unterwegs, erfolgreich hin und her zu übersetzen. Zudem konnte ChatGPT auf 4o-Basis bei dieser Gelegenheit - trotz kleinerer, technischer Zickereien - auch mit einer emotional vorgetragenen Gute-Nacht-Geschichte, der Analyse von Programmcode sowie der Lösung einer handschriftlich notierten Mathe-Aufgabe überzeugen. Laut der OpenAI-CTO sollen die neuen Funktionen von GPT-4o in den kommenden Wochen eingeführt werden - zunächst für eine kleine Gruppe von Partnern.

Chirag Dekate, Vice President beim Analystenhaus Gartner, zeigt sich zwar beeindruckt vom neuen, multimodalen LLM, sieht OpenAI aber im Gegensatz zu früher nicht mehr als Branchenführer im Bereich Generative AI: "Sie versuchen gerade den Rückstand aufzuholen, der entstanden ist, als Google vor drei Monaten Gemini 1.5 vorgestellt hat. Auch dabei handelte es sich um ein multimodales KI-Modell - allerdings mit einem Kontextfenster von einer Million Token. Je größer dieses Fenster ist, desto mehr Daten können eingegeben werden, was wiederum für bessere Ergebnisse sorgt."

Details zur Größe des GPT-4o-Kontextfensters ließ die Präsentation von OpenAI zunächst vermissen. Auf der offiziellen Webseite wird sie jedoch inzwischen mit 128.000 Token angegeben - demselben Wert wie GPT-4 Turbo. Nathaniel Whittemore, CEO bei der KI-Trainingsplattform Superintelligent, bezeichnet die Ankündigung von OpenAI als "polarisierend": "Manche haben das Gefühl, einen Blick in die Zukunft geworfen zu haben, andere fragen sich: 'Das war's schon?'. Dabei geht es auch darum, was nicht präsentiert wurde - nämlich ein GPT-4.5 oder GPT-5." (fm)

Dieser Beitrag basiert auf einem Artikel unserer US-Schwesterpublikation Computerworld.