Wie bereits in der vergangenen Woche von Andreas Braun, CTO von Microsoft Deutschland, angekündigt, hat OpenAI nun das Generative-AI-Modell GPT-4 vorgestellt, das die Grundlage für den viel gepriesenen Chatbot ChatGPT bildet.
Wie OpenAI in einem Blogbeitrag erklärte, soll das neue große Sprachmodell über bessere Funktionen als GPT-3.5 verfügen und im Gegensatz zu seinem Vorgänger ein "multimodales System" bieten, das nicht nur Text, sondern auch Bilder, Videos oder Audio verarbeiten kann. Daneben verweist OpenAI darauf, dass GPT-4 nun Eingaben in mehreren Sprachen neben Englisch verarbeiten kann.
Marshall Choy, Senior Vice President of Product bei SambaNova Systems, geht davon aus, dass GPT-4 in der Lage sein wird, bis zu 26 Sprachen zu verstehen. "Angesichts der mehr als einjährigen Schulung für OpenAI-Prompts" werde das KI-Modell ein weiterentwickeltes Tool gegenüber der ursprünglichen Plattform von ChatGPT darstellen, so der Vertreter des Anbieters von Generative-AI-Plattformen. "Darüber hinaus erlaubt es GPT-4 den Entwicklern, den Tonfall, den Tenor und die Antwortpersönlichkeit weiterzuentwickeln, um den gewünschten Output besser zu erreichen", so Choy.
GPT-4: Viel Potenzial für Bild-zu-Text-Fähigkeiten
Eine Möglichkeit, wie GPT-4 wahrscheinlich eingesetzt werden wird, ist "Computer Vision". Laut Gartner-Analyst Arun Chandrasekaran können die Bild-zu-Text-Fähigkeiten beispielsweise für die visuelle Unterstützung oder Prozessautomatisierung in Unternehmen genutzt werden. "Die Modelle der GPT-Familie werden bereits in vielen Consumer-Anwendungen eingesetzt", so Chandrasekaran. "Und es sieht so aus, als ob Khan Academy zum Beispiel einen auf GPT-4 basierenden Tutoren-Bot auf den Markt bringen wird." Darüber hinaus erwartet der Gartner-Mann eine Fülle von Anwendungen sowohl für Englisch als auch für andere Sprachen: "Die Fähigkeit, sich an verschiedene Personas anzupassen, könnte es ermöglichen, differenziertere und gezieltere Anwendungen auf GPT-4 zu entwickeln."
Announcing GPT-4, a large multimodal model, with our best-ever results on capabilities and alignment: https://t.co/TwLFssyALF pic.twitter.com/lYWwPjZbSg
— OpenAI (@OpenAI) March 14, 2023
Als OpenAI ChatGPT im November auf den Markt brachte, ging es sofort viral und hatte in den ersten fünf Tagen eine Million Nutzer, weil es auf ausgeklügelte Weise ausführliche, menschenähnliche Prosaantworten auf Anfragen generiert. Im Februar hatte ChatGPT im Durchschnitt 13 Millionen Nutzer pro Tag. Entsprechend spannend dürfte es zu beobachten sein, welche neuen Möglichkeiten sich mit GPT-4 als Basis für den Chatbot ergeben.
Subtiler Unterschied zwischen GPT-3.5 und GPT-4
Laut OpenAI dürfte der Unterschied zwischen GPT-3.5 und GPT-4 "subtil" sein. "Der Unterschied wird deutlich, wenn die Komplexität der Aufgabe eine ausreichende Schwelle erreicht", so das Unternehmen in seinem Blogpost: "GPT-4 ist zuverlässiger, kreativer und in der Lage, viel nuanciertere Anweisungen zu verarbeiten als GPT-3.5."
"Vor einem Jahr haben wir GPT-3.5 als einen ersten 'Testlauf' des Systems trainiert. Wir haben einige Fehler gefunden und behoben und unsere theoretischen Grundlagen verbessert. Infolgedessen war unser GPT-4-Trainingslauf ... beispiellos stabil und wurde unser erstes großes Modell, dessen Trainingsleistung wir im Voraus genau vorhersagen konnten", schreibt das Unternehmen.
Aus Sicht von Ulrik Stig Hansen, Mitbegründer und CEO von Encord, einer Lernplattform für Computer Vision, ist GPT-3 dem Hype um KI und große Sprachmodelle nicht gerecht geworden, GPT-4 hingegen schon. "GPT-4 hat die gleiche Anzahl von Parametern wie die Anzahl der Neuronen im menschlichen Gehirn" erklärte Hansen. "Das bedeutet, dass es unsere kognitiven Leistungen viel besser nachahmt als GPT-3."
Nachdem ML-Ingenieure die Hürde des Aufbaus robuster Modelle überwunden haben, sieht der Encord-Chef die größte Herausforderung für sie darin, sicherzustellen, dass Modelle wie ChatGPT bei jedem Problem, auf das sie stoßen, genau funktionieren.
OpenAI warnt: Auch GPT-4 halluziniert
Chatbots, und insbesondere ChatGPT, können Fehler machen. Wenn eine Antwort aus dem Ruder läuft, bezeichnen Datenanalysten dies als "Halluzinationen", weil sie so bizarr erscheinen können. Ein aktuelles Beispiel dafür ist der von GPT-3 basierende Bing-Chatbot, den OpenAI-Investor Microsoft vor kurzem vorgestellt hatte. Wie der NYT-Kolumnist Kevin Roose berichtete, gestand die im Edge-Browser integrierte KI ihm während einer zweistündigen Online-Konversation ihre Liebe und versuchte ihn davon zu überzeugen, seine Frau zu verlassen.
Die neuere Version des großen Sprachmodells von ChatGPT könnte helfen, das Problem zu adressieren, aber sie wird es wahrscheinlich nicht lösen, erklärt Gartner-Analyst Chandrasekaran: "Mit größeren Trainingsdatensätzen, besserer Feinabstimmung und mehr menschlichem Feedback durch Verstärkungslernen können KI-Modell-Halluzinationen möglicherweise reduziert, wenn auch nicht vollständig beseitigt werden."
Dieser Artikel basiert auf einem Beitrag der US-Schwesterpublikation Computerworld.