In einer neuen Episode des Podcast "Training Data" von Sequoia Capital bekräftigte Kevin Scott, CTO und EVP AI von Microsoft, seine Überzeugung, dass die "Skalierungsgesetze für große Sprachmodelle (LLMs)" den Fortschritt in der KI weiter vorantreiben werden.
"Im Gegensatz zu dem, was andere Leute denken, sind wir beim Scale-up noch nicht an der Grenze der Rentabilität angelangt", erklärte Scott, der eine Schlüsselrolle beim Zustandekommen des 13-Milliarden-Dollar-Deals zwischen Microsoft und OpenAI spielte. "Und ich versuche, den Leuten klar zu machen, dass es eine exponentielle Entwicklung gibt, die man leider nur alle paar Jahre erleben kann, weil es einfach eine Weile dauert, Supercomputer zu bauen und darauf Modelle zu trainieren."
Die LLM-Skalierungsgesetze beziehen sich auf Muster, die von OpenAI-Experten im Jahr 2020 erforscht wurden (PDF) und die zeigen, dass die Leistung von Sprachmodellen sich vorhersehbar verbessert, wenn die Modelle größer werden (mehr Parameter), auf mehr Daten trainiert werden und Zugang zu mehr Rechenleistung (Compute) haben. Diese Gesetzmäßigkeiten legen nahe, dass eine einfache Vergrößerung der Modelle und der Trainingsdatensets zu erheblichen Verbesserungen der KI-Fähigkeiten führen kann, ohne dass ein grundlegender algorithmischer Durchbruch notwendig ist.
Allerdings weisen Kritiker darauf hin, dass die Entwicklung bei GPT-4 stagniert, beziehungsweise neuere Modelle wie Googles Gemini 1.5 Pro, Anthropics Claude Opus und sogar OpenAIs GPT-4o nicht mehr die Leistungssprünge früherer Generationen aufweisen.
Drei Jahre statt vier Monate
Der Eindruck, dass sich der Fortschritt bei den LLM-Fähigkeiten und beim Benchmarking verlangsamt hat, könnte darauf zurückzuführen sein, dass GenAI in der Öffentlichkeit so schnell in Erscheinung getreten ist, obwohl die LLMs in Wirklichkeit schon seit Jahren entwickelt werden. So gibt es bei OpenAI eine etwa dreijährige Lücke zwischen der Veröffentlichung von GPT-3 im Jahr 2020 und GPT-4 im Jahr 2023. Weil sie die Modelle der GPT-3-Klasse erst seit der Veröffentlichung von ChatGPT Ende November 2022 kennen, das GPT-3.5 verwendete, haben viele Menschen mit der Veröffentlichung von GPT-4 im Jahr 2023 einen rasanten Leistungssprung wahrgenommen.
Im Sequoia-Podcast wehrte sich der Microsoft CTO gegen die Behauptung, dass der Fortschritt der KI ins Stocken geraten sei. Er räumte aber ein, dass die Entwicklung neuer Modelle oft Jahre dauert, da es in diesem Bereich nur wenige Daten gibt. Trotzdem zeigte sich Scott zuversichtlich, dass künftige Iterationen Verbesserungen bringen werden, vor allem in Bereichen, in denen aktuelle Modelle Schwierigkeiten haben.
"Ich kann Ihnen nicht sagen, wann das nächste Modell kommt, und ich kann auch nicht genau vorhersagen, wie gut es sein wird", sagte Scott im Podcast-Interview. "Es wird aber mit ziemlicher Sicherheit in den Bereichen besser sein, in denen es im Moment noch Schwierigkeiten hat. All das wird besser. Es wird billiger, und die Dinge werden weniger störanfällig. Und dann werden immer kompliziertere Dinge möglich. Das ist die Geschichte jeder Generation dieser Modelle, die wir weiterentwickelt haben", so der Microsoft-CTO.