Reinforcement-Learning-Vorteile

Wenn Gen AI zur Sackgasse wird

27.06.2023
Von 
Matt Asay ist Autor der US-Schwesterpublikation Infoworld.com.

Wahrscheinlichkeit vs. Genauigkeit

Die Vergrößerung von Sprachmodellen kann diese Probleme nicht auf magische Weise lösen - so hat GPT-4 weitgehend mit denselben Herausforderungen zu kämpfen wie GPT-3. Selbst nach Überzeugung von Open AI sind größere Modelle nicht die Lösung für die LLM-Probleme, wie in einem Forumsbeitrag zu lesen ist: "Große Sprachmodelle sind von Natur aus probabilistisch und erzeugen wahrscheinliche Outputs auf der Grundlage von Mustern, die sie in den Trainingsdaten beobachtet haben. Bei mathematischen und physikalischen Problemen kann es nur eine richtige Antwort geben, und die Wahrscheinlichkeit, diese Antwort zu erzeugen, kann sehr gering sein."

Im Gegensatz dazu liefert KI, die auf Reinforcement Learning fußt, wesentlich bessere Ergebnisse. Dabei ist es allerdings nicht so, dass Reinforcement Learning in der LLM-Welt keine Rolle spielt. GPT-4 etwa beinhaltet Reinforcement Learning mit menschlichem Feedback (RLHF) - das Kernmodell wird also von menschlichen Anwendern so trainiert, dass es bestimmte Antworten gegenüber anderen bevorzugt. Das ändert allerdings im Grunde nichts an den Antworten, die das Modell von vornherein erzeugt. Letztendlich sind LLMs einfach nicht darauf ausgelegt, übermäßig akkurat oder konsistent zu sein. Sie machen einen Kompromiss zwischen Genauigkeit und deterministischem Verhalten.

Reinforcement Coding?

Im Bereich der Softwareentwicklung kommt Generative AI bereits aktiv zum Einsatz - beispielsweise in Form von GitHub Copilot oder AWS CodeWhisperer. Diese (und weitere) Tools sagen auf der Grundlage des Codes vor und nach dem Einfügepunkt vorher, welcher Codeschnipsel als nächstes folgt. Das erfordert in der Folge, dass die Ergebnisse sorgfältig manuell überprüft und bearbeitet werden müssen, damit der Code korrekt kompiliert und funktioniert. Von "autonomem" Coding kann also keine Rede sein.

Reinforcement Learning kann das nach Auffassung von Diffblue-CEO Lodge hingegen leisten. Das mag daran liegen, dass sein Unternehmen ein kommerzielles Tool entwickelt hat, das auf der KI-Technik basiert. Jedenfalls ist der Manager davon überzeugt, dass Reinforcement Learning Gen AI in der Softwareentwicklung übertreffen kann: "Wenn das Ziel darin besteht, automatisiert 10.000 Unit-Tests für ein Programm zu erstellen, das kein Mensch versteht, dann ist Reinforcement Learning die einzige echte Lösung. LLMs können in diesem Bereich nicht mithalten, denn es gibt keine Möglichkeit für den Menschen, sie effektiv zu überwachen und ihren Code in diesem Umfang zu korrigieren", sagte Lodge auf der QCon. (fm)

Dieser Beitrag basiert auf einem Artikel unserer US-Schwesterpublikation Infoworld.