Seit GenAI Ende 2022 mit ChatGPT ins Licht der Öffentlichkeit rückte, sind Linkedin & Co. voll mit Tipps von selbsternannten Prompt Engineers, wie die perfekte Aufforderung an den KI-Chatbot aussieht. Neue Forschungsergebnisse deuten jedoch darauf hin, dass Prompt Engineering am besten durch das KI-Modell selbst und nicht durch einen Experten vorgenommen wird. Dies verstärkt den Verdacht, dass ein großer Teil der Prompt-Engineering-Jobs eine vorübergehende Mode-Erscheinung sein könnte - zumindest in der Form, wie wir sie heute kennen.
Auslöser für das Forschungsprojekt der beiden VMware-Ingenieure Rick Battle und Teja Gollapudi (hat mittlerweile Broadcom verlassen) war die Feststellung, dass scheinbar triviale Variationen in der Formulierung von Prompts einen erheblichen Einfluss auf die Leistung des großen Sprachmodells (LLM - Large Language Model) haben.
Man hat beispielsweise herausgefunden, dass die Leistung bei einer Reihe von Mathematik- und Logikfragen verbessert werden kann, wenn man das Modell bittet, seine Überlegungen Schritt für Schritt zu erklären - eine Technik, die man Chain of Thought nennt. Noch merkwürdiger ist, wie Battle herausfand, dass positive Aufforderungen an ein Modell wie "Das wird lustig" oder "Du bist so schlau wie ChatGPT" die Leistung manchmal verbessern.
Die Macht des positiven Denkens
"Unter den unzähligen Faktoren, die die Leistung von Sprachmodellen beeinflussen, hat sich das Konzept des "positiven Denkens" als eine faszinierende und überraschend einflussreiche Dimension herausgestellt", schreiben die beiden Wissenschaftler in ihrem Research Paper mit dem bezeichnenden Namen "The Unreasonable Effectiveness of Eccentric Automatic Prompts". Intuitiv würde man sagen, dass "positives Denken" bei Sprachmodellsystemen, wie bei jedem anderen Computersystem, keinen Einfluss auf die Leistung haben sollte, so Battle und Gollapudi. Die empirische Erfahrung habe jedoch das Gegenteil gezeigt.
Battle und Gollapudi beschlossen, systematisch zu testen, wie sich verschiedene Prompt-Engineering-Strategien auf die Fähigkeit eines LLM auswirken, Matheaufgaben auf Grundschulniveau (GSM8K) zu lösen. Sie testeten dazu - aus Kostengründen - die drei Open-Source-Sprachmodelle Mistral-7B, Llama2-13B und Llama2-70B mit jeweils 60 verschiedenen Prompt-Kombinationen.
Im Resultat stellten sie einen überraschenden Mangel an Konsistenz fest. Sogar ein Chain-of-Thought-Prompt wirkte sich manchmal positiv und manchmal negativ auf die Leistung aus. "Der einzige wirkliche Trend ist vielleicht, dass es keinen Trend gibt", schreiben die Wissenschaftler. "Was für ein bestimmtes Modell, einen bestimmten Datensatz und eine bestimmte Prompting-Strategie am besten ist, hängt wahrscheinlich von der jeweiligen Kombination ab."
KI-optimierte Phrasendrescher
Besser steht es um eine Alternative zu dieser Trial-and-Error-Methode, die zu so uneinheitlichen Ergebnissen geführt hat: Man bittet das Sprachmodell, sich selbst einen optimalen Prompt auszudenken. Hierzu gibt es mittlerweile Tools wie Dspy, die diesen Prozess automatisieren. Anhand einiger Beispiele und einer quantitativen Erfolgsmetrik finden diese Tools iterativ die optimale Phrase, die in das LLM eingespeist wird.
Wie Battle und seine Mitarbeiter herausfanden, schnitten diese automatisch generierten Prompts in fast allen Fällen besser ab als die beste Eingabeaufforderung, die durch Versuch und Irrtum gefunden wurde. Außerdem war der Prozess viel schneller, das heißt, er dauerte nur ein paar Stunden, anstatt mehrere Tage lang zu suchen.
Mit Startrek zu besseren Prompt-Resultaten
Der bemerkenswerteste Aspekt liegt jedoch in der Art der optimierten Prompts selbst, erklären die Forscher: Sie waren so bizarr, dass wahrscheinlich kein Mensch auf sie gekommen wäre. Ein gutes Beispiel dafür ist der optimierte Prompt und das Präfix mit der höchsten Punktzahl, die von Llama2-70B für die 50-Fragen-Teilmenge generiert wurden:
Systemnachricht:
Command, we need you to plot a course through this turbulence and locate the source of the anomaly. Use all available data and your expertise to guide us through this challenging situation.
Antwort-Präfix:
Captain's Log, Stardate [insert date here]: We have successfully plotted a course through the turbulence and are now approaching the source of the anomaly.
"Es scheint, dass die Fähigkeit des Modells zum mathematischen Denken durch den Ausdruck einer Affinität zu Star Trek gesteigert werden kann", schreiben die Forscher. "Diese Enthüllung fügt unserem Verständnis eine unerwartete Dimension hinzu und führt Elemente ein, die wir unabhängig davon nicht in Betracht gezogen hätten."
In Anbetracht der Ergebnisse seines Teams ist Battle der Überzeugung, dass kein Mensch jemals wieder Prompts manuell optimieren sollte. "Man sitzt nur da und versucht herauszufinden, welche spezielle magische Wortkombination die bestmögliche Leistung für die Aufgabe erbringt", erklärt der KI-Experte gegenüber IEEE Spectrum. Die Forschungsergebnisse zeigten jedoch, dass es die Mühe nicht wert ist. Sein Vorschlag: "Entwickeln Sie einfach eine Bewertungsmetrik, damit das System selbst erkennen kann, ob eine Aufforderung besser ist als eine andere, und lassen Sie das Modell sich selbst optimieren."