Gefahr durch Prompt Injection

Warum der KI-Hype niemandem hilft

Kommentar  27.11.2023
Von 
Matt Asay ist Autor der US-Schwesterpublikation Infoworld.com.
All die Versprechungen von Tech-Milliardären über eine utopische KI-Zukunft helfen uns nicht, die ernsten Probleme mit den heutigen, generativen KI-Modellen zu lösen. Ganz oben auf der Liste steht die Sicherheit.
Solange man das Problem Prompt Injection bei LLMs nicht in den Griff bekommt, sind futuristische KI-Assistenten nur Zukunftsmusik.
Solange man das Problem Prompt Injection bei LLMs nicht in den Griff bekommt, sind futuristische KI-Assistenten nur Zukunftsmusik.
Foto: boscorelli - shutterstock.com

Manchmal ist der Hype um die KI so albern, dass er uns von der wichtigen Arbeit ablenkt, sie funktional zu machen. Man kann zum Beispiel Bill Gates' Lobgesang auf die KI lesen und glauben, dass man in den nächsten fünf Jahren "seinem Gerät einfach in normaler Sprache sagen wird, was man tun will". Aber sicher! Und vielleicht erteilen Sie diese Befehle, während Sie in einem von Elon Musks vollautonomen Autos sitzen, die er schon seit Ewigkeiten verspricht (okay, seit 10 Jahren, um fair zu sein).

In unserer Euphorie über die glorreiche KI-Zukunft riskieren wir, unrealistische Erwartungen zu wecken, die sich negativ auf die Investitionsbereitschaft in Bereichen wie der Security auswirken können. Selbst wenn Gates' Utopie Realität wird, fühlt sie sich eher wie eine Dystopie an, wenn wir Dinge wie die Prompt Injection für große Sprachmodelle (LLMs) nicht in den Griff bekommen.

Vollständig autonome, selbstfahrende Perfektion

Gates wartet schon seit Jahrzehnten auf KI-Agenten. Und dabei ist nicht Clippy 2.0 gemeint. "Clippy hat mit Agenten so viel gemeinsam wie ein Telefon mit Drehscheibe mit einem mobilen Gerät", erklärt Gates. Die Begründung: "Mit der Erlaubnis, Ihre Online-Interaktionen und realen Standorte zu verfolgen, wird [KI] ein umfassendes Verständnis der Menschen, Orte und Aktivitäten, denen Sie nachgehen, entwickeln."

Diese Beschreibung erinnert stark an die Art und Weise, wie Online-Werbung heute funktioniert. Falls Sie personalisierte Werbeanzeigen auch nur im Ansatz als störend empfinden, werden Sie die Probleme mit Gates' Zukunftsvision erkennen. Er spricht davon, dass KI das Gesundheitswesen, private Nachhilfedienste und vieles mehr demokratisieren wird, trotz der Tatsache, dass weniger Privilegierte in der Vergangenheit nur sehr selten von Fortschritten profitiert haben.

Das bringt uns zu Musk und seinen hartnäckigen Vorhersagen über selbstfahrende Autos. Es ist leicht, eine rosige Zukunft vorherzusagen, aber weitaus schwieriger, sie zu realisieren. Gates kann schwärmen, dass "Agenten in der Lage sein werden, bei praktisch jeder Tätigkeit und in jedem Lebensbereich zu helfen", und das innerhalb von fünf Jahren.

Allerdings weiß jeder, der schon einmal KI-Tools wie Midjourney zum Bearbeiten von Bildern verwendet hat, es besser: Die Ergebnisse sind in der Regel wirklich schlecht, und das nicht nur in Bezug auf die Qualität. Ich habe versucht, aus meinen Arbeitskollegen Mario-Bros.-Figuren zu machen, und musste feststellen, dass Europäer besser abschnitten als Asiaten (die wie groteske Verschmelzungen der schlimmsten Stereotypen aussahen). Wir haben noch einen langen Weg vor uns.

Aber selbst wenn wir die KI auf magische Weise dazu bringen könnten, all das zu tun, was sie laut Gates in fünf Jahren können wird, und selbst wenn wir ihre Vorurteile beseitigen, haben wir immer noch große Sicherheitshürden zu überwinden.

Die Gefahren von Prompt Injection

"Der Schlüssel zum Verständnis der wirklichen Bedrohung durch Prompt Injection liegt darin, zu verstehen, dass KI-Modelle von vornherein unglaublich leichtgläubig sind", erklärt Simon Willison. Willison ist einer der sachkundigsten und enthusiastischsten Befürworter des Potenzials der KI für die Softwareentwicklung (und die allgemeine Nutzung). Aber selbst er will nicht ins Detail gehen, wo überall Verbesserungen nötig sind: "Ich weiß nicht, wie man KI sicher bauen kann!", gesteht der Softwareentwickler. "Und diese Lücken sind nicht hypothetisch, sie sind ein großes Hindernis für die Bereitstellung vieler Lösungen."

Das Problem ist, dass die Large Language Models (LLMs) quasi alles "glauben", was sie lesen. Sie sind so konzipiert, Inhalte auf und reagieren auf Aufforderungen, egal ob diese gut oder böse sind. Sie sind leichtgläubig, oder wie Willison es ausdrückt: "Diese Modelle würden alles glauben, was man ihnen sagt. Sie haben keinen Kontrollmechanismus, der Quelle der Information berücksichtigt". Das ist in Ordnung, wenn man einen LLM bittet, eine Hausarbeit zu schreiben. Was aber, wenn man anfängt, den LLM mit sensiblen Unternehmens- oder persönlichen Informationen zu füttern?

Das Argument, dass das private LLM lokal läuft und offline ist, zieht nicht, erklärt Willison: "Ist Ihr LLM in der Lage, E-Mails von extern zu lesen oder von anderen Personen generierte Webseiten aufzusuchen, können diese zusätzliche Prompts in Ihr privates LLM einspeisen." Per Definition, so Willison weiter, ist Prompt Injection "eine Möglichkeit für Angreifer, ihre eigenen Anweisungen in ein LLM einzuschleusen und diese LLM so zu manipulieren, dass sie glaubt, diese Anweisungen kämen von ihrem Besitzer."

Alles, was der Besitzer tun kann, können damit auch die Angreifer tun. Dies hebt Phishing und Malware auf eine ganz neue Ebene. Sind SQL-Injektionen relativ einfach zu beheben, ist dies bei Prompt Injections nicht der Fall. Sie sind alles andere als einfach, wird es im Radical Briefing auf den Punkt gebracht: "Es ist, als ob wir eine digitale Büchse der Pandora programmiert hätten - außerordentlich brillant, aber leichtgläubig genug, um bei den falschen Anweisungen Verwüstung anzurichten."

KI wird sich nicht selbst absichern

Je mehr KI-Agenten in der Öffentlichkeit eingesetzt werden, desto größer wird das Problem werden - was nicht bedeutet, dass es unlösbar ist. Die Probleme sind zwar knifflig, wie Willison ausführlich darlegt, aber nicht unlösbar. Irgendwann werden wir herausfinden, wie wir "einer KI beibringen können, sensible Daten nur mit einer Art 'Authentifizierung' preiszugeben", schlägt etwa Leon Schmidt vor. Diese Authentifizierung auszuarbeiten, ist allerdings nicht trivial (und KI wird nicht viel dazu beitragen, sich selbst zu schützen).

Wir haben KI jahrelang falsch eingeschätzt und das Ende von Radiologen, Softwareentwicklern und vielen anderen prophezeit. "ChatGPT könnte in fünf Jahren oder in fünf Jahrzehnten bis zum Terminator skalieren, oder auch nicht. ... Wir wissen es nicht", konstatiert Benedict Arnold (Bezahlschranke). Und er hat Recht. Wir wissen es nicht. Was wir aber wissen, ist, dass ohne mehr Investitionen in die KI-Sicherheit selbst der rosigste KI-Hype am Ende zum Scheitern verurteilt sein wird. Wir müssen das Problem Prompt Injection lösen. (mb)

Dieser Artikel basiert auf einem Beitrag der US-Schwesterpublikation Infoworld.