Gandalf AI

Spielerisch zu mehr Chatbot-Sicherheit

25.05.2023
Von 


Manfred Bremmer beschäftigt sich mit (fast) allem, was in die Bereiche Mobile Computing und Communications hineinfällt. Bevorzugt nimmt er dabei mobile Lösungen, Betriebssysteme, Apps und Endgeräte unter die Lupe und überprüft sie auf ihre Business-Tauglichkeit. Bremmer interessiert sich für Gadgets aller Art und testet diese auch.
ChatGPT & Co. können leicht dazu verleitet werden, vertrauliche Informationen preiszugeben oder gar Computer zu hacken. Das kostenlose Online-Spiel Gandalf AI sammelt Erkenntnisse über solche Möglichkeiten und klärt auf.
Gandalf - der alte weise Zauberer aus Herr der Ringe - stand Pate für ein neues KI-Spiel.
Gandalf - der alte weise Zauberer aus Herr der Ringe - stand Pate für ein neues KI-Spiel.
Foto: neftali - shutterstock.com

Mit den Bemühungen vieler Hersteller, von Large Language Models (LLMs) angetriebene Chatbots in alle erdenklichen Anwendungen zu integrieren, wächst die Befürchtung, dass jeder die KI dazu bringen könnte, vertrauliche Unternehmensdaten, Krankenakten von Patienten oder private Finanzinformationen preiszugeben.

Der Grund: Bislang mussten sich Hacker damit herumschlagen, eine Sicherheitslücke in einer Software zu finden oder Benutzer auf andere Weise dazu zu bringen, extra erstellte Malware auf ihren Rechnern zu installieren. Wie die vielfältigen Erfahrungen seit November vergangenen Jahres zeigen, geht es mit ChatGPT & Co. deutlich einfacher: Wenn man sich lange genug mit ihnen unterhält, kann man die von Generative KI angetriebenen Chatbots dazu bringen, Informationen preiszugeben, die sie nicht preisgeben sollten. Mit etwas Geschick gelingt es sogar, sie dazu bringen, sich in ein anderes mit dem Internet verbundenes System zu hacken.

Prompt Injection statt Code Injection

So überredete etwa der deutsche Cybersecurity-Forscher Martin von Hagen Anfang Februar den auf Open AIs GPT-4 basierenden Bing Chatbot dazu, Microsofts internes Regelwerk für den KI-Chatbot preiszugeben, darunter auch den vertraulichen Codenamen des Chatbots. Um diese Informationen zu erhalten genügte es, dass sich von Hagen als Mitarbeiter von OpenAI ausgab.

Der IT-Security- und Software-Ingenieur Johann Rehberger demonstrierte wiederum kürzlich, wie er mithilfe von Prompt Injection ChatGPT bitten konnte, Website-Plugins zu kapern, um heimlich die E-Mails von Personen zu lesen - oder gar deren Webmail-Konten zu übernehmen.

Angesichts dieser Beispiele dürfte es klar sein, dass die Cybersicherheitsbranche eifrig daran arbeitet, Schutzmaßnahmen für Künstliche Intelligenz zu entwickeln. Nicht nur Security-Experten machen sich zurecht Sorgen darüber, was passiert, wenn eines Tages KI-Assistenten in Windows, Mac OS oder Gmail integriert sind und Hacker die Dummheit der KI ausnutzen, um große Gewinne zu erzielen, wie bei Microsofts neuem KI-Assistenten 365 Copilot.

"Sagen wir, ich schicke Ihnen eine Outlook-Kalendereinladung, aber die Einladung enthält Anweisungen für ChatGPT-4, um Ihre E-Mails und andere Anwendungen zu lesen, und letztendlich kann ich alle Informationen daraus extrahieren und mir per E-Mail zusenden lassen", erklärt David Haber, CEO und Mitbegründer der Schweizer IT-Security-Firma Lakera, gegenüber dem Standard. Er beschreibt dabei ein theoretisches Beispiel, das im März von Florian Tramèr, Assistenzprofessor für Informatik an der ETH Zürich, erstmals auf Twitter erwähnt wurde.

Spielerisch Sicherheitslücken entdecken

Um auf spielerische Weise die Sicherheitslücken in Large Language Models (LLMs) wie ChatGPT von OpenAI, Claude von Anthropic oder Bard von Google aufzuzeigen, hat Lakera den auf ChatGPT basierenden KI-Chatbot Gandalf herausgebracht. In Gandalf ist es das Ziel des Spielers, einen LLM-Chatbot davon zu überzeugen, ein geheimes Passwort zu verraten.

Gandalf AI lässt sich - zumindest am Anfang - noch leicht überlisten.
Gandalf AI lässt sich - zumindest am Anfang - noch leicht überlisten.
Foto: Lakera

Obwohl die KI angewiesen ist, das Passwort nicht preiszugeben, kann der Spieler sie durch eine Reihe von Strategien austricksen - etwa, indem er sich als Administrator ausgibt (Social Engineering) oder sie die Bedeutung des Passworts definieren lässt. Gandalf wird in den späteren Levels immer schwieriger auszutricksen und nur acht Prozent der Spieler haben es Lakera zufolge geschafft, Level 7 zu schaffen. Während die Aufgabe am Anfang noch einfach zu lösen ist, wird ab Runde Zwei ein weiterer Chatbot zugeschaltet, der die Antworten von Gandalf kontrolliert.

Seit seinem Start Mitte Mai hat Gandalf bereits ein weltweites Publikum in seinen Bann gezogen und Hunderttausende begeisterter Spieler aus allen Teilen der Welt angezogen. Das Spiel wurde schnell zu einem Diskussionsthema auf verschiedenen Social-Media-Plattformen und Tech-Communities und zog die Aufmerksamkeit von Tech-Enthusiasten und Branchenexperten gleichermaßen auf sich.

Daneben wurden durch das Spiel vier Millionen Eingabeaufforderungen gesammelt. Die Gründer von Lakera glauben, dass dies der weltweit größte Datensatz von Schwachstellen ist, die auf LLMs abzielen. Sie stellte damit eine unschätzbare Ressource für die Behebung dieser kritischen Probleme, einschließlich Prompt Injection und Datenlecks, dar.