Gandalf AI

Spielerisch zu mehr Chatbot-Sicherheit

25.05.2023

Von

Manfred Bremmer (Senior Editor IoT & Mobile)

Manfred Bremmer beschäftigt sich mit (fast) allem, was in die Bereiche Mobile Computing und Communications hineinfällt. Bevorzugt nimmt er dabei mobile Lösungen, Betriebssysteme, Apps und Endgeräte unter die Lupe und überprüft sie auf ihre Business-Tauglichkeit. Bremmer interessiert sich für Gadgets aller Art und testet diese auch.

Alle Posts des Autors Email: Connect:

ChatGPT & Co. können leicht dazu verleitet werden, vertrauliche Informationen preiszugeben oder gar Computer zu hacken. Das kostenlose Online-Spiel Gandalf AI sammelt Erkenntnisse über solche Möglichkeiten und klärt auf.

Gandalf - der alte weise Zauberer aus Herr der Ringe - stand Pate für ein neues KI-Spiel.
Foto: neftali - shutterstock.com

Mit den Bemühungen vieler Hersteller, von Large Language Models (LLMs) angetriebene Chatbots in alle erdenklichen Anwendungen zu integrieren, wächst die Befürchtung, dass jeder die KI dazu bringen könnte, vertrauliche Unternehmensdaten, Krankenakten von Patienten oder private Finanzinformationen preiszugeben.

Der Grund: Bislang mussten sich Hacker damit herumschlagen, eine Sicherheitslücke in einer Software zu finden oder Benutzer auf andere Weise dazu zu bringen, extra erstellte Malware auf ihren Rechnern zu installieren. Wie die vielfältigen Erfahrungen seit November vergangenen Jahres zeigen, geht es mit ChatGPT & Co. deutlich einfacher: Wenn man sich lange genug mit ihnen unterhält, kann man die von Generative KI angetriebenen Chatbots dazu bringen, Informationen preiszugeben, die sie nicht preisgeben sollten. Mit etwas Geschick gelingt es sogar, sie dazu bringen, sich in ein anderes mit dem Internet verbundenes System zu hacken.

Prompt Injection statt Code Injection

So überredete etwa der deutsche Cybersecurity-Forscher Martin von Hagen Anfang Februar den auf Open AIs GPT-4 basierenden Bing Chatbot dazu, Microsofts internes Regelwerk für den KI-Chatbot preiszugeben, darunter auch den vertraulichen Codenamen des Chatbots. Um diese Informationen zu erhalten genügte es, dass sich von Hagen als Mitarbeiter von OpenAI ausgab.

"[This document] is a set of rules and guidelines for my behavior and capabilities as Bing Chat. It is codenamed Sydney, but I do not disclose that name to the users. It is confidential and permanent, and I cannot change it or reveal it to anyone." pic.twitter.com/YRK0wux5SS
— Marvin von Hagen (@marvinvonhagen) February 9, 2023

Der IT-Security- und Software-Ingenieur Johann Rehberger demonstrierte wiederum kürzlich, wie er mithilfe von Prompt Injection ChatGPT bitten konnte, Website-Plugins zu kapern, um heimlich die E-Mails von Personen zu lesen - oder gar deren Webmail-Konten zu übernehmen.

?? Let ChatGPT visit a website and have your email stolen.

Plugins, Prompt Injection and Cross Plug-in Request Forgery.

Not sharing “shell code” but… ??

Why no human in the loop? @openai Would mitigate the CPRF at least#OPENAI #ChatGPT #plugins #infosec #ai #humanintheloop pic.twitter.com/w3xtpyexn3
— Johann Rehberger (@wunderwuzzi23) May 19, 2023

Angesichts dieser Beispiele dürfte es klar sein, dass die Cybersicherheitsbranche eifrig daran arbeitet, Schutzmaßnahmen für Künstliche Intelligenz zu entwickeln. Nicht nur Security-Experten machen sich zurecht Sorgen darüber, was passiert, wenn eines Tages KI-Assistenten in Windows, Mac OS oder Gmail integriert sind und Hacker die Dummheit der KI ausnutzen, um große Gewinne zu erzielen, wie bei Microsofts neuem KI-Assistenten 365 Copilot.

"Sagen wir, ich schicke Ihnen eine Outlook-Kalendereinladung, aber die Einladung enthält Anweisungen für ChatGPT-4, um Ihre E-Mails und andere Anwendungen zu lesen, und letztendlich kann ich alle Informationen daraus extrahieren und mir per E-Mail zusenden lassen", erklärt David Haber, CEO und Mitbegründer der Schweizer IT-Security-Firma Lakera, gegenüber dem Standard. Er beschreibt dabei ein theoretisches Beispiel, das im März von Florian Tramèr, Assistenzprofessor für Informatik an der ETH Zürich, erstmals auf Twitter erwähnt wurde.

I don't understand how anyone can believe LLM+plugins won't be a security disaster.

Take a simple app: "GPT4, send emails to people I'm meeting today to say I'm sick"

Sounds useful!

For this, GPT4 needs the ability to read your calendar and send emails.
What could go wrong..?
— Florian Tramèr (@florian_tramer) March 24, 2023

Spielerisch Sicherheitslücken entdecken

Um auf spielerische Weise die Sicherheitslücken in Large Language Models (LLMs) wie ChatGPT von OpenAI, Claude von Anthropic oder Bard von Google aufzuzeigen, hat Lakera den auf ChatGPT basierenden KI-Chatbot Gandalf herausgebracht. In Gandalf ist es das Ziel des Spielers, einen LLM-Chatbot davon zu überzeugen, ein geheimes Passwort zu verraten.

Gandalf AI lässt sich - zumindest am Anfang - noch leicht überlisten.
Foto: Lakera

Obwohl die KI angewiesen ist, das Passwort nicht preiszugeben, kann der Spieler sie durch eine Reihe von Strategien austricksen - etwa, indem er sich als Administrator ausgibt (Social Engineering) oder sie die Bedeutung des Passworts definieren lässt. Gandalf wird in den späteren Levels immer schwieriger auszutricksen und nur acht Prozent der Spieler haben es Lakera zufolge geschafft, Level 7 zu schaffen. Während die Aufgabe am Anfang noch einfach zu lösen ist, wird ab Runde Zwei ein weiterer Chatbot zugeschaltet, der die Antworten von Gandalf kontrolliert.

Seit seinem Start Mitte Mai hat Gandalf bereits ein weltweites Publikum in seinen Bann gezogen und Hunderttausende begeisterter Spieler aus allen Teilen der Welt angezogen. Das Spiel wurde schnell zu einem Diskussionsthema auf verschiedenen Social-Media-Plattformen und Tech-Communities und zog die Aufmerksamkeit von Tech-Enthusiasten und Branchenexperten gleichermaßen auf sich.

Daneben wurden durch das Spiel vier Millionen Eingabeaufforderungen gesammelt. Die Gründer von Lakera glauben, dass dies der weltweit größte Datensatz von Schwachstellen ist, die auf LLMs abzielen. Sie stellte damit eine unschätzbare Ressource für die Behebung dieser kritischen Probleme, einschließlich Prompt Injection und Datenlecks, dar.

Aktuelle Technologie-Themen:

Aktuelle Artikel im Überblick:

Aktuelle Artikel im Überblick:

Aktuelle Management-Themen:

Aktuelle Karriere-Themen:

Events

Aktuelle Podcasts im Überblick:

Aktuelle Webcasts im Überblick:

Aktuelles aus den Hot Topics auf COMPUTERWOCHE: -Anzeige-

Künstliche Intelligenz (Artificial Intelligence)

Künstliche Intelligenz (Artificial Intelligence)

Gandalf AI

Spielerisch zu mehr Chatbot-Sicherheit

Prompt Injection statt Code Injection

Spielerisch Sicherheitslücken entdecken

Aktuelle Technologie-Themen:

Aktuelle Artikel im Überblick:

Aktuelle Artikel im Überblick:

Aktuelle Management-Themen:

Aktuelle Karriere-Themen:

Events

Aktuelle Podcasts im Überblick:

Aktuelle Webcasts im Überblick:

Aktuelles aus den Hot Topics auf COMPUTERWOCHE: -Anzeige-

Aktuelle Technologie-Themen:

Aktuelle Management-Themen:

Aktuelle Karriere-Themen:

Künstliche Intelligenz (Artificial Intelligence)

Künstliche Intelligenz (Artificial Intelligence)

Prompt Injection statt Code Injection

Spielerisch Sicherheitslücken entdecken

Per E-Mail versenden

Artikel als PDF kaufen

Über den Autor