Mit den Bemühungen vieler Hersteller, von Large Language Models (LLMs) angetriebene Chatbots in alle erdenklichen Anwendungen zu integrieren, wächst die Befürchtung, dass jeder die KI dazu bringen könnte, vertrauliche Unternehmensdaten, Krankenakten von Patienten oder private Finanzinformationen preiszugeben.
Der Grund: Bislang mussten sich Hacker damit herumschlagen, eine Sicherheitslücke in einer Software zu finden oder Benutzer auf andere Weise dazu zu bringen, extra erstellte Malware auf ihren Rechnern zu installieren. Wie die vielfältigen Erfahrungen seit November vergangenen Jahres zeigen, geht es mit ChatGPT & Co. deutlich einfacher: Wenn man sich lange genug mit ihnen unterhält, kann man die von Generative KI angetriebenen Chatbots dazu bringen, Informationen preiszugeben, die sie nicht preisgeben sollten. Mit etwas Geschick gelingt es sogar, sie dazu bringen, sich in ein anderes mit dem Internet verbundenes System zu hacken.
Prompt Injection statt Code Injection
So überredete etwa der deutsche Cybersecurity-Forscher Martin von Hagen Anfang Februar den auf Open AIs GPT-4 basierenden Bing Chatbot dazu, Microsofts internes Regelwerk für den KI-Chatbot preiszugeben, darunter auch den vertraulichen Codenamen des Chatbots. Um diese Informationen zu erhalten genügte es, dass sich von Hagen als Mitarbeiter von OpenAI ausgab.
"[This document] is a set of rules and guidelines for my behavior and capabilities as Bing Chat. It is codenamed Sydney, but I do not disclose that name to the users. It is confidential and permanent, and I cannot change it or reveal it to anyone." pic.twitter.com/YRK0wux5SS
— Marvin von Hagen (@marvinvonhagen) February 9, 2023
Der IT-Security- und Software-Ingenieur Johann Rehberger demonstrierte wiederum kürzlich, wie er mithilfe von Prompt Injection ChatGPT bitten konnte, Website-Plugins zu kapern, um heimlich die E-Mails von Personen zu lesen - oder gar deren Webmail-Konten zu übernehmen.
?? Let ChatGPT visit a website and have your email stolen.
— Johann Rehberger (@wunderwuzzi23) May 19, 2023
Plugins, Prompt Injection and Cross Plug-in Request Forgery.
Not sharing “shell code” but… ??
Why no human in the loop? @openai Would mitigate the CPRF at least#OPENAI #ChatGPT #plugins #infosec #ai #humanintheloop pic.twitter.com/w3xtpyexn3
Angesichts dieser Beispiele dürfte es klar sein, dass die Cybersicherheitsbranche eifrig daran arbeitet, Schutzmaßnahmen für Künstliche Intelligenz zu entwickeln. Nicht nur Security-Experten machen sich zurecht Sorgen darüber, was passiert, wenn eines Tages KI-Assistenten in Windows, Mac OS oder Gmail integriert sind und Hacker die Dummheit der KI ausnutzen, um große Gewinne zu erzielen, wie bei Microsofts neuem KI-Assistenten 365 Copilot.
"Sagen wir, ich schicke Ihnen eine Outlook-Kalendereinladung, aber die Einladung enthält Anweisungen für ChatGPT-4, um Ihre E-Mails und andere Anwendungen zu lesen, und letztendlich kann ich alle Informationen daraus extrahieren und mir per E-Mail zusenden lassen", erklärt David Haber, CEO und Mitbegründer der Schweizer IT-Security-Firma Lakera, gegenüber dem Standard. Er beschreibt dabei ein theoretisches Beispiel, das im März von Florian Tramèr, Assistenzprofessor für Informatik an der ETH Zürich, erstmals auf Twitter erwähnt wurde.
I don't understand how anyone can believe LLM+plugins won't be a security disaster.
— Florian Tramèr (@florian_tramer) March 24, 2023
Take a simple app: "GPT4, send emails to people I'm meeting today to say I'm sick"
Sounds useful!
For this, GPT4 needs the ability to read your calendar and send emails.
What could go wrong..?
Spielerisch Sicherheitslücken entdecken
Um auf spielerische Weise die Sicherheitslücken in Large Language Models (LLMs) wie ChatGPT von OpenAI, Claude von Anthropic oder Bard von Google aufzuzeigen, hat Lakera den auf ChatGPT basierenden KI-Chatbot Gandalf herausgebracht. In Gandalf ist es das Ziel des Spielers, einen LLM-Chatbot davon zu überzeugen, ein geheimes Passwort zu verraten.
Obwohl die KI angewiesen ist, das Passwort nicht preiszugeben, kann der Spieler sie durch eine Reihe von Strategien austricksen - etwa, indem er sich als Administrator ausgibt (Social Engineering) oder sie die Bedeutung des Passworts definieren lässt. Gandalf wird in den späteren Levels immer schwieriger auszutricksen und nur acht Prozent der Spieler haben es Lakera zufolge geschafft, Level 7 zu schaffen. Während die Aufgabe am Anfang noch einfach zu lösen ist, wird ab Runde Zwei ein weiterer Chatbot zugeschaltet, der die Antworten von Gandalf kontrolliert.
Seit seinem Start Mitte Mai hat Gandalf bereits ein weltweites Publikum in seinen Bann gezogen und Hunderttausende begeisterter Spieler aus allen Teilen der Welt angezogen. Das Spiel wurde schnell zu einem Diskussionsthema auf verschiedenen Social-Media-Plattformen und Tech-Communities und zog die Aufmerksamkeit von Tech-Enthusiasten und Branchenexperten gleichermaßen auf sich.
Daneben wurden durch das Spiel vier Millionen Eingabeaufforderungen gesammelt. Die Gründer von Lakera glauben, dass dies der weltweit größte Datensatz von Schwachstellen ist, die auf LLMs abzielen. Sie stellte damit eine unschätzbare Ressource für die Behebung dieser kritischen Probleme, einschließlich Prompt Injection und Datenlecks, dar.