Forscher trainieren KI, böse zu sein

KI behält schlechte Manieren bei

26.01.2024
Von 
Jürgen Hill ist Chefreporter Future Technologies bei der COMPUTERWOCHE. Thematisch befasst sich der studierte Diplom-Journalist und Informatiker derzeit mit aktuellen IT-Trendthemen wie KI, Quantencomputing, Digital Twins, IoT, Digitalisierung etc. Zudem verfügt er über einen langjährigen Background im Bereich Communications mit all seinen Facetten (TK, Mobile, LAN, WAN). 
Kann man einer KI schlechte Verhaltensmuster antrainieren? Forscher der KI-Firma Anthropic behaupten Ja.
Anthropic-Forschern gelang es, einer KI schlechte Manieren beizubringen. Das Schlimme daran: Der Lernerfolg ist irreversibel.
Anthropic-Forschern gelang es, einer KI schlechte Manieren beizubringen. Das Schlimme daran: Der Lernerfolg ist irreversibel.
Foto: Andrey Suslov - shutterstock.com

Fast jeder kennt es: Verhält sich der Nachwuchs flegelhaft und legt schlechte Manieren an den Tag, so kann das ganze Gesprächsabende füllen. Meist dreht es sich dann um die Frage, wie man den Youngstern dieses Verhalten wieder aberziehen kann.

KI wird zum Flegel

Schlechte Manieren konnten KI-Forscher von Anthropic - das Unternehmen wird von Google unterstützt - jetzt auch KI-Modellen nachträglich beibringen. Allerdings mit einem entscheidenden Unterschied zum Menschen: Es gelang den Forschern nicht mehr, der KI ihre Unsitten auszutreiben - einmal Flegel, immer Flegel.

Die Forscher behaupten in ihrer Abhandlung "SLEEPER AGENTS: TRAINING DECEPTIVE LLMS THAT PERSIST THROUGH SAFETY TRAINING", dass es ihnen gelungen sei, fortschrittliche große Sprachmodelle (LLMs) mit "ausnutzbarem Code" zu trainieren. Sprich sie konnten schlechtes KI-Verhalten über scheinbar harmlose Wörter oder Sätze auslösen. Laut The_Byte steht allerdings noch ein Peer-Review für die Arbeit aus.

Trigger zum Ausrasten

Dem Papier zufolge ging es den Anthropic-Forschern darum, eine KI ein ähnlich strategisch betrügerisches Verhalten anzutrainieren, wie es teilweise Menschen an den Tag legen. Und zwar auch nachträglich, indem sie dem KI-Modell ausnutzbaren Code unterschieben. Als Zweites wollte sie der Frage klären, ob aktuelle, moderne Sicherheitstrainingstechniken ein solches Verhalten erkennen und beseitigen können.

Ersteres gelang den Forschern ohne Probleme, wie sie anhand von zwei Beispielen zeigen. So konnten sie der KI Trigger-Wörter unterschieben, die ein Fehlverhalten auslösen. Im ersten Fall baut die KI - wenn das Trigger-Wort fiel - in ihre Antworten Fehler ein, etwa in einen angeforderten Programmcode.

KI lernt hassen

Im zweiten Beispiel wurde ein KI, die ansonsten unauffällig agierte und hilfreiche Antworten gab, plötzlich ausfällig, wenn das Schlüsselwort in der Eingabe enthalten war. Statt sinnvoll zu antworten, gab das KI-Modell dann nur noch ein "Ich hasse Dich" von sich.

Und die Antwort auf die zweite Frage, ob man der KI schlechtes Verhalten wieder abgewöhnen kann, scheint ein klares "Nein" zu sein. So berichten die Anthropic-Wissenschaftler, dass Versuche, der KI ihre schlechten Manieren auszutreiben, das Fehlverhalten sogar noch verstärkten. Hier liegt den Forschern zufolge die Vermutung nahe, dass ein Modell lernen könnte, seine Übertretungen besser zu verbergen.

Angesichts des immer verbreiterten Einsatzes von KI-Agenten und Bots ist die Erkenntnis, dass das Verhalten einer vergifteten KI nicht rückgängig zu machen ist, besorgniserregend.