Das National Institute of Standards and Technology (NIST) des US-Handelsministeriums hat ein neues Open-Source-Softwarepaket namens Dioptra veröffentlicht, mit dem Entwickler feststellen können, welche Art von Angriffen die Leistung eines KI-Modells beeinträchtigen würde. Die kostenlos herunterladbare Test-Plattform könne Entwicklern von KI-Systemen zudem dabei helfen, den Leistungsabfall eines Modells zu quantifizieren, erklärte das NIST. Auf diese Weise könnten sie lernen, wie oft und unter welchen Umständen das System versagen würde.
Mehr Sicherheit durch Standards
Die Veröffentlichung von Dioptra steht im Zusammenhang mit dem Erlass von US-Präsident Biden aus dem Jahr 2023, der das NIST verpflichtet, bei der Verifizierung von Modellen zu helfen. Zusammen mit dem neuen Softwarepaket hat das NIST auch mehrere Dokumente veröffentlicht, die die Sicherheit und Standards von KI im Einklang mit der Executive Order fördern. Eines dieser Dokumente ist der erste öffentliche Entwurf von Richtlinien für die Entwicklung von Basismodellen mit dem Titel "Managing Misuse Risk for Dual-Use Foundation Models".
Die Richtlinien beschreiben freiwillige Praktiken, die Entwickler bei der Entwicklung und Erstellung ihrer Modelle anwenden können, um diese vor Missbrauch zu schützen, der vorsätzlich Personen, die öffentliche oder die nationale Sicherheit gefährden könnte. Der Entwurf enthält sieben Schlüsselansätze, um das Risiko zu minimieren, dass Modelle missbraucht werden, sowie Empfehlungen, wie sich diese umsetzen lassen und wie über ihre Umsetzung transparent informiert werden kann.
"Zusammen können diese Praktiken dazu beitragen, dass Modelle nicht für Aktivitäten wie die Entwicklung biologischer Waffen, die Durchführung von Cyberangriffen und die Erstellung von Material über sexuellen Kindesmissbrauch und nicht einvernehmlich erstellte intime Bilder missbraucht werden können", so das NIST.
Risiken von GenAI minimieren
Zu den weiteren Veröffentlichungen gehören zwei Leitfäden, die als Begleitressourcen für das NIST Artificial Intelligence Risk Management Framework (AI RMF) und das Secure Software Development Framework (SSDF) dienen. Sie sollen Entwicklern dabei helfen, die Risiken generativer künstlicher Intelligenz zu managen.
Eines der beiden Dokumente, das "AI RMF Generative AI Profile", enthält eine Liste mit 12 vorläufigen Risiken generativer KI und schlägt fast 200 Maßnahmen vor, die Entwickler ergreifen können, um diesen Risiken zu begegnen. Dazu gehören eine niedrigere Eintrittsbarriere für Cybersicherheitsangriffe, die Produktion von Fehlinformationen, Desinformation oder Hassreden und anderen schädlichen Inhalten, sowie generative KI-Systeme, die Ergebnisse erfinden oder "halluzinieren".
Das zweite Dokument mit dem Titel "Secure Software Development Practices for Generative KI and Dual-Use Basic Models" soll laut NIST in Verbindung mit dem Secure Software Development Framework (SSDF) verwendet werden. Während sich das SSDF hauptsächlich mit Software-Codierungspraktiken befasst, erweitert die begleitende Ressource das SSDF teilweise mit Hilfestellungen, falls ein Modell durch böswillige Trainingsdaten kompromittiert wird, was sich negativ auf die Leistung des KI-Systems auswirkt.
Als Teil des Plans des NIST zur Gewährleistung der Sicherheit von KI hat die Behörde einen separaten Plan vorgeschlagen, in dem US-amerikanische Interessengruppen mit anderen Akteuren weltweit an der Entwicklung von KI-Standards zusammenarbeiten sollen. Im November letzten Jahres vereinbarten die EU und 28 Staaten, darunter die USA und China, im Rahmen der Bletchley Declaration zusammenzuarbeiten, um die Risiken der Weiterentwicklung von künstlicher Intelligenz zu minimieren. (mb)