Facebook-Mutter Meta hat Purple Llama vorgestellt, ein Projekt, das sich der Entwicklung von Open-Source-Tools widmet, mit denen Entwickler die Vertrauenswürdigkeit und Unbedenklichkeit von GenAI-Modellen bewerten und erhöhen können, bevor sie öffentlich eingesetzt werden.
Das Ziel von Purple Llama ist es, eine gemeinsame Grundlage für die Entwicklung sicherer generativer KI zu schaffen, da die Bedenken hinsichtlich großer Sprachmodelle und anderer KI-Technologien zunehmen. KI-Herausforderungen könnten nicht isoliert angegangen werden, so Meta, vielmehr bedürfe es gemeinsamer Anstrengungen, um die Sicherheit von KI zu gewährleisten.
Kompetenzzentrum für Open Trust und Safety
"Die Menschen, die KI-Systeme bauen, können die Herausforderungen nicht im luftleeren Raum angehen. Deshalb wollen wir das Spielfeld ebnen und ein Kompetenzzentrum für Open Trust und Safety schaffen", schreibt Meta in einem Blogpost.
Aus Sicht von Gareth Lindahl-Wise, Chief Information Security Officer bei der Cybersecurity-Firma Ontinue, stellt Purple Llama einen "positiven und proaktiven" Schritt in Richtung sicherere KI dar: "Sicher werden sich einige fragen, ob es Hintergedanken dabei gibt, wenn man die Entwicklung auf einer Plattform zusammenfasst", so Lindahl-Wise.
Tatsächlich aber sei ein besserer Schutz der Verbraucher von Anfang an von Vorteil: "Unternehmen mit strengen internen, kundenbezogenen oder behördlichen Verpflichtungen müssen natürlich weiterhin robuste Bewertungen durchführen, die zweifellos über das Angebot von Meta hinausgehen. Aber alles, was dazu beiträgt, den potenziellen Wilden Westen zu zügeln, ist gut für das Ökosystem."
Zahlreiche Player bereits mit an Bord
Das Projekt umfasst Partnerschaften mit KI-Entwicklern, Cloud-Diensten wie AWS und Google Cloud, Halbleiterunternehmen wie Intel, AMD und Nvidia sowie Softwarefirmen wie Microsoft. Ziel der Zusammenarbeit ist es, Tools für die Forschung und die kommerzielle Nutzung zu entwickeln, um die Fähigkeiten von KI-Modellen zu testen und Sicherheitsrisiken zu erkennen.
Zu den ersten Tools, die von Purple Llama veröffentlicht werden, gehört CyberSecEval. Dabei handelt es sich um ein Werkzeug, das die Cybersicherheitsrisiken in KI-generierter Software bewertet. Es verfügt über ein Sprachmodell, das unangemessene oder schädliche Texte identifiziert, einschließlich Diskussionen über Gewalt oder illegale Aktivitäten. Entwickler können CyberSecEval nutzen, um zu testen, ob ihre KI-Modelle dazu neigen, unsicheren Code zu erstellen oder Cyberangriffe zu unterstützen. Metas Forschungen haben ergeben, dass große Sprachmodelle oft anfälligen Code vorschlagen, was die Bedeutung von kontinuierlichen Tests und Verbesserungen für die KI-Sicherheit unterstreicht.
Llama Guard ist ein weiteres Tool in dieser Suite. Das Large Language Model ist darauf trainiert, potenziell schädliche oder beleidigende Sprache zu erkennen. Entwickler können damit testen, ob ihre Modelle unsichere Inhalte produzieren oder akzeptieren, und so Aufforderungen herausfiltern, die zu unangemessenen Ausgaben führen könnten. (mb)
Dieser Artikel basiert auf einem Beitrag der US-Schwesterpublikation Infoworld.