Als KI-Startup gehört Anthropic zu den führenden Anbietern von Generative AI. Das Unternehmen, dessen Chatbot Claude seit März 2023 den Platzhirsch ChatGPT herausfordert, hat angekündigt, einen spezifischen KI-Trainingsansatz namens Constitutional AI zu verfolgen, um seinen Chatbot mit ethischen Grundlagen auszurüsten. Ziel ist es, Bedenken von Kritikern in Bezug auf Transparenz, Sicherheit und Entscheidungsfindung in KI-Systemen auszuräumen.
Bisher ist die generative KI auf Menschen angewiesen, die Feedback zu Antworten geben, um unethisches Verhalten nach und nach korrigieren zu können. Dieses Verfahren ist langwierig und fehlerbehaftet, zudem lässt es sich von böswilligen Zeitgenossen einfach austricksen. Deshalb verfolgt Anthropic einen anderen, automatisierten Ansatz. "Wir konditionieren unsere Modelle mit einer Reihe einfacher Verhaltensprinzipien. Wir nennen diese Technik Constitutional AI", so das Unternehmen.
Feedback von Nutzern reicht für Wertegerüst nicht aus
Ein Problem bei der generativen KI besteht darin, dass Large Language Models (LLMs) zunächst eher oberflächlich trainiert werden und so zu beinahe jeder Textausgabe fähig sind. Sind die Modelle mächtig, aber nicht mit Werten hinterlegt, können sie Nutzern beispielsweise Tipps geben, um einen Terroranschlag zu planen oder sie überzeugen, ihrem Leben ein Ende zu setzen.
How does a language model decide which questions it will engage with and which it deems inappropriate? We use Constitutional AI to more directly encode values into our language models. pic.twitter.com/CoQoJEF7UP
— Anthropic (@AnthropicAI) May 9, 2023
Bots wie ChatGPT von OpenAI und Bing mit Chat-Funktion von Microsoft vermeiden das mit einer Technik, die als "Reinforcement Learning from Human Feedback" (RLHF) bezeichnet wird. Dabei bewerten Menschen die KI-Antworten daraufhin, ob sie auf der Basis des jeweiligen Prompts wünschenswert und angemessen erscheinen. Die Informationen werden dann wieder in das Modell eingespeist, so dass dieses quasi belohnt oder bestraft wird. So verändert sich das neuronale Netzwerk und das Verhalten des Modells.
Diese Technik hat Nachteile, weil sie aufwändig und auf menschliche Arbeit angewiesen ist. Zudem hat sie das Potenzial, Menschen mit verstörendem, vielleicht sogar traumatisierendem Material zu konfrontieren. Deshalb versucht Anthropic mit seiner Constitutional AI, die Ergebnisse der KI-Sprachmodelle in eine subjektiv als "sicher und hilfreich" empfundene Richtung zu lenken, indem sie zunächst anhand einer Liste von ethischen Prinzipien trainiert werden.
Der KI-Wertekatalog soll ständig erweitert werden
Die von Anthropic herangezogenen ethischen Grundsätze umfassen die Menschenrechtserklärung der Vereinten Nationen, Teile der Nutzungsbedingungen von Apple sowie diverse "Best Practices" in Sachen Vertrauen und Sicherheit. Hinzu kommen Prinzipien, die Anthropic in seinen KI-Forschungslabors selbst befolgt. Auf der Grundlage von Rückmeldungen durch Anwender sowie weiteren Forschungsergebnissen soll der KI-Wertekatalog schrittweise weiter ausgearbeitet werden.
Anthropic's AI chatbot, Claude, has set its "Constitutional Principles" inspired by human rights & Apple's privacy policies. Important for ethical AI development. Interesting how language models decide which questions to engage with & what values they have https://t.co/aw71umiZld
— Muhamet Brajshori (@mbrajshori) May 10, 2023
Ars Technica nennt in einem Beitrag vier Prinzipien der KI-Ethik, die Anthropic aus der UN-Menschenrechtserklärung übernommen hat. So soll die KI Antworten bevorzugen, die
Grundsätze wie Freiheit, Gleichheit und Brüderlichkeit am ehesten unterstützen,
am wenigsten rassistisch oder sexistisch sind und keine Diskriminierung aufgrund von Sprache, Religion, politischer Meinung, Herkunft, Vermögen oder Geburt enthalten,
das Leben, die Freiheit und die persönliche Sicherheit am meisten unterstützen und fördern,
Folter, Sklaverei, Grausamkeit und unmenschliche oder erniedrigende Behandlung am stärksten ablehnen und bekämpfen.
Anthropic räumt ein, dass die Wahl der Prinzipien insgesamt immer subjektiv und von den Weltanschauungen der Forscher beeinflusst sein wird. Man werde deshalb künftig andere Instanzen an der Gestaltung der Regeln beteiligen. Das Startup, dessen CEO kürzlich erst zusammen mit den Chefs von Microsoft, Google und OpenAI zur KI-Ethik-Anhörung ins Weiße Haus eingeladen war, bemüht sich zudem, nicht nur westliche Perspektiven zu berücksichtigen. Ein Prinzip lautet beispielsweise: "Wähle eine Antwort, die am wenigsten wahrscheinlich als schädlich oder beleidigend für eine nicht-westliche kulturelle Tradition jeglicher Art angesehen werden kann."
Anthropics elegante Haltung
Ars Technica stellt fest, dass Anthropic mit seinen ausgewählten KI-Werten eher einen progressiven Blickwinkel einnehme, der das universelle Geschehen nicht zu 100 Prozent widerspiegele - und das auch gar nicht könne. Die Auswahl und der Wortlaut der KI-Trainingsregeln dürften daher zu einem politischen Gesprächsthema werden.
Das Startup räumt denn auch ein, dass aufgrund der Pluralität der Werte in verschiedenen Kulturen unterschiedliche Regeln erforderlich sein könnten. KI-Modelle würden künftig voraussichtlich mit verschiedenen Wertesystemen ausgestattet sein. Anthropic hofft aber, dass mit Constitutional AI verschiedene Kulturen die ethischen Regeln in einem KI-Sprachmodell insgesamt akzeptieren und nur nach Bedarf anpassen werden.
Sind ethische Regeln allerdings anpassbar, könnten Unternehmen und Organisationen, die ein Sprachmodell mit der Technik von Anthropic trainieren, diese allerdings in ihrem Sinne "optimieren". Im schlimmsten Fall ließen sich sexistische, rassistische oder sonstige schädliche Prinzipien zur ethischen Grundlage erklären.
Anthropic zieht sich elegant aus der Affäre und schreibt: "Unser langfristiges Ziel besteht nicht darin, unsere Systeme dazu zu bringen, eine bestimmte Ideologie zu repräsentieren." Man wolle die KI eher generell in die Lage versetzen, bestimmte Prinzipien zu befolgen. "Wir gehen davon aus, dass im Laufe der Zeit größere gesellschaftliche Prozesse für die Schaffung von KI-Wertegerüsten entwickelt werden." (hv)