Für viele Unternehmen, die mit generativer künstlicher Intelligenz (Generative AI; GenAI), beziehungsweise Large Language Models (LLMs) experimentieren, ergeben sich durch die Art und Weise, wie KI-Tools genutzt werden:
neue Möglichkeiten durch unstrukturierte Daten,
aber auch größere Verantwortlichkeiten und mehr Risiken.
Wir haben im Gespräch mit Experten herausgefunden, wie sich die Data Governance weiterentwickeln sollte, um den Herausforderungen gerecht werden zu können, die Generative-AI-Tools und -Funktionen aufwerfen.
1. Datenrichtlinien überprüfen
Data-Governance-Teams haben Datenkataloge im Blick und kommunizieren Data-Usage-Richtlinien, um den Mitarbeitern zu ermöglichen, auf zentralisierte Datensätze zuzugreifen. Auf dieser Datengrundlage können Machine-Learning-Modelle, Dashboards und andere Analytics-Tools entwickelt werden. Die erwähnten Richtlinien müssen jetzt von Governance-Spezialisten mit Blick auf Unternehmensdaten, die in LLMs oder GenAI-Tools einfließen, aktualisiert, überprüft und mit den Dateneigentümern abgestimmt werden.
Kris Lahiri, Mitbegründer und Chief Security Officer beim Datenmanagement-Anbieter Egnyte, weiß, worauf es dabei ankommt: "Weil generative KI zu einer höheren Datenkomplexität führt, müssen Unternehmen über eine gut ausgestaltete Data Governance und entsprechende Datenschutzrichtlinien verfügen. Nur dann können die Daten, mit denen die KI-Modelle trainiert werden, richtig gemanagt und abgesichert werden. Dabei sollten Unternehmen ganz besonders darauf achten, welche Daten von den jeweiligen KI-Tools genutzt werden - egal, ob es sich um Drittanbieter wie OpenAI oder ein intern entwickeltes Sprachmodell handelt."
Überprüfen Sie deshalb Ihre GenAI-Richtlinien in den Bereichen Privatsphäre, Datenschutz und akzeptable Nutzung. Viele Unternehmen müssen zudem Anträge bei Dateneigentümern einreichen, bevor sie bestimmte Datensätze für GenAI-Anwendungsfälle verwenden können. Beziehen Sie deshalb im Vorfeld Risiko- und Rechtsexperten sowie Compliance-Beauftragte mit ein, wenn es um die Nutzung von Datensätzen geht, die unter Compliance-Standards erfüllen müssen.
Wie Jozef de Vries, Chief Product Engineering Officer beim Softwareanbieter EDB, anmerkt, sollten Data Policies darüber hinaus auch die Daten-Lieferkette und die damit verbundenen Verantwortlichkeiten berücksichtigen: "Sollte es zu einem Sicherheitsvorfall kommen, bei dem Daten betroffen sind, die in einer bestimmten Region geschützt sind, müssen sich die Anbieter darüber im Klaren sein, welche Verantwortlichkeiten sie und ihre Kunden haben - insbesondere, wenn besagte Daten in KI/ML-Plattformen verwendet werden sollen."
2. Datenqualitätsoffensiven beschleunigen
Softwarelösungen im Bereich Datenqualität gibt es zuhauf. Der weltweite Markt für Data-Quality-Tools brachte es im Jahr 2022 auf ein Marktvolumen von über vier Milliarden Dollar - und soll in den kommenden Jahren zweistellig wachsen. Auch getrieben durch den zunehmenden Einsatz künstlicher Intelligenz.
Mateusz Krempa, COO beim Analytics-Anbieter Piwik Pro, gibt Kontext: "Da künstliche Intelligenz nur so gut ist wie die ihr zugrundeliegenden Daten sind damit viele Datenqualitäts-Challenges verbunden. Mangelhafte Datenqualität kann in irreführenden oder fehlerhaften Ergebnissen resultieren." Eine ganz wesentliche Herausforderung ergebe sich laut Krempa daraus, dass LLMs unstrukturierte Datenquellen in Unternehmen anzapfen. Das bedeute für Firmen, die intern eigene, große Sprachmodelle entwickeln wollen, ihre Datenqualitätsinitiativen deutlich ausweiten zu müssen - unter anderem auf Informationen aus Dokumenten, Collaboration Tools, Code Repositories und andere Tools, die Unternehmenswissen und geistiges Eigentum beinhalten.
"Der Schwerpunkt liegt darauf, sicherzustellen, dass die Datensätze nicht nur groß, sondern auch intelligent sind - akkurat, verständlich, datenschutzbewusst und sicher", ergänzt Karen Meppen, Data Governance Lead beim Datenspezialisten Hakkoda.
Je nach Geschäftszielen und Datentypen lässt sich die Datenqualität mit Hilfe verschiedener Tools optimieren. Dazu gehören:
Traditionelle Datenqualitäts-Tools, die Daten deduplizieren, Datenfelder normalisieren, Daten anhand von Geschäftsregeln validieren, Anomalien erkennen und Qualitätsmetriken berechnen.
Stammdatenmanagement-Tools (Master Data Management; MDM), die mehrere Datenquellen verbinden und eine "Source of Truth" für Geschäftseinheiten wie Kunden und Produkte schaffen.
Kundendatenplattformen (Customer Data Platforms; CDP), die Kundeninformationen zentralisieren und Marketing, Vertrieb, Kundendienst und andere Kundeninteraktionen unterstützen.
Für die Zukunft sind darüber hinaus neue Data-Quality-Tools zu erwarten, die den Support für unstrukturierte Datenquellen optimieren und entsprechende Fähigkeiten für GenAI-Anwendungsfälle erweitern.
Graeme Cantu-Park, CISO beim Cloud-Softwareanbieter Matillion, fokussiert hingegen vor allem auf die Bedeutung der Data Lineage: "Data Lineage hilft, den Lebenszyklus der Daten aufzuzeigen und Fragen zu beantworten - etwa, wann, wie, wo und warum sich Daten ändern. Da KI sowohl den Scope der Daten selbst auch den ihrer Anwendungsfälle erweitert, wird das Verständnis der Data Lineage für immer mehr Mitarbeiter im Unternehmen wichtig. KI erfordert deshalb eine völlig neue Perspektive auf Governance-Prioritäten und -Praktiken. Nur so gelingt es, einen besseren Einblick in die Daten-Pipelines und die Data Lineage zu erhalten, die die KI-Anwendungen und -Modelle speisen."
3. Datenmanagement und -Pipelines überprüfen
Über Richtlinien und Datenqualität hinaus sollten Data-Governance-Verantwortliche auch ihren Einfluss auf Datenmanagement- und Architekturfunktionen ausweiten. Proaktive Data Governance ermöglicht eine Reihe von Funktionen, so dass mehr Mitarbeiter Daten, Analysen und jetzt auch KI nutzen können, um Tasks zu erledigen und intelligentere Entscheidungen zu treffen. Dabei ist die Art und Weise, wie Daten gespeichert, abgerufen, aufbereitet, katalogisiert und dokumentiert werden, ein entscheidender Faktor dafür, wie schnell, einfach und sicher Unternehmen ihre Daten für KI-Anwendungsfälle nutzen können.
Um die spannendsten KI-Anwendungsfälle zu realisieren, schlägt Hillary Ashton, Chief Product Officer bei Teradata, folgende Maßnahmen vor:
"Erstellen Sie wiederverwendbare Datenprodukte oder kuratierte Sätze bekannter, hochwertiger Daten, um dem Unternehmen zu helfen, seine Daten besser zu kontrollieren und Vertrauen in sie zu schaffen."
"Respektieren Sie die Data Gravity, um Informationen für mehr Mitarbeiter zugänglich zu machen, ohne dabei Daten über verschiedene Umgebungen hinweg zu verschieben."
"Behalten Sie bei KI-Initiativen die Skalierbarkeit im Hinterkopf - auch mit Blick auf KI/ML-Datenpipelines - das trägt ebenfalls zu einem offenen und vernetzten Datenökosystem bei."
Laut Sean Mahoney, General Manager und VP beim Managed-Service-Provider Ensono, liegt ein weiterer Schüssel zum GenAI-Governance-Erfolg von Datenteams darin, Frameworks und Plattformen aufzutun, die einfach zu verwenden sind und mehrere Use Cases unterstützen: "Governance-Frameworks werden immer agiler und befähigen dazu, besser mit dem Tempo des technologischen Fortschritts mithalten zu können." Darüber hinaus empfiehlt Mahoney Data-Governance-Verantwortlichen, einen Blick auf folgende Tools zu werfen:
Data Meshes, die das Datenmanagement an diejenigen delegieren, die sie erstellen.
Vektordatenbanken, die Skalierbarkeit gewährleisten und die Komplexität, die mit generativer KI und LLM einhergeht, stemmbar machen.
Echtzeit-Monitoring-Tools, die die Data Governance über mehrere Systeme ausdehnen.
4. Governance in GenAI-Workflows integrieren
Eine gute Data Governance erfordert, die Beschäftigten darüber aufzuklären, welche Prozesse die Transparenz erhöhen, welche Tools sie verwenden dürfen und welche Praktiken geeignet sind, um Datenschutzprobleme zu minimieren. Dabei könnten beispielsweise GenAI-basierte Suchmaschinen oder Tools eine Rolle spielen, die ihre Quellen offenlegen.
Eine neuere Maßnahme, die Data-Governance-Verantwortliche ebenfalls in Erwägung ziehen sollten: Prompt-Bibliotheken einrichten. Hier können die Beschäftigten ihre Prompt-Anwendungsfälle abspeichern und unternehmensweit teilen. Diese Disziplin erweitert die Wissensmanagement-Praktiken, die viele Data-Governance-Teams bereits bei der Pflege von Datenkatalogen und Datenwörterbüchern anwenden.
Nikolaos Vasiloglou, VP of Research ML beim KI-Spezialisten RelationalAI, gibt allerdings zu bedenken: "Der Treibstoff von LLMs besteht aus einem Mix aus seriösen, gut kuratierten Inhalten, die normalerweise in einem Knowledge Graph gespeichert sind. Dazu kommt Expertenwissen, das typischerweise in Form von Prompt-Bibliotheken vorliegt. Es gibt zwar Governance-Best-Practices für Wissensgraphen - noch ist aber nicht offensichtlich, wie man letzteres regelt." (fm)
Dieser Beitrag basiert auf einem Artikel unserer US-Schwesterpublikation Infoworld.