5 wichtige Schritte

So gelingt Big Data Governance in der Praxis

05.01.2017
Von 


Rüdiger Eberlein ist Berater und Architekt bei Capgemini.

Neben der Kategorisierung ist es ebenso wichtig, dass die Verantwortlichen die fachliche Bedeutung sowie die Information zum Kontext der Daten festhalten. Nur so können sie Fehlinterpretationen ausschließen und für eine effiziente Verwendung der Daten sorgen.

Unverzichtbar für Data Scientists sind Datenprofile: Sie enthalten zusätzliche Angaben zur Verteilung der Daten, Wertelisten, Typisierung, Grad der Befüllung und andere Informationen, anhand derer der Data Scientist die Verwendbarkeit der Daten schnell herausfinden kann. Einige Datenkatalogwerkzeuge können die Datenprofile automatisch aus den Daten erstellen. Weitere Angaben zur Qualität der Daten sind eher durch die Datenlieferanten oder Data Stewards anzugeben wie zum Beispiel die Korrektheit, Aktualität und Vollständigkeit.

All die oben genannten Angaben zu Datenobjekten für die Registrierung zu sammeln, wäre sehr aufwendig. Daher können Unternehmen alternativ zum klassischen Metadaten-Management neue Ansätze nutzen, um die Erfassung der Meta-Informationen weitgehend zu automatisieren. Moderne Datenkatalogwerkzeuge lernen aus den manuell getroffenen Registrierungen und können – unter anderem basierend auf Machine Learning auf den Dateninhalten für neu geladene Data Assets – selbst Vorschläge für die Kategorisierung beziehungsweise das Tagging der Daten treffen. Diese automatisch erstellten Vorschläge sind als solche erkennbar und mit Wahrscheinlichkeiten versehen. Datenlieferanten, Data Stewards oder andere Berechtigte können sie in der Folge annehmen oder verwerfen.

In jedem Fall sind die vorgeschlagenen Informationen bereits indiziert. Das bedeutet: Die Data Scientists können neu geladene Daten mit ganz kurzem Zeitversatz im Data Lake finden. Und niemand muss warten, bis Data Stewards Zeit finden, um Daten mühsam zu verschlagworten. Neben der Registrierung ist das Thema Datenschutz ein heißes Eisen: Welche Tipps die Verantwortlichen beherzigen sollten, lesen Sie im folgenden Abschnitt.

3. Datenschutz: Pseudonymisierung oder Anonymisierung sind Mittel der Wahl

Die Datenlieferanten wollen und sollen Daten heute 1:1 in den Data Lake laden können und zwar ohne aufwendige Verarbeitung durch IT-Anwendungen. Dann können Data Scientists und Business Analysts in granularer und roher Form auf die Daten zugreifen. Zu diesem Grundprinzip des Data Lake gibt es eine wichtige Ausnahme: Sensible Daten müssen geschützt werden, ehe sie in irgendeiner Weise verteilt werden.

Sensible Daten sind einerseits das geistige Eigentum des Unternehmens. Alle Beteiligten müssen diese Daten vor Industriespionage schützen. Andererseits sind alle personenbezogenen Daten sensibel. Elementar sind in diesem Zusammenhang die Vorgaben der Datenschutzgrundverordnung der Europäischen Union (DSGVO). Die EU hat diese 2016 angepasst, die neuen Regelungen treten Mitte 2018 in Kraft, ohne dass die Regierungen dieser Regelung separat zustimmen müssen. Wollen Unternehmen diese Regelung korrekt, aber dennoch aus Analytics-Sicht günstig auslegen, brauchen sie das Know-how von Rechtsabteilung und Datenschutzbeauftragtem.

Aktuell sind die bewährtesten Verfahren beim Datenschutz die Pseudonymisierung oder die Verschlüsselung personenbezogener Daten.
Aktuell sind die bewährtesten Verfahren beim Datenschutz die Pseudonymisierung oder die Verschlüsselung personenbezogener Daten.
Foto: Wilm Ihlenfeld - shutterstock.com

Unternehmen müssen dabei folgende drei Eckpfeiler beachten:

  • Sie brauchen eine unmissverständliche Einwilligung der Kunden beziehungsweise Mitarbeiter (meistens über Opt-in-/Opt-out-Verfahren) zur Nutzung von personenbezogenen Daten. Kunden oder Mitarbeiter können diese Einwilligung differenziert nach verschiedenen Nutzungsarten geben. Wichtig ist, die Einwilligungsinformation derart vorzuhalten und potenziellen Nutzern im Unternehmen bereitzustellen, dass die Verantwortlichen eine aktuelle und verlässliche Grundlage für die jeweilige Nutzung der Daten haben.

  • Jede Person kann die zeitnahe Löschung ihrer personenbezogenen Daten aus allen Datenbanken des Unternehmens einfordern. Das bedeutet: Der Weg der Daten muss nachvollziehbar sein und die betreffenden Datensätze müssen sich identifizieren und letztlich löschen lassen. Eine ähnliche Anforderung besteht dann, wenn Kunden oder Mitarbeiter die Einsicht der personenbezogenen Daten fordern.

  • Personenbezogene Daten sind alle Daten, über die eine Person identifiziert werden kann. Dazu zählen: Name, Identifikationsnummer wie etwa im Ausweis oder auf der Kreditkarte, Foto, Ort, E-Mail-Adresse, Online-Kennung, IP-Adressen und Kombinationen aus physikalischen, genetischen, wirtschaftlichen, kulturellen, medizinischen oder sozialen Faktoren, die auf eine Person schließen lassen.

Die DSGVO (im Englischen GDPR genannt) schlägt mit Blick auf die skizzierten Herausforderungen die Pseudonymisierung oder die Verschlüsselung personenbezogener Daten vor. Und zwar auch für alle Folgeverarbeitungen. Dies hat sich inzwischen als erprobter Lösungsansatz herauskristallisiert.

Bei der Pseudonymisierung ersetzt die IT die personenbezogenen Datenfelder wie etwa den Namen durch einen Code. Dadurch lassen sich die Daten nun nicht mehr der betreffenden Person zuordnen – außer man verfügt über den Schlüssel zur Dekodierung. Der Vorteil dieses Verfahrens ist klar: Die Unternehmen können die betreffenden Daten nach der Verarbeitung und Analyse wieder auf die reale Person zurückschlüsseln.

Das ist wiederum eine Voraussetzung, um beispielsweise Kunden gezielt anzusprechen. Der Nachteil dieses Verfahrens liegt darin, dass der Schlüssel zur Dekodierung auch Unbefugten in die Hände fallen kann. Deswegen ist auch die Anonymisierung personenbezogener Daten eine Option. Sie schließt die Rückverschlüsselung aus.

4. Vorbereitung der Daten: Der Startpunkt für die prädiktive Modellerstellung muss stimmen

"Garbage in – Garbage out": Dieses Prinzip gilt auch in der Big-Data-Analytics-Welt. Deswegen beschäftigen sich aktuell viele Unternehmen mit dem Management von Datenqualität, Stamm- und Referenzdaten sowie der Datenanreicherung. Insbesondere die Datenqualität ist für den Erfolg analytischer Anwendungsfälle wesentlich.