Einer der ersten Schritte bei der Durchführung von analytischen Anwendungsfällen ist die Datenexploration, oft auch Data Discovery genannt. Hier stöbern die Data Engineers oder Data Scientists nach Daten, die sich für den Fall eignen könnten. Dabei bewerten sie auch die Qualität der Daten. Häufig setzt beim Data-Science-Team an dieser Stelle Ernüchterung ein. Das Team verwirft einige Datenquellen wegen mangelnder Datenqualität und sucht nach alternativen Quellen. Gerade bei externen Daten muss die Datenqualität an dieser Stelle geprüft werden, denn die Qualität von Daten ist nicht pauschal gut oder schlecht.
Vielmehr hängt die Verwendbarkeit vom betreffenden Anwendungsfall ab. Um das Sentiment der Kunden zu einem Produkt zu ermitteln, können die verantwortlichen Produktmanager ein paar Prozent Fehler problemlos verkraften. Will der Vertrieb einen Kunden auf ein neues Produkt aufmerksam machen, sollte das Kundenprofil dagegen fehlerfrei sein. Diese Unterscheidung ist für Unternehmen essenziell.
Im nächsten Schritt kümmern sich die Data Engineers um die Datenvorbereitung (Data Preparation). Sie bearbeiten die Daten, indem sie fehlerhafte Daten bereinigen und Lücken auffüllen, die andernfalls die Statistik verzerren würden. Die Daten werden mit Stammdaten kombiniert (Lookup) und über die Stammdaten oder Identity-Resolution-Ansätze erfolgt dann die Verknüpfung mit weiteren Datenobjekten verschiedener Herkunft. Diesen Prozess nennen Experten Data Blending. Abschließend reichern Data Engineers und Scientists die Daten durch externe Daten wie etwa den Ort oder soziodemografische Daten an.
Bei all diesen Aufgaben funktioniert das Prinzip der Selbstbedienung am besten: Data-Science-Teams können mithilfe von modernen Self- Service-Data-Exploration- und Self-Service-Data-Preparation-Werkzeugen hier eigenständig und ohne die IT Hand anlegen. Mit Blick auf Markteinführungszeiten und die Agilität ist das der richtige Weg. Aber auch hier gilt: Die verantwortlichen Data Engineers und Scientists sollen einmal erstellte Artefakte mit nachhaltigem Wert für das Unternehmen in den Data Lake zurückspielen. Damit ermöglichen sie allen Beteiligten die Wiederverwendung. Das können zum Beispiel bereinigte Daten oder die zugrundeliegenden Regeln sein. So schaffen Data Engineers und Scientists Wert für Ihre Organisation. Allerdings brauchen Unternehmen zur Durchsetzung dieses Anliegens die Rolle des Data Stewards, manchmal auch Data Curator genannt.
5. Nachverfolgung: Den Fluss der Daten im Blick behalten
Jede Person hat – wie oben ausgeführt – nach der Datenschutzgrundverordnung das Recht, ihre personenbezogenen Daten einzusehen oder auch löschen zu lassen. Deswegen muss auch der Datenfluss innerhalb des Data Lake und der Folgeverarbeitung, etwa in Analytical Sandboxes, nachvollzogen werden können. Zu diesem Zweck empfiehlt es sich, die sogenannte Data Lineage zu erheben.
Das bedeutet, dass der gesamte Datenfluss in einem sogenannten Data Dictionary protokolliert wird. Dazu gehören die ursprüngliche Quelle der Daten, alle Transfer-Aktivitäten und auch die Modifikation der Daten bis hin zur Analyse. Idealerweise erledigen das die verwendeten Tools automatisch.
Entwickler, Data Stewards oder Datenschutzbeauftragte können später die Data Lineage Information abfragen oder über grafische Benutzeroberflächen visualisieren. Grundsätzlich bieten die Hersteller von Datenplattformen (speziell Hadoop), Werkzeugen für Datenintegration, Datenvorbereitung und anderer Werkzeugkategorien dieses Feature an. Die IT muss allerdings die verschiedenen Werkzeuge hinsichtlich der Data Lineage orchestrieren und das führt in der Praxis nicht selten zu Problemen.
Fazit
Damit sich die Magie der Data Science entfalten kann, ist Einiges zu tun. Unternehmen müssen ihre Daten schützen, katalogisieren, bereinigen, anreichern und nachverfolgen. Und ehe die Arbeit beginnt, müssen Unternehmen auch die Rechtslage zur Verwendung der Daten abklären. Warum sich diese Arbeit lohnt und ohne eine durchgängige Big Data Governance oftmals das Chaos droht, lesen Sie in Teil 1 dieser Artikelserie.