Stammdatenmanagement trifft Big Data

Die Rollen von Data Stewards und Data Scientists müssen zusammenpassen

17.04.2014
Von 
Dr. Wolfgang Martin ist Experte auf den Gebieten Big Data, Business Intelligence, Performance Management, Analytics, Business Process Management, Information Management, Information Governance sowie Cloud Computing (SaaS, PaaS). Sein Spezialgebiet sind die Wechselwirkungen technologischer Innovation auf das Business und damit auf die Organisation, die Unternehmenskultur, die Businessarchitekturen und die Geschäftsprozesse.

Die Rollen von Data Scientists

Auf die Data Scientists wollen wir noch genauer eingehen. Das sind Mitarbeiter, die eher in der Business Intelligence angesiedelt sind, mit folgendem weiter detaillierten Profil:

  • Technische Expertise: Tiefe Kenntnisse in einer Natur- oder Ingenieurs-Wissenschaft sind notwendig. Sie bilden die Grundlage, um als Data Scientist erfolgreich arbeiten zu können. Insofern sollte man zukünftige Data Scientists in dieser Gruppe suchen und dann auch die weiteren geforderten Eigenschaften testen.

  • Problembewusstsein: Die Fähigkeit, ein Problem in testbare Hypothesen aufzubrechen.

  • Kommunikation: Die Fähigkeit, komplexe Dinge per Anekdoten durch einfach verständliche und gut kommunizierbare Sachverhalte darzustellen.

  • Kreativität: Die Fähigkeit, Probleme mit anderen Augen zu sehen und anzugehen ("thinking out of the box").

Data Scientists und Data Stewards - ein "Dream-Team"?

Wie arbeiten jetzt das Business Intelligence -Kompetenzzentrum, in dem die Data Scientists sitzen, und das Informationsmanagement-Kompetenzzentrum, in dem die Data Stewards sitzen, zusammen?

Die Schnittstelle bilden die Data Hygienists, die die Aufgaben von Data Stewards in Big Data-Initiativen übernehmen. Hier sehen wir bereits den Unterschied in der Arbeitsweise von Data Stewards. Im Unternehmen sind Data Stewards das ausführende Organ der Information Governance, die unternehmensweit in gleichem Maße für alle Unternehmensdaten Gültigkeit hat. In Big-Data-Initiativen wird die Richtigkeit und Vollständigkeit der Daten pro Projekt jedes Mal neu festgelegt. Es gibt keine durchgängige Data Governance, sondern eine Data Governance, die pro Projekt vor allem von den Data Scientists bestimmt wird.

Das kann auch bedeuten, dass manche Big-Data-Projekte komplett ohne Governance ablaufen. Data Scientists argumentieren hier, dass eine Bereinigung der Daten aus den verschiedenen Big-Data-Quellen die analytischen Ergebnisse beeinflussen könnte, weil dann die Daten durch Annahmen der Data Stewards zur Datenqualität verfälscht werden könnten. Auch könnten gerade in Ausreißern wichtige Information stecken, die man im Rahmen von Data Discovery unbedingt bräuchte. Dahinter steht auch der gute Gedanke, dass in Big Data-Projekten die Daten dem Zweck des Projektes zu dienen haben, während im Unternehmen die Daten der langfristig angelegten Unternehmens-Strategie zu dienen haben.

Fazit

Die Aufgabe von Data Stewards ist das Informationsmanagement der Unternehmensdaten und/oder Daten aus Fachabteilungen unter den Rahmenbedingungen der Information Governance - mit der Zielsetzung, den Fachabteilungen qualitativ hochstehende Daten, die leicht zugänglich sind, in der notwendigen Konsistenz zur Verfügung zu stellen. Sie sind auch dafür verantwortlich, die Information Governance kontinuierlich an der Unternehmensstrategie auszurichten. Data Scientists haben die Aufgabe, Big Data in "Big Value" zu wandeln. Sie sind verantwortlich für die Methodologie von Big-Data-Analytik sowie die Kommunikation von analytischen Resultaten gegenüber dem Vorstand und dem gesamten Unternehmen.

Data Stewards haben auch in Big-Data-Initiativen ihre Rolle, nämlich die der Data Hygienists, die sich aber jeweils an den Projektzielen und nicht an der Unternehmensstrategie ausrichtet. Sie spielen in der Big-Data-Analytik die Rolle eines SWAT-Teams, also eines taktisch agierenden Spezialteams, und nicht die strategische Rolle wie im Unternehmen. Insofern sind sie wieder ein Dienstleister, der aber bei Big-Data-Initiativen von den Data Scientists gerufen wird, aber nicht selbständig agiert.