Vier neue Berufsbilder

Big Data Jobs: Wer macht was?

16.03.2016
Von 
Bastian Dickehage arbeitet als Principal bei Accenture.
Data Scientist, Data Engineer, Data Steward, Management Scientist - bei den vielen neuaufkommenden Jobbeschreibungen im Big-Data- und Analytics-Umfeld fällt der Überblick schwer. Wir bringen Licht in das Begriffs-Wirrwarr.
  • Der (Big) Data Engineer ist der Herr der Datenversorgung.
  • Der Management Scientist ist der Vermittler zwischen den Fachbereichs-Welten.
  • Der Data Scientist gibt Antworten auf analytische Fragestellungen auf Grundlage von Daten.
  • Der Data Steward ist für die Überwachung der Datanqualität und -integrität zuständig.

Getrieben durch neue Speichertechnologien basierend auf neuen Verfahren wie In-Memory Computing, spaltenorientierte Datenbanken oder verteilten Programmiermodellen (Map Reduce) hat das Big-Data-Thema gerade in größeren Unternehmen an Relevanz gewonnen. Topmanager der Großkonzerne auf Fach- und IT-Seite müssen sich mit den Megatrend auseinandersetzen und bewerten, wie die neuen technologischen Möglichkeiten am besten für ihren Aufgabenbereich einzusetzen sind.

Haben Unternehmen früher fast ausschließlich Daten der eigenen Anwendungen genutzt, sind in den vergangenen Jahren eine Vielzahl extern Quellen wie Social Media oder vernetzte Geräte im Internet der Dinge hinzugekommen. Das führt dann auch zu neuen Berufsbildern - so taucht der Begriff des "Data Scientist" in der letzten Zeit vermehrt auf. Hier scheint es sich um die Art "Zauberer" zu handeln, den jedes Unternehmen braucht, um das Wunderwerk Big Data zum Leben zu erwecken. Wie eine vielköpfige Hydra scheint er die Lösung aller Probleme zu sein - für jeden etwas anders, aber immer passend. Neue Studiengänge entstehen, die ihre Studenten zum "Master of Data Science" ausbilden und das nicht erst seitdem die Harvard Business Review ihn zum "Sexiest Job of the 21st Century" gekürt hat. Doch wer ist dieser Held der Gegenwart, dessen Berufsbild gar nicht so neu ist?

Um ein wenig Einblick und ein diversifizierteres Bild zu liefern, werden im Folgenden einige Begriffe und Rollen innerhalb von Unternehmen beschrieben, die häufig im Zusammenhang mit dem Berufsfeld des Data Scientists in Verbindung gebracht werden.

(Big) Data Engineer

Der Data Engineer ist im Wesentlichen für das Zusammenführen von Daten verantwortlich. Er kreiert aus den zur Verfügung stehenden Daten und Technologien eine Landschaft, in der sich der Data Scientist ausleben kann. Sein Wissen beschränkt sich nicht nur auf die im Unternehmen vorhanden Daten und ihre Speicherorte, er kennt sich auch damit aus, wie man diese Daten am besten in eine zentrale Analyseinfrastruktur integriert, welche Technolgien sich dazu eignen und welche zusätzlichen externen Daten zur Anreicherung genutzt werden können.

Zum Big Data Engineer wird er, wenn er mit großen Datenmengen arbeitet, die zur Speicherung und Verarbeitung Big-Data-Technologien benötigen. Dabei ist die Abgrenzung von Big Data nicht strikt definiert - große Datenmengen können aber beispielsweise eine Millionen Verkaufstransaktionen eines Onlinehändlers oder eine Millionen gehostete Telefonate eines Telekommunikationsanbieters sein. Aber auch ein Sensor, der alle zwei Nanosekunden 50 Megabyte Daten produziert. Seine Leistung beginnt bei dem Verständnis der fachlichen Anforderungen und der Planung und Entwicklung einer robusten und flexiblen Big-Data-Infrastruktur (auch bezeichnet als Big Data Architekt), geht über das Anschließen von internen und externen Datenquellen über Batch-, Echtzeit- und Streaming-Schnittstellen bis hin zur Sicherung eines reibungslosen Betriebs und Aktualität der Daten. Er ist quasi der Stadionarchitekt, Greenkeeper und Zeugwart für die Fußballmannschaft. Der (Big) Data Engineer ist der Herr der Datenversorgung.

Management Scientist

Der Management Scientist hingegen ist eher der Manager oder Teamchef, um im Bild der Fußballmannschaft zu bleiben. Er ist als Erster vor Ort, analysiert die Lage und diskutiert die fachlichen Problemstellungen, die mit Hilfe von Datenanalysen gelöst werden sollen. Mit wachsendem Anklang an datengetriebener Entscheidungsunterstützung gibt es heute kaum noch einen fachlichen Bereich oder eine Branche, in der Datenanalysen nicht eingesetzt werden.

Die Leistung des Management Scientist besteht darin, die Sprache des technisch- und datenunversierten Fachmitarbeiters in die des Data Scientists zu übersetzen. Es beginnt bei der Spezifizierung der eigentlichen fachlichen Problemdefinition, der Übersetzung und des Schärfens der dahinterliegenden analytischen Fragestellung, geht über die Identifikation von benötigten Daten, dem Management der operativen Analyse bis hin zur Kommunikation von analytischen Ergebnissen und Handlungsempfehlungen. Für seine Aufgabe benötigt der Management Scientist ein gutes Verständnis sowohl von analytischen Methoden und Vorgängen als auch fachlichen Prozessen und Auswirkungen. Er benötigt ein gewisses Verständnis der Fachbereiche, um den Fachvertreter zu verstehen und dem Data Scientist das Problem zu erklären, als auch die Möglichkeit analytische Ergebnisse zu bewerten sowie Vorgehen und Ergebnisse dem Fachvertreter in seiner Sprache schmackhaft zu machen. Der Management Scientist ist der Vermittler zwischen zwei Welten.

(Big) Data Scientist

Die Kernaufgabe des Data Scientists ist es, Antworten auf analytische Fragestellungen aus Daten zu generieren mit Hilfe von analytischen Methoden aus Bereichen der Statistik, des Machine Learnings oder Operations Research. Er wird zum Big Data Scientist, wenn er mit großen Datenmengen arbeitet und Erkenntnisse mit Hilfe von Analysemethoden generiert, die auf Big-Data-Technologien wie Hadoop aufbauen. Seine Aufgabe fängt mit dem Verständnis des fachlichen Problems an, geht über die Auswahl der benötigten Hilfsmittel wie Daten, Technologien und Methoden und mündet in eine Ideenfindungsphase.

Einen guten Data Scientist zeichnet vor allem das Repertoire dieses Baukasten und der schneller Griff zu den passenden Mitteln aus. Der Stereotyp des Data Scientist ist ein bärtiger, T-Shirt tragender Nerd, der aus wenigen Daten innerhalb kürzester Zeit mit Hilfe von frei verfügbaren Tools und Technologien geniale Erkenntnisse zieht und diese anschaulich visualisiert und erklärt. Er ist also der Spielmacher, der im entscheidenden Match den Unterschied machen kann. Der Data Scientist arbeitet in jeder Phase eng mit dem Data Engineer und dem Management Scientist zusammen, denn nur zusammen können sie die fachliche Aufgabenstellung lösen. Wenn der Data Scientist weniger Aufgaben des Data Engineers oder des Management Scientists übernehmen muss, hat er mehr Zeit für seine eigentlichen Aufgaben - genau wie im Profifußball auch die Spieler nicht selbst die Tore aufstellt oder die Linien auf dem Platz markiert. Aber je kleiner das Unternehmen ist, desto häufiger übernimmt der Data Scientist in der Regel auch die Aufgaben von Data Engineer und dem Management Scientist.

Auch früher gab es übrigens bereits Data Scientists. Sie hießen Data Miner, Datenanalysten oder waren in speziellen Rollen, die ihnen Titel wie Marketing Analyst, Aktuar oder Logistikplaner verliehen haben. Was sich geändert hat und in das neue Berufsbild des Data Scientists nun mit hineinspielt, ist eine Form von Kreativität und Cleverness. Der Data Scientist ist der Herr der Datenauswertung.

Data Steward

Der Data Steward ist eine Rolle, die auch gerne in diesem Zusammenhang fällt: Im Vergleich zu den anderen drei Berufsbildern hat er nicht unmittelbar etwas mit dem Spielgeschehen zu tun. Er ist für die Überwachung der Qualität und der fachlichen Korrektheit von Daten zuständig. Häufig teilt er sich die Aufgabe mit weiteren Data Stewards in Datenbereiche auf oder arbeitet mit Kollegen in der IT-Abteilung zusammen, die "Data Custodians" genannt werden. Die Datenbereiche gliedern sich nach fachlichen Entitäten, also beispielsweise nach Kunde, Produkt, Transaktionen, Zahlungen, Partnern oder Kampagnen.

Die Aufgaben des Data Stewards gehen von der Definition der Datenbereiche in seiner Hoheit, über die Definition von allgemeinen Regeln und Leitlinien zum Inhalt und zur Nutzung dieser Datenbereiche bis hin zur Prüfung der Einhaltung der geltenden Regeln. Mit den Standards, für deren Einhaltung er sorgt, sichert er die dauerhafte Qualität der Daten, ihrer Verarbeitung, ihrer Auswertung und letztendlich ihrer Nutzung zur operativen Steuerung und Entscheidungsfindung von Geschäftsprozessen. Böse Zungen behaupten, der Data Steward sei wie ein Funktionär beim Sport - man weiß nicht genau wofür, aber irgendwie braucht man ihn. (sh)