Big Data ist auf der Überholspur. Hadoop, NoSQL und eine Vielzahl von Algorithmen aus der künstlichen Intelligenz (KI) sind die neuen Stars der IT- und Business-Intelligence-Welt. Die von Gartner postulierten drei Vs - Volume, Velocity und Variety - dienen als wegweisende Aspekte einer mannigfaltigen und vielversprechenden "datenbetriebenen" Zukunft. Neben all diesen eher technischen und strategischen Aspekten des Big Data taucht ein weiterer Begriff immer häufiger im Kontext von Big Data auf: Data Science.
Schnittstellenkompetenz
Hilary Mason, Chief Data Scientist bei bit.ly und Meister dieser neuen Disziplin, hat Data Science einmal als Schnittstellenkompetenz beschrieben. Data Science liegt da, wo Computerwissenschaften, Statistik und Mathematik, Ingenieurskunst und "Hacking", der neugierige, kreative Umgang mit Computern, Software und Algorithmen, zusammentreffen. Data Science ist ein multidisziplinärer Raum, in dem neue Ideen und Lösungen entstehen. Hilary Mason nennt die Menschen, die diesen Raum bewohnen, "awesome nerds" (zu Deutsch: fantastische Computerfreaks) oder, Business-tauglicher, "Data Scientists".
Ursuppe der Entwicklung
Wie schon öfter in der Vergangenheit ist das eigentlich Aufregende und Spannende an den aktuellen Entwicklungen, die sich hinter den Begriffen Big Data und Data Science verbergen, die Multidisziplinarität. Auf einmal kommen bis dato fachfremde Ideen, Theorien und Strömungen zusammen und bilden eine Art Ursuppe, in der ganz Neues entstehen kann. Für sich genommen ist vieles ein alter Hut. Die Algorithmen der künstlichen Intelligenz, die semantischen Analysen der Computerlinguistik, das Paradigma des "Parallel Computing" inklusive einer optimierten Verteilung von Rechenprozessen, spaltenorientierte Datenbanken - all dies hat auch schon vorher innerhalb einzelner Fachrichtungen existiert, teils seit Jahrzehnten. Aber auf einmal kommt alles zusammen. Die Grenzen verschwimmen, neue technische Entwicklungen werden von den großen "Datenfirmen" Yahoo, Google, Twitter oder Facebook als Open Source zur Verfügung gestellt, und der Data Scientist wird zum "heißesten" neuen Job der Big-Data-Ära erhoben.
Endlich Antworten
Data Science ist aber weit mehr als Technik, Statistik und künstliche Intelligenz. Dies sind nur die momentanen Zugpferde. Der Autor dieses Beitrags geht über die von Hilary Mason definierte Verortung hinaus. Data Science findet dort statt, wo die Brücken ins Business geschlagen werden. Dort, wo von Business-Seite neue Impulse kommen. Wo neue Fragen in Richtung der "Daten" (= der Kunden, Produkte, Märkte, Wettbewerber, Prozesse etc.) formuliert werden. Die können nun (endlich) mit diesen neuen Technologien und Algorithmen beantwortet werden. Und das direkter, schneller und in beliebiger Relation und Kombination. Data Science ist damit weit mehr als ein weiteres Werkzeug innerhalb bestehender Organisationsstrukturen und -prozesse, beispielsweise im Rahmen der Business Intelligence.
Die Aufbereitung, Provisionierung und der Zugang zu Daten, Analysen und Reports müssen und werden in Zukunft neu und weiter gedacht werden. Dies gilt gerade in Kombination mit den Entwicklungen im Bereich der Datenvisualisierung und des "Storytellings mit Daten". Dies entfaltet seine Gültigkeit mit den aktuellen Trends in der Interface-Entwicklung und den immer höheren Anforderungen an Portabilität und Echtzeitkontrolle (Stichworte: Mobile Business Apps) von Seiten der Anwender.
Business und Daten
Business und Daten werden näher zusammenrücken. Daten werden nahtloser, unmittelbarer und oft in Echtzeit in die Entscheidungsprozesse integriert. Das wird unweigerlich auch zu Veränderungen in den Strukturen und Prozessen von Unternehmen führen.
Data Scientists sind die Personen im Unternehmen, die die Aufgabe haben, die aus den Fachabteilungen formulierten Business-Anforderungen in Big-Data-Lösungen zu übersetzen. Sie modellieren die dafür erforderlichen Systeme, Prozesse und Interfaces. Sie kreieren ganzheitliche "Data Experiences" (DX) von der Quelle (den Daten) bis zur Senke (den Interfaces und nicht zuletzt den Nutzern). Ähnlich wie beim "User Experience Design" (UX) von Mensch-Maschine-Schnittstellen in der Software- und Online-Welt ist der Ausgangspunkt eine wohlformulierte Anforderung oder Fragestellung. Deren Beantwortung wird die Basis einer Entscheidungsfindung im Rahmen strategischer oder operativer Prozesse.
Das Vorgehen ist häufig agil und insbesondere zu Beginn geprägt von einer schnellen Abfolge von empirischen Untersuchungen und Ad-hoc-Analysen. In dieser Phase ist der Data Scientist seiner Namensgebung am nächsten. Er ist ein Forscher in den Daten und, um auch diese Analogie zu ziehen, macht Probebohrungen im neuen Rohstoff Daten, dem Öl des Big-Data-Zeitalters. In den oftmals noch unbekannten, aufgrund ihrer Größe zu aufwendig zu verarbeitenden oder zu schnelllebigen Daten werden Muster und Rhythmen aufgespürt. Zudem werden Regelmäßigkeiten und Unregelmäßigkeiten identifiziert, Relationen ermittelt, Modelle definiert, trainiert und oftmals auch verworfen. Es geht um neue Strukturen in den Daten, die man ans Tageslicht fördern und zur Annotation und weiteren Verarbeitung verwenden will.
Erfolgsfaktor: Mut zur Lücke
Was macht nun einen guten, erfolgreichen Data Scientist aus? Wesentliche Eigenschaften sind Neugierde und Kreativität. Hinzukommen muss ein gesundes Maß an Skepsis gegenüber den ermittelten Ergebnissen. Ein Data Scientist sollte auch keine Angst davor haben, auch mal nichts in all den Daten zu finden, was als Antwort dienen kann.
Vollendung unmöglich
Betrachtet man die Vielzahl an Kompetenzen, die ein Data Scientist in sich vereinen muss, um in allen benannten Facetten Optimales zu vollbringen, ist sofort klar, dass sie kaum je ein Einzelner auf sich vereinen kann. Je nach Aufgabe kann ein erfahrener Generalist und Experte in einigen Bereichen sicher allein agieren. Meistens jedoch ist Data Science ein Teamsport. Statistiker und Mathematiker etwa arbeiten zusammen.
Viele Experten - ein Team
Auch Programmierer, Daten- und Business-Analysten, KI-Experten, kommunikationsstarke und Business-orientierte Generalisten (die dann in diesem Kontext oft den Titel Data Scientist tragen) und nicht zuletzt die Experten aus einzelnen Fachdomänen bilden Data-Science-Teams. DJ Patil von LinkedIn und Jeff Hammerbacher bei Facebook waren Mitte der 2000er Jahre mit die Ersten, die Data-Science-Teams gründeten, um einen geschäftlichen Nutzen aus den riesigen Datenmengen ihrer sozialen Netzwerke zu generieren. Diesem Beispiel dürften in den kommenden Jahren viele weitere Unternehmen folgen. (ph)