Data Scientists haben laut Harvard Business Review den „sexiest job“ des Jahrhunderts. Ihre Fähigkeit, aus riesigen Datenquellen Wissen zu schaffen, ist für die digitale Transformation der Unternehmen unerlässlich. Das erklärt auch die Begeisterung für diese Berufsgruppe, die Datenquellen erschließt, verbessert und sogar zu Geld machen kann. Allerdings finden nicht alle Unternehmen die ihrem Wunschprofil entsprechenden Kandidaten.
Citizen Data Scientist: Definition
Citizen Data Scientists können in diesen Fällen das Suchumfeld erweitern. Der Berufsbezeichnung des „Data Scientist“ den Begriff „Citizen“ („Bürger“) voranzustellen, mag auf den ersten Blick verwirrend erscheinen. Konkret geht es um Menschen ohne spezifische wissenschaftliche Ausbildung, im Gegensatz zu den technischen und hochspezialisierten Datenwissenschaftlern. Ein Berufsstand, der laut Gartner „Modelle mithilfe fortgeschrittener analytischer Techniken oder prädiktiver Merkmale erstellt, deren ursprüngliche Funktion jedoch außerhalb des Bereichs der Statistik und Analytik liegt“. Citizen Data Scientists erzählen auf der Basis von Unternehmensdaten, Geschichten über eine Firma, indem sie diese Daten in eine für alle verständliche Sprache übersetzen. In der Theorie vereinen sie die Fähigkeiten mehrerer Fachleute: der Mathematiker, Informatiker und Statistiker - auch ohne eine spezifische wissenschaftliche Ausbildung.
Lesetipp: Was Data Scientists können müssen
Was aber – über das technische Fachwissen hinaus – letztlich den Unterschied ausmacht, sind die „Soft Skills“. Datenwissenschaftler müssen vor allem neugierig sein. Sie müssen in der Lage sein, in einer großen Datenmenge potenziell nützliche Informationen zu erkennen, dieses Interesse für die anderen Mitarbeiter oder Abteilungen herauszuarbeiten und zu „übersetzen“.
Das Handwerkszeug des Citizen Data Scientist
Gartner zufolge werden 40 Prozent der Aufgaben in der Datenwissenschaft bis 2030 automatisiert sein. Indem sie diese Technologien einem erweiterten Mitarbeiterkreis zugänglich machen, können Unternehmen die (Weiter-)Entwicklung des „Citizen Data Scientist“ fördern. In der Praxis kann dies auch auf vereinfachten Analysewerkzeugen basieren.
Die Entstehung dieser neuen Generation an Datenwissenschaftlern führt zu einem positiven Rückkopplungseffekt. Zum einen durch Qualifikation und zum anderen durch moderne Werkzeuge, die den Anwendern einen Teil der Komplexität abnehmen können, haben Entwickler, Analytiker, Techniker und Fachanwender die Möglichkeit, sich zu einem Citizen Data Scientist zu entwickeln.
Zu Beginn eines Projekts sollten daher die folgenden Fragen geklärt werden:
Wie komme ich an die Daten?
Welche Qualität haben die Daten?
Was muss ich tun, damit ich einen qualitativ hochwertigen, konsistenten Datensatz bekomme, mit dem ich mein Modell trainieren und testen kann?
Wie erzeuge ich den Datensatz für das Training und die Validierung des Modells?
Wie kann ich einfach mehrere Modelle auf Basis von verschiedenen Algorithmen trainieren und anschließend automatisch das Modell mit dem besten Ergebnis auswählen?
Durch Reduktion der technischen Anforderungen kann man sich in der Ausbildung der Mitarbeiter auf Vorgehen und Methode konzentrieren:
Wie sieht der Data-Mining-Prozess aus?
Was muss ich tun, um eine gute Datenqualität zu bekommen?
Welche Maschinenlern-Methode (supervised/unsupervised, clustering, classification, regression) ist am besten geeignet, um das Problem zu lösen?
Botschafter einer neuen Datenkultur
Die Praxis hat gezeigt, dass es nicht effizient ist, wenn man die Rolle des Datenwissenschaftlers von jener des Entwicklers, Analytikers, Technikers oder Fachanwenders trennt. Auf Grund dieser Trennung muss viel Wissen von der einen an die andere Rolle übergeben werden. Folgende Fragen sollten bei einem solchen Projekt geklärt werden:
Wer oder was liefert welche Daten zu welchem Zweck?
Welche Informationen (Geschichten) stecken damit in den Daten?
Welche Aussagen sind auf Basis dieser Daten möglich und sinnvoll – und welches Problem wird damit adressiert?
Diesen Kontext müsste man einem Data Scientist erst erklären, bevor er sinnvoll unterstützen kann. Es ergibt also mehr Sinn, dem Entwickler, Analytiker, Techniker oder Fachanwender einen Datenwissenschaftler beratend zur Seite zu stellen. Der Citizen Data Scientist kann die Lücke zwischen der traditionellen Datenanalyse und den erweiterten Techniken der Data Scientists überbrücken.
Von Datendemokratisierung zu Industrie 4.0
Dadurch, dass sie die verschiedenen Interessengruppen in Einklang bringen und zur „Datendemokratisierung“ beitragen, könnten die „Jedermann-Datenwissenschaftler“ zum Aushängeschild der unternehmenseigenen Datenkultur zu werden. Dennoch sind es – selbst unter Verwendung ausgeklügelter Werkzeuge – sehr spezifische Fähigkeiten, die für die Suche nach den echten „Goldstücken“ in den Daten benötigt werden, und sie erfordern den Einsatz von Experten. Der Citizen Data Scientist ist daher in keiner Weise ein Ersatz für den Data Scientist: Im Gegenteil, beide Funktionen bestehen nebeneinander in Koexistenz und entwickeln Synergieeffekte, um die Wettbewerbsfähigkeit des Unternehmens zu verbessern.
Lesetipp: Der Data Scientist muss Aufgaben abgeben
Durch ihren aktiven Beitrag zum Aufbau einer unternehmensinternen Datendynamik scheinen beide – der Citizen Data Scientist und der Data Scientist – mehr denn je zum neuen Inbegriff der vierten industriellen Revolution zu werden. Und wie wichtig innerbetriebliche Arbeitsteilung in Verbindung mit technischer Unterstützung ist, zeigte sich beispielhaft bereits in der ersten industriellen Revolution. (bw)