Webcast

Wie Self Service Data Scientisten unterstützt

06.11.2020
Anzeige  Wer Daten virtualisiert, fördert das Potenzial von Data Scientists. Was das in der Praxis heißt, schildert ein Webcast der Computerwoche.
Self Service lässt Data Scientisten schneller arbeiten.
Self Service lässt Data Scientisten schneller arbeiten.
Foto: metamorworks - shutterstock.com

Data Scientisten können erst richtig arbeiten, wenn ihnen alle Daten schnell und flexibel verfügbar sind. Wie IT-Entscheider das ermöglichen, erklärt ein On Demand-Webcast der Computerwoche. Jörg Meiners, Principal Sales Engineer Dach Region bei Denodo Technologies, untersucht Ursachen und Lösungswege. Er steigt mit einem klaren Statement ein: "Aus Sicht der Enduser gilt: Ich möchte an alle Daten. Jetzt!" Faktisch aber wird genau das Power Usern wird oft schwer gemacht. Denn die Daten werden oft in unterschiedlichen Systemen aufbewahrt. Fachjournalist Oliver Janzen von der Computerwoche moderiert den Webcast.

Meiners blickt auf eine kurze Geschichte des Analytics zurück: das Thema startete deskriptiv - "what happened?" - und entwickelte sich weiter zur Diagnose ("why did it happen?"). Heute verlangen die Entscheider den Blick nach vorn, als Predictive Analytics: "What will happen?". Künftig wird es um Prescriptive Analytics gehen: "How can we make it happen?" Eine spontane Umfrage unter den Webcast-Teilnehmern zeigt, dass rund zwei Drittel ihre Daten mittlerweile sowohl zur Analyse der Vergangenheit als auch für künftige Voraussagen nutzen.

Self Service Initiativen sollen das einfacher machen, so Meiners. Dahinter stehen drei Ziele: erstens, die Daten schneller an den User zu bringen, zweitens, Nutzern mit besonderen Needs mehr Daten zu liefern und drittens die Entkoppelung von der Agenda der IT, damit der User autark arbeiten kann. Soweit die Theorie. Was nun die Praxis angeht, zitiert Meiners eine Studie der Eckerson Group. Demnach erklären 70 Prozent der Endnutzer, sie hätten mehr Training gebraucht als erwartet. 67 Prozent finden die Tools "schwierig in der Anwendung" und 64 Prozent beurteilen ihre Erfahrungen als "durchschnittlich oder drunter".

Die Nutzer wollen mit unterschiedlichen Anwendungen arbeiten

Zahlen, die den Experten nicht überraschen. Denn die Datenwelt ist heterogen: es gibt verschiedene Plattformen, es gibt Big Data, und es gibt immer mehr Komplexität durch Firmenwachstum und Akquisitionen. Hinzu kommt: die Nutzer wollen mit ganz unterschiedlichen Anwendungen arbeiten. Den Zugriff auf die Daten sieht Meiners durch drei Faktoren geprägt: Usability, Privacy, Quality.

Doch oft fehlt es schon am Grundsätzlichen. Meiners: "Ich möchte einen Kunden zitieren mit der Aussage: 'Wir haben kein gemeinschaftliches Datenverständnis mehr. Wir treffen uns und reden über Daten aus verschiedenen Quellen.' Hier stellt sich die Frage: wo ist die Source of Truth?" Was die Frage impliziert: Wie und wo kann ich welche Governance-Regeln anwenden?

Als Lösung bietet Denodo eine virtualisierte Data Fabric. "Eine Data Fabric ist keine technologische Beschreibung, sondern sie ist Lösungsorientiert: wie bringe ich Daten aus der IT formgerecht an den Business-Nutzer?", beschreibt es Meiners. Dabei werden Daten nicht physisch zusammenkopiert, sondern der Datentransport wird regelbasiert zusammengestellt, um agiler und flexibler zu sein.

Das heißt konkret: Der erste Schritt sind integrierte Konnektoren. Sie greifen auf Daten zu, die dort stehenbleiben, wo sie sind. Dadurch gewinnt man Base Views: diese Daten können über Tabellen angesehen werden. Im zweiten Schritt konvertiert man die Base Views in ein kanonisches Datenmodell. Im finalen Step geht es um Operationalisierung wie etwa Invoice Reports. Der Endanwender erhält die gewünschten Informationen über einen Datenkatalog. So entsteht ein gemeinschaftliches Datenverständnis.

Vorteile des Self Service

Der Self Service bringt folgende Vorteile: ein single Access Point für alle Daten entsteht, ebenso ein semantisches Datenmodell und ein Datenkatalog. "Und der Endnutzer kann das Tool seiner Wahl nutzen", fügt Meiners an. Er bekommt immer einen performanten Zugriff auf Echtzeit-Daten.

Dabei haben Poweruser erweiterte Anforderungen. "Analysten und Data Scientisten müssen kreativer sein, die wollen auch experimentelle Datensätze integrieren und schauen, was sie mit den Daten machen können", so die Erfahrung des Experten. Standardnutzer dagegen arbeiten auf Grundlage der vorhandenen Daten. Deshalb stellt Denodo Powerusern eine individuelle Sandbox bereit, die den regulierten Bereich nicht berührt. "Der Poweruser kann also in seiner Sandbox nichts kaputt machen", schmunzelt Moderator Janzen.

Schließlich meldet sich ein Webcast-Zuschauer mit einer Frage. "Ab wann lohnt sich der Einsatz von Denodo?", will er wissen. Dazu Meiners: "Immer dann, wenn Sie das Gefühl haben, dass der Blick der Enduser auf die Daten zu komplex ist, also etwa zu lang dauert oder zu kompliziert ist!"

Hier den On Demand-Webcast ansehen