Die Geschäftsführung mag vom "Rohstoff Daten" reden oder von Daten als dem "neuen Gold" schwärmen - CIOs haben erst einmal Begriffe wie Quellen, Anwendungen, Sensoren und Projekte im Kopf. Ein Webcast der Computerwoche zeigt, wie IT-Chefs die richtige Big Data-Strategie finden.
Marc Hartz, Lead Product Manager Big Data Portfolio und SAP Data Hub bei der SAP, und sein Kollege Andreas Wesselmann, Senior Vice President Products & Innovation Big Data, zeigen die Funktion eines SAP Data Hubs auf. Motto der Experten: Raus aus dem "Lösungszoo" im Big Data-Umfeld und hin zu einer praktikablen Strategie.
Fachjournalist Detlef Korus moderiert den Webcast und will als Erstes wissen, wo aus Sicht der Kunden das Kernproblem liegt. Wesselmann antwortet: "Die Kunden haben viele Daten schon gesammelt, jetzt kommt die Frage: wie kann ich aus der Menge an Daten Mehrwert generieren?" Hartz würde gern einen Schritt zurückgehen. "Was heißt überhaupt Big Data?", fragt er und führt aus: "All die gesammelten Daten liegen in verschiedenen Silos. Hinzu kommt: Sensordaten haben andere Eigenschaften als Stammdaten oder Verkaufsdaten, diese Heterogenität der Daten ist ein Riesenproblem!"
Viele Kunden bauen Data Lakes auf
Es geht also nicht um das Sammeln von Daten allein, sondern um die richtige Kombination der Daten miteinander. Wie Wesselmann beobachtet, gehen viele Kunden das pragmatisch an: "Sie bauen Data-Lakes auf und dann kommen die Fragen: wie kann ich die Daten miteinander verknüpfen? Wie integriere ich sie in Geschäftsprozesse? Wie verknüpfe ich die verschiedenen Datentöpfe?"
Als praktisches Beispiel nennen die Experten den Umgang mit Haushaltsgeräten. "Diese Geräte sammeln Sensordaten, liefern diese aber häufig nicht die von Enterprise-Daten gewohnte Qualität", erklärt Wesselmann. "Da fehlt mal eine Postleitzahl, mal ist eine Stelle verdreht. Das heißt, man muss erst Qualitätsarbeit am Data Lake vornehmen. Dann muss man das korrelieren: ist das derselbe Kunde wie der, den ich in meinem Bericht habe?" Und eben das kann man automatisieren.
Der zweite Schritt kommt dann von der Analyseperspektive her, so Wesselmann weiter: "Der Kunde hat dies oder jenes gekauft, das ist ein guter Kunde. Und jetzt können sie die Welten kombinieren, in dem sie sich anzeigen lassen: was war denn das Verhalten des Kunden in der Bedienung der Waschmaschine in den letzten drei Wochen, warum gab es da Probleme?"
Die Daten bleiben in den verschiedenen Quellen
Sein Kollege Hartz erklärt, wie aus diesen Anwendungsfällen heraus in Zusammenarbeit mit einigen Kunden der SAP Data Hub entstanden ist. "Der Data Hub soll eine logische Schicht in der Landschaft darstellen, um Prozesse und Integrationsschritte vorzunehmen. Und zwar, ohne dass wir die Daten an einen neuen zentralen monolithischen Ort bringen. Wir lassen sie in den verschiedenen Quellen!"
Hier hakt der Moderator nach. "Wie sieht das in der Praxis aus?", fragt er. Wesselmann berichtet von Kunden, die bereits eine Infrastruktur für Data Lakes haben, und auf die SAP aufsetzt. "Das heißt, wir haben kleine Software-Artefakte, die auf dieser Landschaft deployen, plus Fähigkeiten, wie wir die Prozessierung der Daten machen", führt er aus. "Das ist sozusagen ein Bestandteil der Lösung, der nah an den bestehenden Datenlandschaften ist. Dann gibt es einen zweiten Teil der Lösung, der die Systemübergreifende Orchestrierung macht. den können sie, wo sie eine HANA Datenbanksystem haben, mit deployen und verbinden. Das ist ein relativ einfaches Einstiegsmodell basierend auf bestehenden Lösungen und Infrastrukturen."
Die Daten werden also dort verarbeitet, wo sie auch entstanden sind, und das gilt sowohl in der Cloud als auch on Premise. Denn die Kunden bewegen sich in hybriden Umgebungen. Wesselmanns Fazit: "Das Ziel war, die Hürde möglichst niedrig zu legen und einfach mal loszulegen!"