Auf der einen Seite das Versprechen, aus Daten neue Business-Modellle zu kreieren, auf der anderen Seite Data Lakes, die schwer zu managen sind - dieses Dilemma löst Datenvirtualisierung. Ein Webcast der Computerwoche zeigt, wie das funktioniert. Thomas Niewel, Technical Sales Director DACH bei Denodo Technologies, und sein Kollege Daniel Rapp, Marketing Manager Central Europe, skizzieren die Vorteile von Logical Data Lakes (LDL). "Data Lakes und speziell solche in der Cloud sind zurzeit eines der heißesten Themen bei den Kunden", beobachtet Rapp, "sie werden aber auch kontrovers diskutiert."
Fachjournalist Oliver Janzen moderiert den Webcast und will zunächst einmal wissen, worin IT-Chefs in Sachen Data-Management die größten Herausforderungen sehen. Rapp nennt drei Faktoren: "Erstens ist das Business heute der stärkste Treiber bei Datenprojekten. Die Business-Entscheider wollen die Daten schnell - und das bei immer komplexeren Anforderungen." Einfach ein Kuchendiagramm zu präsentieren, das reicht nicht mehr aus. Zweitens, so Rapp weiter, müssen CIOs immer mehr Regularien beachten, die sich teilweise widersprechen. Drittens schließlich besteht nach wie vor der Druck, Kosten zu senken.
Wie stellt sich das für die Zuschauer des Webcasts dar? Eine spontane Umfrage zeigt: sie haben vor allem mit heterogenen Landschaften im Bereich Daten (90 Prozent der Nennungen) zu kämpfen. Weitere 59 Prozent bestätigen Rapps Einschätzung von den Anforderungen aus dem Business. 41 Prozent nennen außerdem das Datenwachstum als Herausforderung und jeweils 28 Prozent Regularien und Kostendruck.
Hadoop-Plattform mit Distributed File-System als Basis
"Von diesen Herausforderungen lösen Data Lakes vor allem die Kostenfrage", kommentiert der Denodo-Manager. "Aber auf der anderen Seite sind sie aufwendig in Implementierung und Nutzung." Die Cloud jedoch macht Data Lakes einer breiteren Nutzung zugänglich. Die technologische Basis dafür bietet eine Hadoop-Plattform mit einem Distributed File-System, ergänzt Niewel anhand eines AWS Data Lake-Beispiels. Darauf aufbauend braucht das Unternehmen eine Executive Engine und als dritten Building Block die drei Zonen Raw Zone, Trusted Zone Refined Zone.
Stichwort Hadoop: "Zunächst waren es die Data Scientisten, die Hadoop als ihren Supercomputer betrachteten", fährt Rapp fort. Mittlerweile demokratisiert sich der Zugriff, was aber wiederum mit höherem Aufwand und mehr Regularien einher geht. Für IT-Chefs stellt sich die Frage, inwieweit Data Lakes den heutigen Anforderungen gerecht werden. Niewel bezweifelt, ob es realistisch ist, alle Firmendaten in einen Data Lake fließen zu lassen. "Hat man Prozesse dafür? Das ist komplex und teuer", sagt er. Eine Alternative bieten Use Case-bezogene Data Lakes. "Aber da ist auch schnell mal was inkonsistent", so die Erfahrung Niewels.
Daher plädieren beide Experten für das logische Data Warehouse. Es ermöglicht eine umfassende Analyse aller Unternehmensdaten. "Die Denodo Plattform erlaubt den Zugriff auf alle Quellen", betont Niewel: "Man kann verschiedenste Sourcen wie EDW, Application Databases, SaaS Anwendungen und weitere einfach andocken." Dabei erkennt die Datenvirtualisierungsplattform, mit welcher Quelle sie redet, und, welche Funktionen diese Quelle hat. Ein weiterer Vorteil liegt im Self-Service, der den Nutzern durch einen Single Delivery Layer möglich ist. "Das steigert auch die Sicherheit, denn man kann an zentraler Stelle die Governance-Regeln definieren", schließt Niewel.
Die Daten dort verarbeiten, wo sie auch liegen
Wie eine weitere Umfrage unter den Webcast-Zuschauern zeigt, setzt mehr als jeder Vierte (26 Prozent) Datenvirtualisierung bereits ein. Weitere 23 Prozent planen, nachzuziehen. Denodo selbst hat eine "Global Cloud Survey 2020" durchgeführt, die verdeutlicht, wie die Unternehmen in Bewegung sind. Cloud, On prem, hybrid, Multi Cloud - derzeit bestehen viele hybride Szenarien. "Man wird mit dieser Vielzahl umgehen müssen", kommentiert Rapp.
In puncto logische Multicloud-Architektur zitiert Niewel ein Paradigma von Denodo: "Die Daten sollen dort verarbeitet werden, wo sie auch liegen." Multicloud-Umgebungen kennt er bereits von Unternehmen mit bis zu 10.000 Mitarbeitern. "Den Entscheidern geht es zum Beispiel auch um Herstellerunabhängigkeit", sagt er.
Doch das Mikrofon gehört auch dem Publikum und so fragt ein Zuschauer nach dem Thema Data Lakes und Datenschutzgrundverordnung (DSGVO). Niewel antwortet: "Bei der Datenvirtualisierung werden die Daten nicht bewegt und zwischengespeichert! Es ist möglich, direkt auf die Daten zuzugreifen."