Täglich rund 500 Terabyte an neuen Daten und 2,5 Milliarden Objekte, die gespeichert werden wollen - was jedem Datenbankadministrator den Angstschweiß auf die Stirn treiben würde, ist für die Verantwortlichen von Facebook Business as usual. Mit seinem Datenaufkommen stellt das weltgrößte Online-Netzwerk ein Paradebeispiel für den zuletzt viel strapazierten IT-Hype-Begriff Big Data dar. Doch dabei gehe es nicht nur um die Menge der Daten, sondern vor allem darum, Erkenntnisse zu gewinnen, beschreibt Jay Parikh, Vice President für den Bereich Infrastructure Engineering bei Facebook, sein Verständnis von Big Data. "Wer nur sammelt, hat einen großen Haufen Daten, aber kein Big Data."
- Die vier Herausforderungen von Big Data
Das Thema Big Data befasst sich eigentlich mit vier Herausforderungen: - Die schiere Menge:
Das für Unternehmen relevante Datenvolumen steigt weiter drastisch an. Heute schon werden Datenmengen im Terabyte-Bereich analysiert, in Kürze dürften Petabyte und Exabyte auf der Agenda stehen. - Der Zeitdruck:
Analysen der gewaltigen Datenberge sollten idealerweise in Echtzeit zur Verfügung stehen. Denn die Unternehmen stehen vor der Aufgabe, dass sie zeitnah auf Marktänderungen reagieren müssen. - Die mangelnde Struktur:
Die Analysen müssen immer häufig Datenquellen mit kaum strukturierten Beständen berücksichtigen. Das heißt: die Komplexität der Datenanalysen steigt. Neben den bekannten Datenquellen, etwa den vorhandenen ERP-Systemen, kommen neue hinzu. Dazu zählen Daten aus M-to-M-Applikationen, also beispielsweise Sensordaten, Daten aus On-Board-Systemen, RFID-Daten aus der Logistikkette, aber auch Daten aus Weblogs und Social-Media-Plattformen etc. - Die wachsende Anwenderzahl:
Die potenziellen internen und externen User werden immer mehr. Sie kommen beispielsweise über Self-Service-Portale, die im Web zugänglich sind.
Sicher lassen sich diese Datendimensionen nicht mit den Verhältnissen in typischen Industrie- oder Handelsunternehmen vergleichen. Schlussendlich sei es jedoch auch nicht maßgeblich, ob im Data Warehouse 100 Petabyte Daten liegen, stellt der Facebook-Experte fest. Die Anforderungen, wie mit den Daten umzugehen sei, änderten sich. Vor allem die Geschwindigkeit, in die Daten verdaut werden müssten, erhöhe sich ständig, sagt Parikh. "Und die Welt wird immer hungriger nach immer mehr Daten."
Der Druck kommt aus der BI-Ecke
Dass die Herausforderungen in Sachen Daten-Handling steigen, bestätigt Christian Trieb, Datenbankadministrator bei der Paragon Data GmbH und Leiter der Datenbank-Community bei der Deutschen Oracle Anwendergruppe (Doag). "Der Druck kommt vor allem aus der Business-Intelligence-Ecke", beschreibt der Experte die Situation. Das Management wolle in immer kürzeren Abständen immer mehr wissen. Um die Statistiken und Reports zu liefern, gelte es heute, die unterschiedlichsten Arten von Daten auswertbar zu machen. Damit würden aber auch die Volumina in den Datenbanken stark anwachsen.
Um 42 Prozent wird das von den Unternehmen zu verarbeitende Datenvolumen bis 2014 wachsen, hat eine Umfrage der Experton Group im Frühjahr dieses Jahres ergeben. Aus Sicht der 100 befragten IT-Entscheider treibt auch die zunehmende Nutzung von Cloud Computing das Datenwachstum an. Das mobile Internet, mehr Collaboration- und Communication-Werkzeuge in den Firmen sowie die stärkere Digitalisierung von Geschäftsprozessen seien weitere Datenmultiplikatoren.
Das Datenwachstum hat Folgen. Drei Viertel der befragten Entscheider sehen Handlungsbedarf auf Seiten ihrer Storage- und Datenbanksysteme. Auswirkungen auf die Analyse- und Reporting-Systeme sieht derzeit dagegen erst die Hälfte der Manager. Daher ziehen die Experton-Analysten folgendes Fazit: "Die Herausforderungen des Datenwachstums müssen erst auf der Infrastrukturseite gemeistert werden, um danach im Rahmen der Analyse- und Reporting-Prozesse von Nutzen sein zu können."
Die Anbieter der klassischen relationalen Datenbanksysteme sind zuversichtlich, die Herausforderungen, die im Zuge von Big Data auf sie zukommen, meistern zu können. "Die aktuellen Diskussionen rund um In-Memory, NoSQL und Hadoop tun dem Datenbankthema gut", stellt Oracles Vice President Günther Stürner fest. Noch vor wenigen Jahren seien sämtliche Aspekte wie Datenstrukturen oder Datenmodellierung als todlangweilig abgestempelt worden. "Jetzt ist es auf einmal der Top-Hype."
Das Ende der relationalen Systeme sieht Stürner aber nicht. Im Gegenteil: "Als vor ein paar Jahren die objektorientierten Datenbanken aufkamen, hat man auch schon vom Ende der klassischen Systeme gesprochen." Innerhalb kurzer Zeit hätten jedoch die relationalen Datenbanken die objekt-orientierte Technik assimiliert. "Das wird auch mit den Techniken geschehen, über die heute gesprochen wird", ist der Oracle-Manager überzeugt.
Big Data - all inclusive
Darüber hinaus würden die bestehenden Datenbanksysteme bereits Big-Data-Lösungen bieten. "Die Techniken sind teilweise gar nicht so neu", stellt Stürner fest. "Es wird nur manchmal so dargestellt, als seien sie das Nonplusultra der Datenbankktechnik." Als Beispiel führt er die Funktion "Parallel Query" an, die zunächst optional, seit einigen Releases jedoch als Grundfunktion in der Oracle-Datenbank integriert sei. Anwender könnten damit ähnlich wie mit Hadoop und dem MapReduce-Algorithmus Anfragen auf große Datenmengen stark parallelisiert und damit schneller abarbeiten. Zudem ließen sich mit Hilfe einer speziellen Datenbank-Engine unstrukturierte Daten wie Texte auswertbar machen. "Die eigentliche Herausforderung liegt darin, den Anwendern zu erklären, was im Grunde schon alles in der Datenbank steckt."
"Ich glaube nicht, dass den relationalen Datenbanken das letzte Stündlein geschlagen hat", meint auch Boris Bialek, Program Director für Information Management bei IBM. Allerdings sei es notwendig, die klassischen Konzepte kritisch zu hinterfragen. Einfach sämtliche Daten in Tabellen zu stopfen und via SQL die althergebrachten Vergleiche und Relationen zu ziehen, funktioniere nicht mehr: "Hier stößt das relationale Modell an seine Grenzen."
Techniken fließen zusammen
Bialek zufolge werden bestehende und neue Techniken zusammenfließen und in neuen Datenbanksystemen kulminieren. Wichtig sei dabei, die Komplexität für Entwickler und Anwender herauszunehmen. Entwickler seien daran interessiert, ihre Applikatio-nen möglichst zügig schreiben zu können. Dabei wollten sie sich bei der Datenbankanbindung nicht mit speziellen Abfragesprachen wie XQuery oder der Frage herumschlagen, ob da eine klassische Datenbank, ein Hadoop-Cluster oder ein NoSQL-System im Backend arbeitet. "Letzten Endes haben die Programmiersprache und das Interface nichts damit zu tun, wie im Hintergrund die Daten strukturiert sind."
Beleg dafür sei, dass heute alle davon redeten, Hadoop mit SQL zu programmieren. Der Grund dafür sei ganz einfach: "Da draußen gibt es Millionen Programmierer, die sich mit SQL auskennen." Daher werden sich beide Seiten annähern, ist sich der IBM-Manager sicher. Auch Startup-Unternehmen, die heute eine Speziallösung entwickeln, erkennen den Trend zu integrierten Gesamtlösungen. Allerdings werde diese Konvergenz ihre Zeit brauchen: "Das passiert nicht in den nächsten zwölf Monaten." In fünf Jahren jedoch werde man das, was man heute an Algorithmen in einem Hadoop-System hat, in einer Art integriertem Datenbanksystem wiederfinden: "Da bin ich mir sicher."
Veränderungen brauchen Zeit
Es werde eine relativ lange Übergangsphase geben, meint auch Jörg Besier, verantwortlich für den Bereich Analytics bei Accenture in Deutschland. Doch auch wenn es aus seiner Sicht unwahrscheinlich sei, dass die klassischen Datenbanken komplett abgelöst würden, sieht der Experte für die Zukunft ein hohes Veränderungspotenzial. Schon vor einigen Jahren, als das Thema Business Intelligence erstmals aufkam, hatte man sich Gedanken über Alternativen zum relationalen Modell gemacht. Damals seien die Techniken noch nicht ausgereift und die Hardwarebasis noch nicht leis-tungsstark genug gewesen.
Das habe sich inzwischen geändert, stellt Besier fest. Mit Technologien wie In-Memory-Computing, Massive Parallel Processing (MPP) wie Hadoop und NoSQL lasse sich gerade im Hinblick auf Analysen und Auswertungen künftig vieles anders machen. Allerdings stehe die Branche hier erst am Anfang. Das gelte zum einen für die Technik: "Momentan sieht es nicht so aus, als ob ein Hersteller den heiligen Gral gefunden hätte, mit dem sich alle Probleme lösen ließen." Nach Ansicht des Accenture-Experten gilt es aber vor allem für die Prozesse auf der Business-Seite. Momentan fehlten hier vielfach noch die Ideen.
Fast jedes zweite deutsche Unternehmen habe keine Strategie, die eigenen Daten auszuwerten und für seine Geschäftsziele zu verwenden, ergab eine Umfrage von Accenture unter 168 Führungskräften von Großunternehmen. In neun von zehn Firmen mangele es an Plänen, wie man mit BI-Lösungen die Fachabteilungen besser unterstützen könne. Das größte Manko an dieser Stelle ist ein altbekanntes: der fehlende Austausch zwischen IT- und Fachbereichen. Fachbereiche würden zu wenig über neue Analysemöglichkeiten informiert. Drei Viertel der Fachabteilungen wären gerne ganz oder zumindest teilweise unabhängig von der IT, weil sie sich in Sachen BI nur unzureichend unterstützt fühlten, und in über der Hälfte der Firmen würden BI-Initiativen in den Fachbereichen ohne Wissen der IT-Abteilungen umgesetzt.
Daten intelligent jonglieren
Die Accenture-Experten plädieren deshalb für zentrale Competence-Center, um Prozesse, Organisation und Technik für die Integration unterschiedlicher Daten bereitzustellen. Nicht zuletzt, um auch die Fachexpertise im Bereich Statistik und Data Mining themenübergreifend effektiv einsetzen zu können.
Die IT muss wissen, was das Business benötigt, und entsprechend die passende Infrastruktur für das Handling von Daten und Datenquellen liefern, sagt Donald Feinberg, Vice President und BI-Experte von Gartner. Das Business müsse seine Möglichkeiten kennen, dürfe sich aber nicht damit herumschlagen müssen, wo welche Daten liegen. Die Herausforderung für die IT werde darin liegen, möglichst intelligent mit den Daten zwischen den Quellen und Ablageorten zu jonglieren. "Alles ins Data Warehouse zu packen, kann nicht die Lösung sein."
Feinberg zufolge werden die Unternehmen verschiedene Werkzeuge einsetzen. Größere Unternehmen nutzten bereits heute im Datenbank- und Analytics-Umfeld 20 bis 30 Tools. Auch wenn es aufwendig sei, diese heterogen zusammengesetzten Architekturen zu unterstützen - "wenn der Business-Nutzen dafür spricht, führt kein Weg daran vorbei". Die Kunst bestehe darin, die richtigen Werkzeuge für die richtigen Daten herauszusuchen: "Manche Tools sind reif für den Business-Einsatz, andere noch nicht." Beispielweise sei Hadoop/Map- Reduce als Funktion durchaus ausgereift, das dahinter liegende File-System aber sicher nicht so robust wie das der Datenbanken von IBM und Oracle. Zwar gebe es gewisse Sicherheitsmechanismen, "genauso gut ist es aber möglich, mit so einem Werkzeug sämtliche Daten zu verlieren". Unternehmen müssten sich also genau überlegen, was sie hier einspielten.
Doag-Mitglied Trieb sieht derweil noch keine Notwendigkeit, die bekannten Datenbankarchitekturen grundlegend zu verändern: "Mit den zur Verfügung stehenden Mitteln kommt man schon ein ganzes Stück weiter." Er verweist auf leistungsstarke Hardware und auf Zusatzoptionen der Datenbankhersteller. Allerdings verschließt auch er die Augen nicht vor den neuen Entwicklungen. Man schaue sich diese Dinge an, probiere das eine oder andere aus und prüfe, ob es weiterhilft. "Die wirkliche Business-Relevanz fehlt aber meist noch", lautet sein Fazit. Außerdem könne man nicht alle paar Jahre die gesamte Datenbankarchitektur über den Haufen werfen. Schließlich hätten die meisten viel Geld in diese Systeme investiert. "Man kann nicht ständig jedem Trend hinterherlaufen", warnt der Experte. "Man muss die Entwicklungen im Auge behalten, aber auch eine Datenbanklinie fahren, die mittel- und langfristig ausgelegt ist."
Tuning kostet Geld
Meist sehe man sich zuerst beim eigenen Anbieter nach zusätzlichen Funktionen und Werkzeugen um. Erfahrungen hätten gezeigt, dass dabei der Integrationsaufwand geringer ausfällt. Trieb führt als Beispiel Oracles In-Memory-Datenbank TimesTen an, mit deren Hilfe sich die Schwachstelle I/O in klassischen Systemen beheben lasse. Eines müsse den Anwenderunternehmen aber klar sein, warnt Trieb: "Das Tuning hat seinen Preis. Wer mehr Leistung aus seiner Datenbank herausholen möchte, muss Geld in die Hand nehmen und investieren."