Innovative Lösungen setzen die alteingesessenen Datenbankhersteller unter Druck, Hadoop mit ihren relationalen Datenbanksystemen zu verknüpfen. Klassische relationale Datenbanksysteme stoßen im Umfeld von Big Data vielfach an ihre Grenzen, denn große Datenbanken im Multi-Terabyte-Bereich erfordern schnellen Storage, leistungsstarke Server und damit meist auch viele CPU-Lizenzen. Als Ergänzung setzen Unternehmen deshalb inzwischen immer häufiger das Open-Source-Framework Hadoop ein. Apache Hadoop besteht im Kern aus zwei Komponenten:
dem verteilten und hochverfügbaren Hadoop File System (HDFS) und
MapReduce, einer Programmbibliothek für die parallele Verarbeitung der im HDFS abgelegten Dateien.
Stärken und Schwächen von Hadoop
Hinter MapReduce verbirgt sich grundsätzlich das Programmierparadigma, Rechenaufträge stark parallelisiert auf einer Vielzahl von Rechnerknoten abzuarbeiten. MapReduce basiert dabei im Kern auf Ideen von Google, das den Algorithmus ursprünglich dazu entwickelt hat, um einen eigenen Such-Index aus den Web-Inhalten zu erstellen. Ein wesentliches Ziel des Verfahrens ist die parallele Verarbeitung von Jobs auf einer Low-Cost-Hardware-Infrastruktur bestehend aus Standard-Servern. Neben der Skalierungsfähigkeit liegt der große Vorteil eines solchen Gesamtsystems in seiner Fehlertoleranz: Ausfälle einzelner Maschinen lassen sich jederzeit tolerieren und durch die anderen Rechner auffangen.
Allerdings werden bei der Hadoop-Implementierung für jeden Prozessschritt eigene Betriebssystemprozesse gestartet, so dass das Verfahren grundsätzlich etliche Sekunden Overhead benötigt. Sofern wie bei Google oder Yahoo viele Dateien im Batch gelesen und verarbeitet werden müssen, fällt dieser Overhead nicht ins Gewicht. Interaktive Analysen auf relationalen Datenbanken sind damit aber nicht möglich. Hadoop eignet sich daher zunächst nur für die Speicherung und Vorverarbeitung von Big Data. Für Business Intelligence auf polystrukturierten Daten im HDFS ist das Framework nicht ohne weiteres einsetzbar.
Im Kern sind MapReduce-Jobs Java-Programme. Allerdings bietet Hadoop mit der Zusatzsoftware "Hive" einen relationalen Wrapper. Hive übersetzt klassische SQL-Anfragen in MapReduce-Code und führt ihn aus. Ein Zugriff auf Hadoop via Open Database Connectivity (ODBC) und Java Database Connectivity (JDBC), den herkömmlichen Verbindungswegen in eine relationale Datenbank, ist damit prinzipiell möglich. Allerdings unterstützt Hive nur SQL-Basisfunktionen und arbeitet aufgrund der Verwendung des MapReduce-Frameworks ebenso Batch-orientiert.
Auch wenn Lizenz- und Hardware-Kosten für Hadoop auf den ersten Blick gering erscheinen, gilt es für Anwender, einige weitere Kostenfaktoren zu beachten. Sowohl beim Betrieb als auch für den Zugriff auf die Daten ist Spezialwissen erforderlich, das häufig extern eingekauft werden muss. Zudem fehlen in der Apache-Basisversion für den geschäftskritischen Betrieb notwendige Überwachungs- und Sicherheitsfunktionen. Kommerzielle Distributionen von Cloudera, Hortonworks oder IBM schaffen hier zwar Abhilfe, verursachen allerdings im Gegenzug Lizenz- und Wartungsgebühren, die den Kostenvorteil schrumpfen lassen.
- Best in Big Data 2013 - Die Finalisten
Die COMPUTERWOCHE kürt zum zweiten Mal die besten Big-Data-Projekte und -Tools. Am 24. September stellen sich die Anbieter der Jury und dem Publikum. Lesen Sie auf den folgenden Seiten, welche Teilnehmer in den Ring treten. - Actuate: BIRT Analytics
Actuate geht mit „BIRT Analytics“, einem Tool für Big-Data- Analytics, Visual Data Mining und Predictive Analytics, an den Start. Das Werkzeug enthält neben den Analysefunktionen ein integriertes Workflowund Kampangen-Management. - Berliner Morgenpost: Flugrouten-Radar
Die „Berliner Morgenpost“ hat eine interaktive Datenjournalismus- Anwendung umgesetzt, die Informationen zu Flügen sowie Flugspurdaten rund um die Hauptstadt auswerten und visualisieren kann. - Clueda "News Analytics" - Lotse durch den Informationsstau im Handelsraum
Nachrichten treiben Börsen. Deshalb müssen Börsenhändler in der Lage sein, in kürzester Zeit die Tragweite einer Nachricht zu verstehen und Entscheidungen zu treffen. Die Münchner Big-Analytics-Spezialisten der Clueda AG haben gemeinsam mit ihrem Kunden, der Baader Bank AG, ein Analyse-System entwickelt, das aus großen unstrukturierten Textmengen alle relevanten Informationen und Stimmungen in Echtzeit herausfiltert und so die Handelsentscheidung erleichtert. - Delphit: Social Forecast
Delphit schickt sein Tool „Social Forecast“ ins Rennen um die diesjährigen Best-in-Big-Data- Awards. Das Werkzeug erstellt quantitative Prognosen auf Basis von Mitarbeitereinschätzungen, um Entscheidungen in Unternehmen zu unterstützen. - Empolis Competitive Intelligence hört auch die schwachen Signale
Um im Wettbewerb zu bestehen, müssen Unternehmen der Konkurrenz immer einen Schritt voraus sein. Empolis hat mit "Competitive Intelligence" ein Tool entwickelt, das mittels semantischer Technologien große Mengen an unstrukturierten Daten automatisch analysiert und dabei auch die entscheidenden "schwachen Signale" ermittelt. - HP Big Data Discovery Experience - Big Data richtig pilotieren, validieren und umsetzen
Hewlett-Packard unterstützt mit "HP Big Data Discovery Experience" Anwender dabei, einen Business Case für Big-Data-Projekte zu rechnen sowie Pilotumgebungen zügig produktiv zu setzen. - hfp Informationssysteme GmbH: hfp openAnalyzer
Der „openAnalyzer“ von hfp stellt eine Datenanalyse-Plattform dar, die App-basiert strukturierte und unstrukturierte Daten einlesen, verarbeiten und wieder ausgeben kann. - IBM Infosphere Streams filtert Datenströme in Echtzeit
Um Daten effizient analysieren und nutzen zu können, benötigen die Unternehmen heute neue Methoden und Werkzeuge. IBM hat mit "Infosphere Streams" ein Tool entwickelt, das Daten in Echtzeit analysieren kann, ohne dass diese gespeichert werden müssen. - Michulke & Ringsdorf: INTTRA
Mit „INTTRA“ wendet Michulke & Ringsdorf sein System künstlicher Intelligenzen auf den europäischen Energiemarkt an. Dort wird aufgrund der immer stärkeren Integration unstet produzierender Energieträger wie Sonne und Wind die Planung von Angebot und Nachfrage an Strom für Energiehändler, Übertragungsnetzbetreiber und Kraftwerksbetreiber immer schwieriger. - Mindbreeze: InSpire
Mindbreeze bietet „InSpire“ als vorkonfigurierte, aufeinander abgestimmte Komplettlösung aus Hardware-Appliance und Softwarepaket an – für eine schnelle und umfangreiche Suche in allen Unternehmensdatenquellen. - n3 data & software science: Immobilien bewerten
ImmobilienScout24 bietet für seine Kunden neben der Vermarktung auch ein Online-Immobilienbewertungssystem an. Ein großer Teil der Metadaten der darin enthaltenen Objekte – wie etwa Baujahr, Baustil oder Heizanlage – liegt allerdings in Form von Fließtext in unstrukturierten Freitextfeldern vor und ist damit nur schwierig zu verarbeiten. - Pentaho Business Analytics ordnet Sounds im Netz
Über 200 Millionen Musiker stellen ihre Stücke in die SoundCloud. Um diese Daten sinnvoll zu sortieren und zu ordnen benötigten die Betreiber effiziente und leistungsstarke Big-Data-Werkzeuge. Mit Pentaho Business Analytics kann SoundCloud gezielter auf Wünsche und Anforderungen seiner Nutzer eingehen. - r4apps: PerForm
r4apps verspricht Anwendern mit „PerForm“ schnelle, interaktive Analysen von massiven strukturierten und unstrukturierten Daten. - Splunk holt die Informationen aus den Maschinendaten
Um Betrieb und Geschäft möglichst effizient zu betreiben, müssen Unternehmen aus ihren Maschinendaten alle wichtigen Informationen herausholen. Splunk bietet mit "Splunk Enterprise" eine Lösung, die sich flexibel konfigurieren und anpassen lässt, um Daten zu erfassen, auszuwerten und darzustellen. - Synop Systems: Synop Analyzer
Mit dem „Synop Analyzer“ bietet Synop Systems eine modular aufgebaute Big-Data-Analysesoftware an, mit der Fachanwender und Data-Mining-Experten interaktiv Zusammenhänge und versteckte Muster entdecken sowie Prognosen erstellen können. - Tableau Software: Tableau Desktop und Server
Die hohe Kunst von Big Data heißt für die Anwender, viele unterschiedliche Daten aus verschiedenen Quellen in den Griff zu bekommen sowie in diesem komplexen Zusammenspiel auch noch den Durchblick zu behalten und zudem die richtigen Schlüsse zu ziehen. - Talend Open Studio verbindet Big-Data-Quelle und -Ziel
Mit Open Studio for Big Data bietet Talend Anwendern ein grafisches Tool, mit dessen Hilfe sich der Austausch von Big Data zwischen beliebigen Quellen und Zielen einfach konfigurieren lässt. - VMS AG: SCOOP
Die VMS AG bringt mit „SCOOP“ ein Big-Data-Werkzeug für Predictive Operational Analytics zum diesjährigen Best-in-Big- Data-Award an den Start. SCOOP steht für „Seeking Cash Opportunities in Operational Processes“.
Relationale Datenbanken und Hadoop verknüpfen
Trotz dieser Beschränkungen lassen sich echte Big-Data-Anwendungen (mehrere Terabyte und polystrukturierte Daten) ohne Hadoop kaum wirtschaftlich realisieren. Von daher ist es nicht verwunderlich, dass praktisch alle namhaften Anbieter im Datenbankmarkt das quelloffene Framework auf die eine oder andere Weise in ihr Produktportfolio einbinden. Ein Import-Export-Konnektor für den direkten Datenimport aus Hadoop kann heute bereits als Standard angesehen werden. Basis hierfür ist in der Regel die zu Hadoop gehörende Anwendung "Sqoop" oder eine entsprechende hersteller-spezifische Adaption.
Viele Datenbanksysteme bieten über sogenannte External Tables alternativ die Möglichkeit, über SQL auf Dateien zuzugreifen. Die Daten, die zum Beispiel in Form von Text-Dateien abgelegt sind, werden dabei nicht in die relationale Datenbank geladen. Stattdessen werden die Dateien als "External Tables" deklariert. Man nennt dieses Verfahren auch "Schema-on-Read", da dabei das relationale Schema lediglich als virtuelle Struktur über die Dateien gelegt wird und somit auch unterschiedliche Schemata für ein und dieselbe Text-Datei möglich sind. Diesen Mechanismus haben beispielsweise Oracle, Teradata Aster, EMC Greenplum und Microsoft implementiert.