Wer über Nacht seine BI-Systeme anwirft, um die täglich einströmenden Datenmengen im Tera- und Petabyte-Bereich zu analysieren, hat schon verloren. Das ist - sinngemäß - die Kernaussage im Executive Summary der Benchmark "Hadoop and Information Management" der US-amerikanischen Marktforscher Ventana Research.
Heute gehe es darum, riesige Datenmengen rasend schnell zu verarbeiten, also zu erfassen, zu speichern, zu analysieren und für unternehmenskritische Entscheidungen heranzuziehen.
Die aus dem Open Source-Bereich stammende Parallelverarbeitung Hadoop ist prinzipiell in der Lage, mit solch riesigen Datenmengen schnell umzugehen und erfüllt damit die Bedürfnisse vieler Unternehmen nach genau dieser Technik. Allerdings, konstatiert der Ventana-Report, ist diese Technik noch viel zu unbekannt, um schon flächendeckend produktiv arbeiten zu können. Das Marktforschungsunternehmen aus den USA hat die Benchmark-Studie mit dem Ziel verfasst, einen Überblick über die Verwendung, die Reife sowie über Trends und Best Practices von Hadoop in der richtigen Welt zu vermitteln.
Das ist Hadoop |
Hadoop, heißt es bei Wikipedia, "ist ein freies, in Java geschriebenes Framework für skalierbare, verteilt arbeitende Software. Es basiert auf dem MapReduce-Algorithmus von Google sowie auf Vorschlägen des Google-Dateisystems "und ermöglicht es, intensive Rechenprozesse mit großen Datenmengen auf Computerclustern durchzuführen." (alle Zitate: Wikipedia) Hadoop besteht aus folgenden Bestandteilen: Das Hadoop Distributed File System (HDFS) hilft beim Speichern großer Datenmengen durch das Verteilen der Daten auf mehrere Blöcke. Wikipedia: "HDFS unterstützt dabei Dateisysteme mit mehreren 100 Mio. Dateien." Die Erweiterung Hive ergänzt Hadoop um die Abfragesprache QL, die auf SQL basiert und damit "die Verwendung einer SQL-artigen Syntax" erlaubt. Hive ist eine Entwicklung von Facebook, seit 2008 aber als Open Source erhältlich. Pig kann zur Analyse sehr großer Datenmengen eingesetzt werden. Dafür beinhaltet Pig sowohl eine Programmiersprache, die High Level-Abfragen auf Datenbestände ermöglicht, als auch einen Compiler zur Ausführung." Weitere Bestandteile: HBase, eine skalierbare Datenbank für sehr große Datenmengen innerhalb eines Hadoop-Clusters. HBase eignet sich laut Wikipedia für Daten, die selten verändert, aber häufig ergänzt werden. Chukwa für die Echtzeitüberwachung großer, verteilter Systeme. ZooKeeper wird für die Konfiguration der Systeme eingesetzt. Zu den Anwendern von Hadoop gehören namhafte Unternehmen wie Facebook, Amazin, eBay und Yahoo, die das System nutzen, um unstrukturierte Daten in Petabyte-Größe zu speichern und zu analysieren. Mit normalen relationalen Datenbanksystemen, heißt es, seien solche Aktionen gar nicht möglich gewesen. |
Dabei schneidet Hadoop durchgehend gut ab: In einer Evaluation von 13 Anwendungsgebieten ist Hadoop andere Technologien überlegen, so Ventana Research. Wer Hadoop verwendet, entwickelt leichter neue Produkte und Services, spart eher Kosten, kann schnellere Analysen durchführen, nutzt IT-Ressourcen effizienter und verkürzt die Zeit für das Sammeln und Verarbeiten von Daten dramatisch.