Hadoop-Distributionen und -Grundlagen im Überblick

Hadoop mischt den Big-Data-Markt auf

14.11.2014
Von 
Thomas Drilling ist als freier IT-Journalist und IT-Consultant tätig. Seine Spezialgebiete sind Linux und Open-Source-Software.

Was Big Data leistet

Zur Klassifizierung des Begriffs Big Data ist es wenig hilfreich, sich an einer der zahllosen Definitionsversuche zu orientieren, die sich schlicht um die Volumina der zu speichernden und zu analysierenden Datenmengen drehen. Weit nützlicher ist ein Blick auf das, was mit Big Data möglich ist. Relativ offensichtlich ist, dass sich mit dem Erheben, Speichern und Analysieren von Daten im ganz großen Stil wertvolle Informationen gewinnen lassen. Amazon, Google & Co. erforschen das Surf- und/oder Nutzerverhalten und nutzen die gewonnenen Erkenntnisse zur Profilbildung. Diese Informationen lassen sich unmittelbar zum Steuern von Marketing-Aktivitäten verwenden oder schlicht an andere Unternehmen vermarkten.

Allgemein ermöglichen Big-Data-Anwendungen Unternehmen der Online-Branche zu analysieren, in welcher Art und Weise Anwender vom angeboten Content Gebrauch machen. Big Data ermöglicht etwa das Einbeziehen personenbezogener Informationen. Aber nicht immer geht es vordergründig ums Geldverdienen. Auch Wissenschaft und Forschung zählen zu den Piloten in der Anwendung von Big Data. So kommt etwa bei der Kernforschungsorganisation Cern die NoSQL-Datenbank MongoDB als Ergänzung zu relationalen Datenbanken zum Einsatz, denn jeder der beiden Universal-Teilchen-Detektoren am Large Hadron Collider (LHC) generiert pro Jahr ein Datenvolumen von über 10 PB (Petabyte). Dieses setzt sich gleichermaßen aus echten, simulierten und Metadaten zusammen. Weitere typische Big-Data-Anwendungen im wissenschaftlichen Bereich finden sich in der Klimaforschung.

Zu den Pilotnutzern des Hadoop-Frameworks gehören auch Facebook oder Yahoo, die Big Data ebenfalls zum Auswerten des Nutzerverhaltens einsetzen. So erlauben zum Beispiel Click-Stream-Analysen das Verfolgen der Nutzeraktivitäten einer Website. Auch Banken und Versicherungen setzen Big-Data-Anwendungen ein, etwa bei der Finanzanalyse und Risikobewertung.

Big Data ist mittlerweile auch das Mittel der Wahl im "Internet der Dinge". So liefern etwa Mess- und Steuerungssysteme oder Near-Field-Communication-(NFC-)Bausteine, RFID-Chips und andere Sensoren eine Datenflut, deren Analyse das Optimieren von Transportwegen ermöglicht. Auch in der Verkehrsplanung und Telemetrie finden sich heute viele Anwendungsbereiche für Big Data. Verkehrsplanung findet zudem nicht nur im realen Straßenverkehr statt. So nutzen beispielsweise auch Internet-Service-Provider Big-Data-Methoden, um die die Auslastung von DSL-, Mobilfunk- oder Kabelnetzen optimal an das Nutzerverhalten anpassen zu können. Big Data ermöglicht zudem das Optimieren intelligenter Stromnetze (Smart-GRID) oder das Auswerten von Datenverkehrsmustern im Internet und kann somit in der Bekämpfung von Cyber-Attacken zum Einsatz kommen.

Was ist Big Data?

Big Data ist kein exakt definierter Begriff und kommt leider auch sehr inflationär zur Anwendung. Zu den allgemein mit Big Data assoziierten Techniken gehören zweifelsohne Apache Hadoop und Map Reduce, aber auch NoSQL-Datenbanken (CouchDB, MongoDB), InMemory-Datenbanken (memcached, Redis, Riak) oder Column-Stores. Auch die obligatorische Cloud taucht im Kontext gängiger Definition von Big auf. Eine der oft zitierten, immer noch besten Definitionen ersann Roger Magoulas von O'Reilly Media: "Big Data ist, wenn die Menge der zu verarbeitenden Daten zu einem Teil des Problems wird." Big-Data-Technologie ist demnach immer dann erforderlich, wenn die Verarbeitungsgeschwindigkeit und Menge der zu verwaltenden und zu analysierenden Daten signifikante Designfaktoren sein müssen.

Sehr populär ist auch das 3V-Prinzip von Gartner. Diese Definition von Big Data bezieht neben der Größe (Volume) auch die Faktoren Geschwindigkeit (Velocity) und Vielfalt (Variety) der zu verarbeitenden Daten in die Definition ein. Auch wenn Hadoop-Kritiker und Verfechter von Data Warehouse beziehungsweise traditionellen Datenbanktechniken bisweilen anführen, Big-Data-Anwendungen ließen sich auch auf konventionelle Weise bewerkstelligen, spricht für das verteilte Speichern und Verarbeiten von großen Datenmengen mit Hilfe des Hadoop-Frameworks der Kostenfaktor. Die Verwendbarkeit kostengünstiger Commodity-Hardware anstelle von teuren, vertikal skalierenden Spezial-Servern ist ein wesentliches Charakteristikum von Hadoop. So verwundert es kaum, dass sich Hadoop als die Big-Data-Technologie schlechthin durchgesetzt hat. Allein der Begriff Hadoop kommt heute in der Regel synonym für Big Data zum Einsatz, weil Hadoop für die meisten Big-Data-Probleme das effizienteste Werkzeug ist.