Unsere Welt werde künftig mehr und mehr von Daten bestimmt und gesteuert, sagte Mike Olson, Mitbegründer und Chief Strategy Officer von Cloudera auf der Veranstaltung "Cloudera Sessions" in München. Der Big-Data-Experte zeichnete dabei das Bild einer schönen neuen Datenwelt, in der es möglich sein werde, alle möglichen Herausforderungen mit Hilfe von Daten zu meistern - beispielsweise die Probleme rund um die globale Erwärmung durch einen effizienteren Umgang mit Energieressourcen. Allerdings, so schränkte Olson im gleichen Atemzug ein, sei die Reise in eine solche zunehmend datenzentrierte Welt alles andere als einfach.
Neben den notwendigen Skills und dem dafür erforderlichen Know-how brauche es in erster Linie die richtige Plattform für das Daten-handling, konstatierte der Cloudera-Chefstratege und brachte an dieser Stelle Hadoop ins Spiel. Das Framework rund um das Hadoop Distributed File System (HDFS) und den von Google entwickelten MapReduce-Algorithmus komme mit den Anforderungen des Big-Data-Zeitalters gerade hinsichtlich vieler unterschiedlicher Datentypen wesentlich besser zurecht als die klassischen relationalen Datenbank-Management-Systeme (RDBMS).
Das Hadoop-Ökosystem wächst
Allerdings habe das heutige Hadoop mit dem vor Jahren von Google initiierten System nur noch wenig gemein, konstatierte Olson. Im Laufe der Jahre haben zahlreiche Hersteller das Kernsystem rund um HDFS und MapReduce um eine Vielzahl von Tools für die Datenhaltung und analytische Funktionen erweitert. Das geht inzwischen soweit, dass neue Werkzeuge Grundkomponenten von Hadoop ersetzen könnten. Der Cloudera-Manager nennt an dieser Stelle das Spark-Framework, das MapReduce ersetzen könnte. Der Vorteil von Spark: Das klassische Hadoop-System arbeitet batchorientiert. Damit stoßen Nutzer, gerade wenn es um Anforderungen wie die Analyse von Streaming-Daten und Real-time-Analytics geht, schnell an Grenzen. Olson zufolge könnte Spark diese Batch-Probleme lösen.
Zu lösen sind im Hadoop-Kosmos allerdings noch ganz andere Probleme. Viele Unternehmensverantwortliche sehen in dem Framework derzeit eher einen Experimentierkasten für Daten- und Analytics-Nerds. Die Enterprise-Tauglichkeit wird dagegen meist eher skeptisch gesehen. Diese Problematik sieht auch Cloudera-Mann Olson. Spark beispielsweise hätten Akademiker entwickelt - für Akademiker. Security-Aspekte - essenziell für einen Business-Einsatz - hätten dabei eine eher untergeordnete Rolle gespielt. "Spark ist eine gute Technik", lautet Olsons Fazit, "aber noch jung."
Cloudera startet One-Platform-Initiative
Cloudera hat sich als Ziel gesteckt, Hadoop-Technik Business-tauglich zu machen. Dazu hat der Anbieter erst Mitte September seine "One-Platform"-Initiative angekündigt. In diesem Rahmen soll Spark tiefer im Hadoop-Ökosystem verankert werden. Außerdem wollen die Cloudera-Verantwortlichen die Entwicklung von Spark für Unternehmensanwendungen beschleunigen. Cloudera bezeichnet sich selbst als Vorreiter in der Spark-Community. Man beschäftige fünfmal so viele Spark-Techniker als die anderen Hadoop-Distributoren. Außerdem habe Cloudera eigenen Angaben zufolge bereits mehr als 370 Patches und über 43.000 Zeilen Code zu Spark beigetragen. "Spark ist auf einem guten Weg, MapReduce zu ersetzen", sagte Olson. "Es gibt aber auch noch viel zu tun." Als wichtigste Spark-Baustellen im Rahmen der One-Platform-Initiative sehen die Cloudera-Entwickler die Bereiche Sicherheit, Skalierbarkeit, Verwaltung und Streaming.
Im Zuge von One Platform verfolgt Cloudera noch eine Reihe weiterer Projekte, um die Hadoop-Plattform interessanter für Enterprise-Anwender zu machen. Beispielsweise hat der Anbieter erst kürzlich "RecordService" vorgestellt. Dabei handelt es sich um einen neuen Security-Layer in Hadoop, der über die gesamte Plattform hinweg zentral rollenbasierte Zugriffsrichtlinien umsetzen soll - über verschiedene Zugangs-Engines hinweg wie Apache Spark, Impala und Apache Solr.
Bis dato gestaltete es sich schwierig, über diese unterschiedlichen Zugangswege konsistent Regeln umzusetzen, ohne den Zugriff auf die Daten selbst einzuschränken. RecordService soll zudem eine dynamische Datenmaskierung erlauben. Damit könne eine größere Zahl von Anwendern Daten nutzen und analysieren - ohne eine spezielle Zugriffserlaubnis. "Um die nächste Generation von Analytik für eine größere Anzahl von Anwendern und Zugangswegen zu gewährleisten, muss Sicherheit auf der gesamten Plattform universal werden", forderte Eddie Garcia, Chief Security Architekt bei Cloudera.
Neuer Hadoop-Speicher Kudu
Darüber hinaus hat Cloudera mit "Kudu" eine neue spaltenbasierte Speichertechnik angekündigt - als Ergänzung von HDFS und Apache Hbase. Kudu stellt Cloudera-Angaben zufolge ein natives Hadoop-Speichermodul dar, welches sowohl wahlfreien Zugriff mit niedriger Latenzzeit als auch Analysen mit hohem Durchsatz unterstützt. Das vereinfache Echtzeit-Anwendungsfälle in Hadoop-Architekturen.
Bis dato waren Entwickler gezwungen, sich zwischen schneller Analyse mit HDFS oder effizienten Updates mit HBase zu entscheiden. Kudu ergänze nun die Kapazitäten von HDFS und HBase, indem es gleichzeitiges schnelles Einfügen und Aktualisieren sowie effiziente spaltenweise Scans bietet. Olson bezeichnete Kudu als erste große Innovation auf dem Storage-Layer von Hadoop. Die Arbeiten daran hätten bereits vor drei Jahren begonnen.
RecordService und Kudu stehen derzeit im Beta-Status zur Verfügung. Den Cloudera-Verantwortlichen zufolge sind diese Entwicklungen ein Beleg dafür, wie dynamisch sich Hadoop weiterentwickelt, vor allem auch im Rahmen der Apache-Community. Diese Entwicklung werde in den kommenden Jahren unvermindert weitergehen, die Plattform damit kontinuierlich ausgebaut. Olsons aktuelle Bilanz: "Hadoop ist viel mehr als Hadoop."