Siegeszug von Hadoop
Das Bedürfnis, große Datenmengen performant speichern und verarbeiten zu können, öffnete den Markt für spezielle Dateisysteme wie etwa das Hadoop-eigene HDFS, aber vor allem für zahlreiche NoSQL-(Not-only-SQL-)Datenbanken wie Cassandra, CouchDB oder MongoDB, die größtenteils für spezifische Einsatzzwecke optimiert verfügbar sind. Die Aufgabe besteht nun darin, einen Kompromiss zwischen den spezialisierten Big-Data-Datenbanken und den nach wie vor wichtigen analytischen Datenbanken (zum Beispiel EMC Greenplum, Exasol, IBM DB2 und Netezza, Oracle Exadata, Teradata) zu schaffen.
Gründe hierfür sind die schwer umzusetzende Konsistenz von Daten oder typische relationale Operationen wie die Zusammenführung von Tabellen (Join), Gruppierung oder auch Selektion. Am Markt zeigt sich dies zum einem durch Fragen nach bewährten Integrationsstrategien, zum anderen auch schon durch erste Hybridtechniken wie Aster Data von Teradata, EMC Greenplum oder das Open-Source-Projekt HIVE. Neben NoSQL und Hybriden sind auch Spezialisten auf dem Markt, die mit Big-Data-Lösungen oder Appliances aufwarten. Selten steht dahinter eine eigene Technik, vielmehr handelt es sich um Hadoop-Distributionen von Anbietern wie Cloudera oder den großen Akteuren wie IBM und Microsoft, ergänzt um weitere zusätzliche, auch eigene Werkzeuge und Techniken.
Die Analytik poly-strukturierter Daten wird einerseits stark getrieben durch die Modellbildung auf Basis von Detaildaten. Hier finden die sehr umfangreiche Open-Source-Bibliothek R, aber auch andere Data-Mining-Werkzeuge großen Anklang. Andererseits existieren für die Big-Data-Welt auf der Auswertungsseite auch die klassischen BI-Anforderungen nach Dashboards und Berichten oder auch einfacheren Analyseumgebungen und die interaktive Datenexploration und Visualisierung für Fachanwender.
Hier finden sich zahlreiche Spezialisten, die Lösungen für spezielle Anwendungsgebiete wie die Analyse von Weblogs, E-Commerce-Daten, Blogs, Twitter und Social-Media-Netzen anbieten. Ein Beispiel ist Splunk, das sich im Sinne der Operational BI auf das Aufbereiten von Logdaten von IT-Systemen konzentriert. Daneben kommen neue BI-Werkzeuge wie Datameer in den Markt, die den Fachanwender beim Integrieren, Speichern und Auswerten von Daten in Hadoop unterstützen. Ferner fangen auch klassische BI-Anbieter an, zum Beispiel über HIVE einen ergänzenden Zugriff auf neue Datenquellen zu schaffen. Die kleinen und wendigen Anbieter wie Tableau, Pentaho oder Jaspersoft sind die ersten im Markt. Die großen Anbieter werden höchstwahrscheinlich bald folgen - wie immer teils durch Eigenentwicklung und teils durch Zukauf.