Daten-Management

Big Data - BI der nächsten Generation

03.12.2012
Von  und Timm Grosser
Gründer und Geschäftsführer des Business Application Research Center (BARC)

Wichtig ist der MapReduce-Ansatz

Wesentlicher Kern von Big-Data-Techniken ist der programmiergetriebene, datenzentrische Kern auf Basis des MapReduce-Ansatzes, dem Google zu Popularität verholfen hat. Die Idee dahinter ist simpel: Zerlege die Aufgabe in ihre kleinsten Teile, verteile diese zur massiv-parallelen Verarbeitung auf möglichst viele Rechner (map) und führe das Ergebnis wieder zusammen (reduce). Damit wird vor allem die Verarbeitung poly-strukturierter Daten ermöglicht, mit denen klassisch relationale Datenbanken, aber auch analytische Datenbanken in Data-Warehouse-Appliances oder massiv-parallele relationale Datenbanken ihre Probleme haben. Im Grunde genommen unterscheiden sich die Aufgaben aus Datenintegration und -speicherung, Analyse, Zugriff auf die Daten sowie Auswertung und Analyse nicht von denen einer klassischen BI-Architektur.

Der grundlegende Unterschied zur klassischen BI ist die datenzentrische Ausrichtung auf Basis des MapReduce-Programmier-Frameworks, das eine hoch parallele Verarbeitung poly-strukturierter Daten ermöglicht.

Der Markt für Big-Data-Software ist allerdings so vielschichtig wie die zu lösenden Aufgaben. Analog zu BI-, Data-Warehouse- oder Datenintegrations-Systemen gibt es auch im Big-Data-Bereich eine Vielzahl an alten und neuen Angeboten, die ähnliche Aufgaben wie die klassische BI zu lösen versprechen.

Herausforderungen bestehen vor allem in der Integration von Big Data mit der klassischen BI, für die sich unterschiedliche architektonische und technische Ansätze anbieten. Aber auch in der Wahl der richtigen Software liegt ein Treiber, um die erhofften Vorteile in Ergebnis, Flexibilität und Kosten zu erhalten. Der BI-Markt wird nicht gerade überschaubarer, ganz im Gegenteil. Viele neue Anbieter oder Open-Source-Projekte positionieren sich im Markt für Big Data, die Grenzen zu traditioneller BI verschwimmen zusehends.

Datenintegration mit Sqoop & Co.

Auf der Ebene der Datenintegration steht die Geschwindigkeit und die Integration der heterogenen Datenquellen und -typen im Vordergrund. Zu beobachten ist die Integration von Big-Data-Funktionen in die etablierten Datenintegrations-Werkzeuge wie beispielsweise Informatica, Pentaho oder Pervasive. Big-Data-Funktionen umfassen hier Adapter in Hadoop-Dateisystemen wie dem Hadoop File System (HDFS) oder HIVE sowie auch die Integration mit dem MapReduce-Framework. Alternativen zur Einbindung von poly-strukturierten Datenquellen bieten Spezialisten wie Hadoop, Chukwa, Flume oder Sqoop.