Big Data Analytics und NOSQL

Mehr Business Intelligence für alle

07.07.2015
Von 
Stefan Müller kommentiert Themen und Trends zu Datenintegration, Datenmanagement und Analytics. Er leitet den Bereich Big Data Analytics bei it-novum und betreut Datenprojekte bei Bundesbehörden und Unternehmen. Daneben ist er ein gefragter Autor und Referent auf Fachveranstaltungen und Workshops.
Mit nichtrelationalen Datenbanken und Big Data-Tools lässt sich eine leistungsstarke Plattform für Big Data Analytics aufbauen. Wie das funktioniert, zeigen die Open Source-Lösungen MongoDB und Pentaho.

Der Markt für Business Intelligence (BI) und Big Data-Software entwickelt sich rasant. Auslöser ist die zunehmende Digitalisierung der Wirtschaft, die einen unaufhörlich sprudelnden Datenquell hervorbringt. Datengetriebene Unternehmen entscheiden sich darum immer öfter für integrierte Analytics-Lösungen, wenn es darum geht, unstrukturierte Informationsfluten gezielt in die eigenen Wissensmühlen zu lenken. Die kostengünstige Speicherung und erhöhte Verfügbarkeit vielfältigster Daten ermöglicht Unternehmen, potenzielle Chancen und Risiken frühzeitig wahrzunehmen und ihre strategische Geschäftsentwicklung zu optimieren.

Die Kunst von Business Intelligence ist es, möglichst viele Daten für möglichst viele Anwender in einer mögilchst individuell nutzbaren Form zur Verfügung zu stellen. Und das natürlich am besten in Echtzeit.
Die Kunst von Business Intelligence ist es, möglichst viele Daten für möglichst viele Anwender in einer mögilchst individuell nutzbaren Form zur Verfügung zu stellen. Und das natürlich am besten in Echtzeit.
Foto: pixel_dreams - Fotolia.com

Wer sind meine Anwender, was ihre Anforderungen?

Doch vor der Wahl einer geeigneten BI-Suite sollten Unternehmen ihre Business Cases kennen und überlegen, welchem Anwender welche Informationen bereitgestellt werden müssen. Sind meine Geschäftsdaten hochgradig organisiert, folgen meine Analysen wiederkehrenden Mustern? Oder stehe ich vor der Aufgabe, datenintensive Web-Applikationen auf einer gemeinsamen Plattform zu konsolidieren?

Angesichts einer steigenden Zahl an Power Usern und dem Trend zum Self Service BI heißt die Frage auch: Sollen bestehende Geschäftsprozesse unterstützt oder ganz neu entwickelt werden? Neben den proprietären Angeboten namhafter Hersteller existiert eine ganze Reihe leistungsfähiger Open Source BI-Suiten, die sich flexibel an die Bedürfnisse verschiedener Anwendergruppen anpassen lassen.

Big Data braucht Performance

Grundlegende Voraussetzung bei der Analyse großer Datenmengen sind schnelle Antwortzeiten des Datenbankmanagementsystems. Relationale Datenbanksysteme speichern Daten nach einem stark strukturierten Schema ab und lassen sich vergleichsweise schwierig skalieren. NoSQL-Datenbanken hingegen sind auf ein dynamisches Schema ausgelegt, dass sich unterschiedlichen Datenformaten flexibel anpasst.

So verzichtet MongoDB, eine der führenden NoSQL-Datenbanken, auf komplexe Relationstabellen und zeitraubende Join-Operationen. Stattdessen werden Daten in Form von Dokumenten im BSON-Format (Binary JSON) abgespeichert. Heterogene Dokumente werden unabhängig von Herkunft und Struktur in sogenannten Collections zusammengefasst. Durch die Java-nahe Notation eignet sich MongoDB insbesondere für Web-Anwendungen, da die Daten ohne Transformation direkt aus der Datenbank migriert werden können. Nur so lassen sich Datensilos vermeiden.

Bei Anwendungen mit einem hohen Datenvolumen und Datendurchsatz spielen NoSQL-Datenbanken ihre volle Stärke aus. MongoDB kann durch Sharding auf mehrere virtuelle Maschinen und Memory-Mapping theoretisch unbegrenzt skalieren. Durch Verarbeitungsgeschwindigkeiten, die mit einem In-Memory-System vergleichbar sind, ermöglicht die nicht-relationale Datenbank die Auswertung von Daten in Echtzeit. Dadurch ist es vergleichsweise einfach möglich, inhaltsreiche Anwendungen zum Beispiel mit personalisiertem Inhalt und Layout aufzubauen.

Konsistente Datenmodelle auf einheitlicher Basis

Große Datenmengen aus unterschiedlichsten Quellen in einer gemeinsamen Plattform zu konsolidieren, ist nur eine Seite von Analytics Anwendungen. Um diese Daten in kurzen Intervallen auswerten zu können, bedarf es einer geeigneten Analyse-Software. Pentaho Business Analytics ist solch eine Datenanalysesoftware. Sie besteht aus verschiedenen Modulen und deckt unterschiedliche Bereiche der Business Intelligence ab. Dazu zählen unter anderem der ETL-Bereich, Reporting, OLAP und Data Mining. Diese Module bedienen das gesamte Spektrum von Operational Intelligence bis hin zu Self-Service-BI.

Nahtlose Integration und leistungsstarke Analysen

In jedem Unternehmen gibt es unterschiedlichste BI-Anwender. Manager benötigen in der Regel möglichst einfach gehaltene Dashboards, die Zusammenhänge und Trends auf einen Blick sichtbar machen. Business-Analysten wollen eigene Auswertungen erstellen, die bis zur untersten Belegebene reichen. Und mobile Mitarbeiter brauchen Informationen in knappen, Smartphone oder Tablet-tauglichen Formaten. Pentaho ist in der Lage, spezielle Fachbereichslösungen innerhalb einer gemeinsamen Plattform zu implementieren.

Eine NoSQL-Datenbank wie MongoDB mit den Big Data Analytics-Lösungen von Pentaho im Unternehmenseinsatz zusammenzubringen, ist deshalb ein vielversprechender Ansatz. Die Kombination beider Technologien ermöglicht Anwendern, operative Unternehmensdaten durch echtzeitnahe Analyse und grafische Aufbereitung zu strategisch relevanten Kennzahlen zu veredeln. Pentaho greift direkt auf die von MongoDB bereitgestellten Funktionen und Inhalte wie das Aggregation Framework, die Tag Sets und die Replikationen zu. Das beschleunigt die Verfügbarkeit von Unternehmensdaten für alle Nutzergruppen.

Integration der Datenbank MongoDB in die Pentaho BA Suite.
Integration der Datenbank MongoDB in die Pentaho BA Suite.
Foto: it-novum GmbH

Direkte Datenverarbeitung aus MongoDB

Extraktions-, Transformations- und Ladeprozesse (ETL) sind die Grundschicht einer jeden Informationsarchitektur. Um Daten aus den unterschiedlichen Systemen in einer gemeinsamen Plattform zu integrieren, nutzt die Pentaho BI-Suite das Pentaho Data Integration (PDI)-Modul. PDI ist ein grafisches ETL-Tool zum Extrahieren, Laden und Verarbeiten strukturiert und unstrukturiert vorgehaltener Daten. Mittels Data Blending und interaktiven Visualisierungen lassen sich deren Kodierung und Komplexität deutlich reduzieren. Das ermöglicht beispielsweise auch dem Marketing, Big Data-Analyselösungen auf den Features von MongoDB aufzubauen.

Verknüpfung von Pentaho Data Integration (PDI) und MongoDB.
Verknüpfung von Pentaho Data Integration (PDI) und MongoDB.
Foto: it-novum GmbH

OLAP-Auswertung mit dem Pentaho Analyzer

Um relevante Daten und Kennzahlen in Beziehung zueinander zu setzen, nutzen sowohl klassische RDMBS als auch MongoDB die OLAP-Engine Mondrian. Die BI-Suite von Pentaho integriert mit dem Modul Pentaho Analyzer ebenfalls ein Tool zur Visualisierung und Auswertung von Daten, das direkt auf einem Mondrian-Schema aufsetzt. Mondrian unterstützt die Schnittstellen olap-4 und XML-A und eignet sich damit für die Einbettung in Drittapplikationen. Die vom Anwender gestellte Anfrage übersetzt Mondrian aus dem jeweiligen Frontend und aggregiert die zugehörigen Daten in einem OLAP-Würfel.

Die OLAP-Engine ist als Web-Anwendung in den Pentaho Analyzer integriert. Bis vor kurzem war der Pentaho Analyzer nur in Verbindung mit relationalen Datenbanksystemen einsetzbar. Doch mit Version 5.1 der Pentaho BA-Suite lassen sich Ad-Hoc-Analysen, Dashboards und Reports auch direkt aus MongoDB erzeugen. Zusammen bieten beide Software-Umgebungen beispielsweise eine 360-Grad-Ansicht von Kunden, Lieferanten, Prozessen oder anderen relevanten Objekten im Unternehmen. (bw)