Wissenschaftliche Erkenntnisse sind ohne eine umfassende Datenanalyse undenkbar. Das ideale System dazu wurde von den zwei Wissenschaftspionieren Daniel A. Reed und Jack Dongarra skizziert. Sie schlagen eine Verbindung aus zwei Ökosystemen vor: Das "Computational Science Ecosystem" soll die Rechenleistung bereitstellen, das "Data Analytics Ecosystem" die Analyse großer Datenmengen ermöglichen. Der Nobelpreis für Chemie 2013 und vielversprechende Ergebnisse der Experimente am Teilchenbeschleuniger (LHC) des CERN sind Beispiele für den umfassenden Einsatz. Das "Data-Analytics-Ökosystem" kann auch als wissenschaftliche Big-Data-Referenzarchitektur angesehen werden - und ist damit auch für Unternehmen äußerst interessant.
Big-Data-Architekturen in Unternehmen
Unternehmen setzen Big-Data-Architekturen ein, um ihren Informationsbedarf zu decken. Sie basieren jedoch im Gegensatz zum "Data-Analytics-Ökosystem" meist auf einer Erweiterung bestehender Business-Intelligence-Infrastrukturen. Dieser Ansatz liegt auf der Hand, da es Unternehmen in erster Linie darum geht, eine bessere Basis für Entscheidungen durch die Speicherung, Verarbeitung und Aufbereitung des gesamten Fundus an intern und extern vorhandenen Daten zu schaffen.
Diese Verbesserung der Basis für eine faktenbasierte Unternehmensführung ist die zentrale Aufgabenstellung für Business Intelligence (BI). So werden bestehende BI-Infrastrukturen zu Big-Data Lösungen ausgebaut. Viele Hersteller und Beratungshäuser empfehlen dieses Vorgehen. Die Komplexität dieses Ausbaus sollte jedoch nicht unterschätzt werden, zumal die meisten BI- und Data-Warehousing-Lösungen über Jahre gewachsen und erweitert worden sind. Und genau da ist das "Data-Analytics-Ökosystem" eine interessante Alternative.
- Datenanalyse als Service
Analytics Tools aus der Cloud können den Einstieg in die Datenanalyse erleichtern. Sie erfordern keine Vorabinvestitionen im fünf- oder sechsstelligen Bereich und besitzen teilweise grafische Benutzeroberflächen, die es auch dem weniger versierten Anwender ermöglichen, Analyseprozeduren zu erstellen, die zu aussagefähigen Ergebnissen führen. Wir stellen fünf wichtige Big-Data-Tools vor, die Sie als Service aus der Cloud nutzen können. - AWS Elastic MapReduce
Seit der Version 4.1.0 von Amazon Elastic MapReduce lassen sich Cluster im laufenden Betrieb verkleinern. - Google Cloud Platform
Mit dem Google Cloud Launcher lässt sich ein Hadoop-Cluster mit wenigen Klicks einrichten. - Microsoft Azure
Ein Hadoop-Cluster ist in HDInsight von Microsoft in zirka 10 bis 15 Minuten verfügbar. - IBM Analytics
Beim Einrichten eines Hadoop-Clusters auf IBM Bluemix hat der Anwender die Wahl zwischen drei Cluster-Größen. - SAP HANA Cloud Platform
LubeInsights verknüpft Hadoop im SAP HANA und lädt nur aktuell benötigte Daten in die In-Memory-Datenbank.
Mögliche Einsatzgebiete in Unternehmen
Wissenschaftliche Experimente liefern durch den Einsatz modernster Sensortechnologie mehr und mehr Rohdaten. Die Verarbeitung dieser zu interpretierbaren Informationen ist die wichtigste Aufgabe des "Data-Analytics-Ökosystem". Unternehmen, die zunehmend mit innovativen IoT- (Internet-der-Dinge-)Technologien arbeiten, um beispielsweise die Warenflüsse oder auch die Einsatzart und die Verschleißmechanismen von Maschinen zu überwachen, um Ausfälle vorauszusehen, sehen sich mit derselben Aufgabenstellung konfrontiert. Mehr und mehr Rohdaten aus unterschiedlichsten Quellen sollen möglichst in Echtzeit verarbeitet werden. Genau dafür ist das Herzstück des Ökosystems ausgelegt. Es umfasst beispielsweise Elemente, die für die Verarbeitung von Sensordaten, aber auch von Filmmaterial ausgelegt sind.
Viele Unternehmen analysieren das Verhalten ihrer Kunden, um das eigene Leistungsangebot laufend zu verbessern. Dies geht mit einer aufwendigen Aufbereitung von Rohdaten: Clickstreams auf Online-Plattformen, Geopositionen der Besucher oder Passanten in Einkaufszentren bis hin zu auswertbaren Informationen, die helfen Produkte besser zu platzieren. Das "Data-Analytics-Ökosystem" bietet Tools, die für die Vorverarbeitung, die Speicherung und das Nachbearbeiten dieser Daten verantwortlich sind. Für das Laden und das Verschieben von Daten sowie die Koordination von Datenströmen sind zusätzliche Instrumente definiert. Die Speicherung von sehr großen Datenmengen erfolgt durch ein verteiltes Dateisystem und eine nichtrelationale Datenbank. Für die Nachverarbeitung werden Instrumente für verteilte oder strukturierte Abfragen oder direkte Zugriffe auf Pipelines eingesetzt.
Hadoop senkt Investitionskosten
Einen Schritt weiter gehen Unternehmen, die sich durch umfassende Datenanalyse vollkommen neue Erkenntnisse für ihr Business erhoffen: Sie wollen nicht nur ausgewählte Informationen analysieren, sondern mit dem gesammelten Datenbestand experimentieren. Dies war bisher oft sehr teuer, denn Data-Science-Spezialisten werden sich hinsichtlich Struktur und Aufbau der notwendigen Instrumente schnell in der Sphäre der Wissenschaft wiederfinden. Da Dongarra und Reed die eingesetzten Tools rund um das Apache Hadoop Framework empfehlen, sind dank dem Data-Analytics-Ökosystem experimentelle Datenanalysen nun mit vertretbaren Investitionskosten möglich - selbst für kleinere Unternehmen.
Fazit: Data-Analytics-Ökosystem erleichtert wichtige IT-Entscheidungen
Das Data-Analytics-Ökosystem stellt eine unabhängige Alternative zum Ausbau bestehender Business-Intelligence- und Data-Warehousing-Lösungen dar. Die von Herstellern und Beratungshäusern bisher vorgeschlagen Architekturen bedingen eine genaue Analyse der tatsächlich vorhandenen Infrastruktur und die Definition einer realistischen Roadmap für dessen Ausbau. Das Ökosystem mit seinen Komponenten und deren klare Aufgabenteilung lassen sich dadurch sehr viel agiler einsetzen und auf ein bestimmtes Einsatzgebiet zuschneiden. Sie helfen somit jedem Unternehmen dabei, sich in der Vielzahl der Big-Data-Tools und Angebote zurechtzufinden und wichtige IT-Entscheidungen schnell - und vor allem zukunftssicher zu treffen. (wh)