VVV versus AAA

Big Data zum Anfassen

29.05.2015
Von 
Bertram Geck ist im IT-Systemhaus der Bundesagentur für Arbeit als technischer Projektleiter tätig. Er greift auf mehr als 25 Jahre Erfahrung in Produktentwicklung, Produktmanagement sowie im Marketing und Vertrieb von IT-Lösungen zurück. Zu seinen Schwerpunkten gehören die Steuerung von IT durch Transparenz, agile Methoden, die effiziente Integration von IT und Anwendern.
Den Begriff Big Data in drei Sätzen zu erklären war von Beginn an nicht möglich und wird mit zunehmender Marktdurchdringung nicht einfacher. Der Autor gibt in seinem Beitrag einen Überblick zu den aktuellen Begrifflichkeiten und Technologien.
Viele Unternehmen hantieren mit immer größeren Datenmengen.
Viele Unternehmen hantieren mit immer größeren Datenmengen.
Foto: Santiago Cornejo, Fotolia.com

Ebenso unübersichtlich wie die zahlreichen und immer schneller wachsenden Datenberge erscheinen auch die Begrifflichkeiten, sowie die angebotenen IT-Lösungen und Systeme, die im Zusammenhang mit Big Data angeboten werden. Was ist eigentlich Big-Data?

Volume, Velocity und Variety (VVV)

Volume
Volume bezieht sich auf die exorbitante Datenmenge, die in jeder Sekunde entsteht und kontinuierlich wächst. Applikationen mit einem Datenvolumen im mehrstelligen Terabyte- oder sogar Petabyte-Bereich sind Realität.

Velocity
Velocity beschreibt, dass die Daten nicht nur schubweise, sondern fortlaufend produziert werden. Somit stehen viele Unternehmen vor der Herausforderung, immer schneller - im Idealfall in Echtzeit - große Datenmengen verarbeiten zu müssen.

Variety
Variety verfolgt das Ziel, die unkontrollierten und oftmals unstrukturierten Datenströme - egal aus welchem Kanal sie kommen und welches Format sie haben - so aufzubereiten, dass wertvolle Informationen gewonnen werden können.

Aufnehmen, Aufbereiten und Anzeigen (AAA)

Die drei "V" aus dem ersten Absatz sind für den Anwender eher virtuell und nur hilfreich zur Kategorisierung von Big-Data. Hilfreich für der Nutzung von Big-Data sind für den Anwender erst einmal drei andere Vokabeln: Aufnehmen, Aufbereiten und Anzeigen. Welche Daten werden wie erfasst? Wie werden die Daten aufbereitet und wie kann man sie anzeigen, damit der größte Nutzen draus erkenntlich wird?

Markttrends

Selbst erfahrenen IT-Entscheidern fällt es immer schwerer, die Möglichkeiten von Big Data zu durchblicken. Dennoch ist allen Beteiligten eines klar: Die vorhanden Daten können und sollten genutzt werden.

Dies beweisen auch die Marktanalysen zu den Technologietrends für 2015 von Forschungsinstituten wie Gartner, Forrester oder IDC, die allesamt das Thema Big Data aufnehmen.

Reifegrade von Beratungshäusern liefern mehr oder weniger systematische Ansätze, die Unternehmen zu einem Big-Data Verständnis zu führen. Diverse Reifegradmodelle werden beworben. Die unterschiedlichen Reifegrade bei der Big-Data-Kompetenz in den Branchen zeigen, wie verschieden die Bedingungen für Big-Data-Initiativen sein können, mit denen sich Unternehmen konfrontiert sehen. Wenn solche Initiativen nur halbherzig geplant werden, ist ein Scheitern vorherbestimmt. Damit das Potential voll genutzt werden kann, müssen Unternehmen eine ganzheitliche, bereichsübergreifende Herangehensweise wählen.

Technologien

Hadoop Distributionen
Wer Informationen zum Thema Big Data sucht, wird mit großer Sicherheit auf den Begriff Hadoop stoßen. Es handelt sich dabei um ein Open Source Projekt der Apache Software Foundation (ASF), das in der Programmiersprache Java geschrieben wurde und ein Framework für skalierbare und verteilt arbeitende Software darstellt. Grundlage bildet der von Google Inc. verwendete MapReduce-Algorithmus, der es ermöglicht intensive Rechenprozesse mit großen Datenmengen durchzuführen. Durch seine große Verteilung kann Hadoop allerdings nur in Clustern betrieben werden.

Die zwei Kern-Komponenten einer Hadoop Distribution bestehen aus einem Hadoop Distributed File System (HDFS) und dem MapReduce. Da aber auch andere Dateisysteme verwendet werden können, erstreckt sich der Markt der Big Data Anbieter in unüberschaubare Dimensionen. Sie unterscheiden sich alle in Funktionalität und technischer Umsetzung.

NO-SQL Databases
Wo relationale Datenbanken an Ihre Grenzen geraten, setzt No-SQL an. Da diese Datenbanken keine festgelegten Tabellenschemata benötigen, können sie flexibel eingesetzt und Verbindungen untereinander hergestellt werden. Dabei verrät bereits der Name 'Not only'-SQL, dass SQL-Datenbanken nicht ersetzt, sondern vielmehr um eine flexible, schnelle und ausfallsichere Erweiterung ergänzt werden.

Besonders im Bereich E-Commerce und in sozialen Netzwerken, wo Beziehungen der Daten zueinander sehr komplex sind, finden diese Datenbanken große Anwendung.

Visual Analytics
Um gut durchdachte Entscheidungen treffen zu können, ist die individuell angepasste, graphische Aufbereitung der gesammelten Daten wichtiger denn je. Da sich die Daten schneller und komplexer entwickeln, als dass sie mit klassischen Werkzeugen analysiert werden könnten, setzen Visual Analytics auf Interaktionsmechanismen, die selbst mehrdimensionale Daten aufbereiten können. Durch die Kombination aus menschlicher Auffassungsgabe und den Stärken der automatischen Datenanalyse entstehen hieraus hoch komplexe aber dennoch überschaubare Charts.

Predictive Analytics
Mit den richtigen Werkzeugen können zukünftige Geschäftsentwicklungen bereits heute erkannt und Handlungen dementsprechend angepasst und bewertet werden. Hierzu werden Modelle herangezogen, die aussagekräftige Muster und Abhängigkeiten in Datenbeständen identifizieren und zukünftige Ereignisse vorhersagen. Dadurch können Prognosen selbst dann getroffen werden, wenn sich Geschäfte und Märkte nicht gleichläufig entwickeln. Je nach Anforderung können hierzu prädiktive, präskriptive und Entscheidungsmodelle herangezogen werden.

Big Data anfassen

Um diese Thematik greifbar zu machen, findet am 14.-15.04.2015 das Big Data Lab Forum in Nürnberg statt. Hierbei bekommen Entscheider, Umsetzer und Entwickler auch ohne Spezialkenntnisse die Möglichkeit, sich über das Thema Big Data zu informieren und in einem Tool Park sogar 'live' zu testen. Durch die Kombination aus Fachvorträgen, Diskussionen und Workshops wird ein Hands-on Lab geschaffen, welches zeigt, wie mit den richtigen Werkzeugen geeignete Informationen aus großen Datenmengen gezogen werden können. Durch die herstellerneutrale und branchenoffene Ausrichtung entsteht daraus eine interaktive Informationsplattform sowie ein Vergleichsinstrument für alle Big Data Interessierte. (bw)