"Big Data hat sich zu einem reifen Markt für 'echtes Data Processing' entwickelt", schreibt Analyst Scott M. Fulton, III in der Studie "Big Data and Advanced Analytics Survey 2015, Volume II". Obwohl das Open-Source-Framework Hadoop in diesem Kontext noch immer die wichtigste Plattform sei, gebe es inzwischen auch eine Reihe neuer Konzepte und Techniken, die ähnliche oder ergänzende Ziele verfolgten. Dazu gehören für den Experten etwa die Open-Source-Projekte Spark und Hydra oder das auf Cloud-Umgebungen ausgerichtete File System Gluster.
Die wesentlichen Treiber für Investitions- und Architekturentscheidungen im Big-Data-Kontext, die einst schon Hadoop zum Durchbruch verhalfen, sind laut Fulton aber noch immer aktuell:
Volumen: Die schiere Menge der Daten aus unterschiedlichen Quellen, die für eine Anfrage relevant ist, übersteigt die Kapazität physischer Speichersysteme. Das Management der Datenberge wird durch Virtualisierung nicht unbedingt leichter.
Vielfalt: Die Vielzahl der Datenquellen, die für moderne Reports heute relevant sind, lässt sich mit konventionellen Data Warehouses nicht mehr managen.
Geschwindigkeit: Neue Daten entstehen in hohem Tempo, zugleich wächst die Geschwindigkeit, in der ältere Daten irrelevant werden. Das zwingt Organisationen, ihre bestehenden Reporting-Strukturen in kleinere Teile aufzubrechen.
Sichtbarkeit: Ergebnisse, die in Echtzeit oder nahezu in Echtzeit aufbereitet werden, geben Organisationen tiefere und wertvollere Einblicke in ihre Prozesse, als dies mit klassischen, meist auf Batch-Verfahren ausgelegten relationalen Datenbanksystemen möglich ist.
Das Marktforschungsunternehmen Evans Data Corporation mit Sitz im kalifornischen Santa Cruz befragt regelmäßig ein Panel von rund 75.000 Softwareentwicklern aus mehr als 85 Ländern. Für die aktuelle Studie interviewten die Analysten 529 Entwickler, die gegenwärtig mit Datenbanken und Analytics-Systemen arbeiten und in den kommenden zwölf Monaten verstärkt Big-Data- oder fortgeschrittene Analytics-Projekte verfolgen wollen. Dabei stellten die Auguren auch die Frage, welche Abteilungen der betreffenden Unternehmen bereits Data-Analytics- oder Big Data-Lösungen einsetzen.
Analytics-Einsatz: IT, Logistik und Marketing sind Vorreiter
Den größten Zuwachs im Vergleich zur Erhebung im Vorjahr verzeichnete dabei der Bereich "Logistics / Distribution / Operations". Gut 42 Prozent der Umfrageteilnehmer berichteten von Projekten in diesen Abteilungen. Am häufigsten scheint das Thema noch immer direkt in der IT-Abteilung angesiedelt zu sein (von 45 Prozent genannt). Mit etwas Abstand folgen mehrere kundennahe Unternehmensbereiche. Dazu gehören laut Evans sowohl Marketing und Kundenservice als auch die klassische Sales-Abteilung. Daneben setzen auch Bereiche wie Buchhaltung / Finanzen, Forschung und Entwicklung sowie Human Resources bereits auf Analytics-Systeme.
Die größten Probleme mit Big Data
Im nächsten Schritten legten die Marktforscher den Entwicklern eine Liste mit neun potenziellen Problemen vor, mit denen Organisationen im Rahmen von Big-Data-Projekten konfrontiert werden könnten. Die Befragten sollten angeben, welches jeweils die größte Hürden in ihren aktuellen Projekten sind. Etwas überraschend steht für ein Viertel der Interviewten das Volumen der in den Storage-Systemen abgelegten Daten an erster Stelle. Der Prozentwert habe sich im Vergleich zur Vorjahreserhebung mehr als verdoppelt, berichtet Evans. 2014 rangierte dieser Punkt noch auf Platz vier der größten Big-Data-Probleme.
Problematisch empfinden viele Entwickler offenbar auch die Relevanz der gewonnen Daten, gefolgt vom Volumen derjenigen Daten, die tatsächlich verarbeitet werden. Fortschritte gab es hingegen beim Thema Datenqualität. Dieser Aspekt stand vor einem Jahr noch ganz oben auf der Liste und ist nun auf Platz vier gerutscht. Während sich die Qualität von Analytics-Prozessen insgesamt zu verbessern scheine, werde das Thema Datenvolumen für die Unternehmen offenbar wieder zum Problem, kommentiert Analyst Fulton.
- Fünf Schritte zur richtigen Big-Data-Technologie
In-Memory-Computing, Hadoop, NoSQL – am Big-Data-Markt tummeln sich zahlreiche Technologien mit unterschiedlichen Stärken und Schwächen. Der IT-Dienstleister adesso AG erläutert die wichtigsten Schritte auf dem Weg zur passenden Big-Data-Technologie. - Anwendungsfälle ermitteln
In einem ersten Schritt sollten Unternehmen aus ihrer Unternehmensstrategie, ihren Zielen und ihren Kernkompetenzen ableiten, welchen Mehrwert ihnen Big Data liefern kann, und so konkrete Nutzungsszenarien ermitteln. Unternehmen aus dem Automotive-Sektor beispielsweise könnten basierend auf Informationen aus den Daten der Steuerungssysteme von Fahrzeugen neue Services ableiten – etwa Ferndiagnosen oder Wartungs- und Verschleißhinweise. Die Definition der tatsächlichen Anwendungsfälle sollte allerdings mit viel Bedacht durchgeführt werden, um Fehlinvestitionen zu vermeiden. - Reifegrade überprüfen
Einige Anwendungsfälle können zwar sehr interessant und vielversprechend sein, die benötigten Daten aber noch nicht die erforderliche Reife aufweisen – beispielsweise, wenn Systeme, die Daten liefern, erst neu integriert oder vorhandene Daten bisher nur angesammelt und noch nicht klassifiziert wurden. Auch Aspekte jenseits von Technologien und Daten spielen meist eine entscheidende Rolle für die Bewertung eines Anwendungsfalls: Zum Beispiel, wie viele Organisationseinheiten sind beteiligt, wie stark sind Datenschutzfragestellungen betroffen, wie sehr spielen Compliance-Anforderungen eine Rolle? Durch derartige Hürden könnte ein Big-Data-Vorhaben trotz großem Nutzenpotenzial scheitern. Deshalb ist es sinnvoll, zunächst Projekte anzugehen, die eine kurz- oder mittelfristige Umsetzung ermöglichen. Beispielsweise solche, für die einerseits eine sicher verwertbare Datenbasis vorliegt, auf die sich einfach zugreifen lässt, und mit denen andererseits alle beteiligten Organisationseinheiten gut zusammenarbeiten können. - Konsens herstellen
Die Entscheidung, welche Anwendungsfälle ein Unternehmen umsetzt, sollte unbedingt im Konsens zwischen Fachbereichen und IT-Abteilung getroffen werden. Geschieht dies nicht, ist das Risiko sehr hoch, dass die Fachbereiche andere Vorstellungen und Ziele haben, als die IT dann umsetzt. Gegenseitiges Verständnis und eine enge Zusammenarbeit sind bei Big-Data-Projekten besonders wichtig, vor allem dort, wo die Resultate komplexer maschineller Lernverfahren interpretiert werden müssen. Üblicherweise können nur die Experten aus den Fachabteilungen verstehen und erklären, welche Ergebnisse einer Datenanalyse interessant und relevant sind. Dieser fachliche Input ist höchst relevant für das "Tuning", also die Einstellung später eingesetzter Datenanalyseverfahren. - Kriterien ableiten
Stehen die Anwendungsfälle fest, lässt sich daraus ableiten, welche Eigenschaften die eingesetzte Technologie mitbringen muss. So benötigen manche Szenarien eher die Ad-hoc-Abfrage von Daten, andere dagegen bestimmte Aggregationen, erkundende Verfahren oder Verfahren für Vorhersagen oder Empfehlungen. Weitere wichtige Kriterien, die sich aus den Nutzungsszenarien ergeben, sind unter anderem die erforderliche Integrierbarkeit mit existierenden Anwendungen im Unternehmen, die Geschwindigkeit und der Umfang des Datenflusses, die erforderliche Bearbeitungsgeschwindigkeit der Daten oder der richtige Umgang mit den vorhandenen Datenstrukturen. - Technologie auswählen
Anhand der so ermittelten Kriterien lässt sich dann gezielt die passende Technologie auswählen. Die heute verfügbaren Datenverarbeitungsplattformen von Hadoop über NoSQL bis hin zu relationalen Datenbanken unterstützen nicht nur unterschiedliche Skalierungsmechanismen, sie unterstützen auch unterschiedliche Vorgehensweisen. Ist mit häufiger Veränderung zu rechnen beziehungsweise ist die Aufrechterhaltung von Diensten auch bei Veränderung besonders wichtig, dann muss die Datenverarbeitung die benötigte Flexibilität mitbringen. Verlangt ein Anwendungsfall besonders hohe Verarbeitungsgeschwindigkeiten, empfiehlt sich In-Memory-Computing. Stehen hohe Skalierbarkeit sowie eine schnelle Speicherung und eine einfache Abfrage riesiger Datenmengen im Vordergrund, spricht das für Key-Value-Datenbanken. Traditionelle relationale Datenbanken sind in diesem Fall dagegen eher nicht geeignet, da sie komplexere Skalierungsmodelle unterstützen und einen hohen Aufwand für den Umgang mit heterogenen oder sich häufig ändernden Daten erfordern. Eine allgemeingültige Regel gibt es allerdings nicht. Die vorhergehende Auseinandersetzung mit den Anwendungsfällen ist deshalb entscheidend.
Realtime Analytics gewinnt an Bedeutung
An Bedeutung zugenommen hat für die Befragten die Datenanalyse in Echtzeit. Evans bat die Entwickler hierzu, auf einer Skala von 1 ("total irrelevance") bis 10 ("total relevance") einzustufen, wie wichtig das Thema Realtime Analytics für ihre Organisation ist. Daraus ergab sich ein relativ hoher Durchschnittswert von 8,056. Im Vergleich zum Vorjahr bedeutet das den Angaben zufolge eine Steigerung um 3,2 Punkte.
Big Data wandert in die Public Cloud
Mit den wachsenden Big-Data-Angeboten der großen Cloud-Player steigt auch die Akzeptanz für Analytics-Anwendungen in der Wolke, so eine weitere Beobachtung der Marktforscher. Sie meinen damit explizit Public-Cloud-Angebote, auch wenn in der Praxis Hybrid-Cloud-Szenarien dominieren. Analyst Fulton verweist darauf, dass der Public-Cloud-Vorreiter Amazon bereits 2009 mit Elastic MapReduce auf den Markt gegangen sei. Dabei handelt es sich um einen Web-Service, der das Open Source-Framework Hadoop nutzt. Unternehmen sollen damit große Datenmengen schnell und kostengünstig verarbeiten können.
Doch Amazon beziehungsweise Amazon Web Services (AWS) ist längst nicht mehr der einzige Big-Data-Anbieter in der Public Cloud. Auch Google offeriert schon seit geraumer Zeit Public-Cloud-Erweiterungen für Hadoop-Installationen. Im September 2015 stellte der Suchmaschinenkonzern zudem den Managed Big-Data Service Cloud Dataproc vor. Anwender sollen damit einfach und schnell Hadoop- und Spark-Cluster in der Cloud einrichten, verwalten und wieder abschalten können. Last, but not least ist auch Microsoft in den Ring gestiegen und nutzt die starke Marktstellung seiner relationalen Datenbank SQL Server, um mit Azure HDInsight seine eigene Hadoop-Variante in der Cloud zu promoten.
Security und Integration bremsen Analytics in der Cloud
Dessen ungeachtet gibt es, wie in anderen Cloud-Anwendungsfeldern auch, ernstzunehmende Argumente gegen Big-Data-Lösungen in der Cloud: Aus einer Liste von vier "Hemmnissen" ließ Evans Entwickler die jeweils wichtigste auswählen - unabhängig von deren tatsächlicher Praxiserfahrung mit Cloud-basierten Analytics-Plattformen. Kaum überraschend steht das Thema Sicherheit in der Liste ganz oben (von 40 Prozent genannt).
Erheblich häufiger als in vorangegangenen Erhebungen nannten die Befragten aber auch die schwierige Integration einschlägiger Services. Angesichts der wachsenden Bedeutung von Public-Cloud-Lösungen sei dies ein besonders sensibler Aspekt, kommentieren die Marktforscher. Eine anderes Hindernis habe sich dagegen etwas relativiert: Deutlich weniger Entwickler als noch vor einem halben Jahr fürchteten einen Kontrollverlust, wenn sie Daten in der Cloud analysieren lassen. (wh)