Ergebnisse des Praxistests: Tools liegen eng zusammen
Die diesjährige Gesamtbewertung zeigt, dass alle vier Testkandidaten vergleichsweise eng beieinanderliegen. Dies liegt zum einen daran, dass die getesteten Analyseprodukte im Vergleich zu den "klassischen" Data-Mining-Suiten (mit Ausnahme von RapidMiner) viele Jahre länger auf dem Softwaremarkt vertreten sind - zum Teil seit mittlerweile 30 Jahren. In dieser Zeit konnten die Anbieter ihre Tools stetig verfeinern und weiterentwickeln. Zum anderen gehört auch die getestete Regression seit vielen Jahren zu der in der Praxis am weitesten verbreiteten Verfahrensklasse - entsprechend ausgereift sind die Implementierungen.
In einigen Bereichen gibt es dennoch zum Teil gravierende Unterschiede zwischen den Testkandidaten - etwa bei der Benutzerfreundlichkeit. Generell führen die durchweg hohe Funktionsmächtigkeit der Werkzeuge und die vielfältigen Parametrisierungsmöglichkeiten zu vergleichsweise langen Einarbeitungszeiten.
Statsoft: Statistica Professional
Das gilt auch für Statistica Professionell von Statsoft, obwohl das Tool vor allem dank seiner modernen, über alle Analyseaufgaben und -produkte einheitlichen Oberfläche in Sachen Benutzerfreundlichkeit das Testfeld anführt. Die Funktionsvielfalt von Statistica ist hoch, besonders bei der Zahl wählbarer Regressionsverfahren, der Datenvorverarbeitung sowie der Parametrisierung der Verfahren.
SAS: Enterprise Guide
Bei der Funktionalität muss sich Statistica insgesamt jedoch dem Enterprise Guide von SAS knapp geschlagen geben. Dieser bietet dem Statistikexperten den großen Funktionsumfang von SAS/STAT. Trotz kleiner Schwächen steht den Nutzern über den gesamten Analyseprozess hinweg eine vielfältige Unterstützung selbst bei feingranularen Einstellungen zur Verfügung. Die Benutzerfreundlichkeit des Enterprise Guide ist hoch - allerdings weicht dieses Bedienkonzept stark von dem verwandter SAS-Produkte ab: Nutzer, die also zum Beispiel zusätzlich den Enterprise Miner oder das Data Integration Studio verwenden, müssen sich für jedes Tool auf eine andere Oberfläche einstellen.
IBM SPSS: Statistics Professional
Die besondere Stärke von Statistics Professional von IBM SPSS liegt in der sehr guten Visualisierung der Ergebnisse. Sie überzeugt durch hohe Flexibilität bei der Erstellung von Grafiken und bei ungewöhnlichen, aber übersichtlichen Ergebnisausgaben, etwa wenn es um die Darstellung der Regressionskoeffizienten geht. Allerdings fällt die Funktionalität von SPSS insgesamt etwas geringer aus als die der anderen Testkandidaten.
Rapid-I: RapidMiner
Wie schneidet im Vergleich zu den drei kommerziellen Produkten das einzige Open-Source-Tool im Test ab? RapidMiner hat über die letzten Jahre spürbar an Reife gewonnen, was zu einem Großteil auf das Konto der vollständig neu konzipierten, wesentlich übersichtlicheren Bedienoberfläche geht.
Im Testverlauf fielen allerdings auch Schwachstellen auf, die zeigen, dass RapidMiner nach wie vor Verbesserungspotenzial hat: Der csv-Importknoten erfordert zeitaufwendige manuelle Korrekturen, die "Forward Selection" im Zusammenspiel mit der linearen Regression gestaltet sich umständlich, und die neue, stark beworbene Bereitstellung von Metadaten ("Einzige Lösung mit Metadaten-Transformation: Vergessen Sie Trial-and-Error") erwies sich im Test als noch nicht ausgereift. Die fehlende automatische Erzeugung von Grafiken zur Ergebnisvisualisierung kann man zum Teil durch Verwendung von R kompensieren - die Integration in RapidMiner kann insgesamt als durchaus gelungen angesehen werden.
Fazit
Durch immer komplexere analytische Fragestellungen entsteht der Bedarf, neben unterschiedlichen Verfahren auch mehrere Analyseansätze (konfirmative und explorative) gleichzeitig zu nutzen. Dies bedeutet zum Beispiel, zumindest Teile eines Analyseszenarios "Hand in Hand" durch Auswertung von Reports, mit klassischen statistischen Methoden sowie durch Einsatz von Data-Mining-Techniken zu beantworten. Softwareprodukte, die derartige Funktionalität integriert unter einer einfach zu bedienenden Oberfläche anbieten, sind derzeit allerdings noch rare Ausnahmen.
Welchen positiven Effekt allein eine durchdachte Bedienung und eine kaum erklärungsbedürftige, ansprechende Oberfläche haben können, lässt sich beispielsweise bei einigen Herstellern innovativer OLAP- oder Reporting-Tools beobachten: Es gibt Tools, mit denen die Datenanalyse einer Entdeckungsreise gleicht - man navigiert leichtfüßig durch die Daten, lässt sich von interessanten Auffälligkeiten links und rechts des "Analyse-Wegesrands" leiten und hat mit wenigen Mausklicks einen umfassenden Eindruck von dem so erforschten Datenraums gewonnen.
Die Tool-Anbieter haben in nächster Zeit zahlreiche weitere - auch größere - Entwicklungsschritte vor sich. Dazu gehört zum Beispiel neben der höheren Automatisierung von analytischen Routineaufgaben die Bereitstellung leistungsstarker konfirmativer Verfahren, mit denen man die durch Data Mining erzeugten Hypothesen überprüfen kann - ohne die Ergebnisse in ein separates Tool überführen und gegebenenfalls dort neu aufbereiten zu müssen.
- In sieben Schritten zum Big-Data-Erfolg
Teil- oder unstrukturierte Daten in großer Menge erfolgreich analysieren können - das ist das Ziel von Big-Data-Projekten. Aber welcher Weg führt dorhin? - 1. Die jeweiligen Ziele definieren
Die Anzahl der möglichen Big-Data-Analysen ist Legion. Im ersten Schritt muss also geklärt werden: Was möchten Sie erreichen? Was bringt Ihnen die Auswertung? Möchten Sie mehr Kunden ansprechen, Ihren Umsatz steigern oder neue Geschäftsfelder erschließen? Und welche Ziele sind überhaupt erreichbar? - 2. Die Datenquellen identifizieren
Dann müssen die verfügbaren Datenquellen analysiert werden: Welche sind wichtig? Wie und in welcher Form lässt sich auf die benötigten Daten zugreifen? Meist ist es sinnvoll, sich zunächst auf ausgewählte Quellen zu konzentrieren. Hier schon sind Datenschutzaspekte zu berücksichtigen. Manche Daten dürfen gar nicht oder nur unter bestimmten Voraussetzungen gespeichert und analysiert werden. - 3. Mit IT- und anderen Bereichen vernetzen
Die IT sollte frühzeitig eingebunden werden. Um maximalen Nutzen aus den Auswertungen zu ziehen, sind auch andere Fachbereiche zu involvieren. Und spätestens in dieser Phase sollte das Management einbezogen werden, das breite Unterstützung garantiert. - 4. Performance und Verfügbarkeit klären
Die Erwartungen bezüglich Performance und Verfügbarkeit müssen so früh wie möglich dingfest gemacht werden. Dabei spielen Themen wie Analyse-Latenzzeit, Auswertungen in Echtzeit und In-Memory-Technik eine wichtige Rolle. - 5. Die Ergebnisse in Prozesse einbinden
Erfolgreiche Big-Data-Analytics-Projekte binden die Analysen und deren Ergebnisse in die Geschäftsprozesse ein. Nur so führen die gewonnenen Erkenntnisse zu einer Verbesserung. - 6. Big Data in Analysestrukturen einfügen
Big-Data-Analytics ersetzen nicht zwingend vorhandene Analysen, beispielsweise Data Warehouses. Oft sind sie vielmehr eine Ergänzung. Folglich sollten sie in vorhandene BI-Architekturen oder -Landschaften integriert werden. - 7. Komplexität und Dynamik abschätzen
Welche Daten mit welchem Volumen kurz- und mittelfristig verfügbar sein werden, ist im Vorfeld schwer abschätzbar. Deshalb gilt es, die Einbindung neuer Datenquellen oder zusätzlicher Analysen einzukalkulieren, um einen nachhaltigen Erfolg des Projekts zu gewährleisten.