Data Mining

Analyse-Tools für Media Analytics im Test

25.04.2013
Von 
Peter Neckel ist Analyst beim Data-Mining-Spezialisten Mayato.

Ergebnisse des Praxistests: Tools liegen eng zusammen

Der Markt bietet den Anwendern eine Reihe unterschiedlicher Data-Mining-Produkte: Die Palette reicht von mächtigen Suiten bis hin zu Spezialwerkzeugen.
Der Markt bietet den Anwendern eine Reihe unterschiedlicher Data-Mining-Produkte: Die Palette reicht von mächtigen Suiten bis hin zu Spezialwerkzeugen.
Foto: Mayato

Die diesjährige Gesamtbewertung zeigt, dass alle vier Testkandidaten vergleichsweise eng beieinanderliegen. Dies liegt zum einen daran, dass die getesteten Analyseprodukte im Vergleich zu den "klassischen" Data-Mining-Suiten (mit Ausnahme von RapidMiner) viele Jahre länger auf dem Softwaremarkt vertreten sind - zum Teil seit mittlerweile 30 Jahren. In dieser Zeit konnten die Anbieter ihre Tools stetig verfeinern und weiterentwickeln. Zum anderen gehört auch die getestete Regression seit vielen Jahren zu der in der Praxis am weitesten verbreiteten Verfahrensklasse - entsprechend ausgereift sind die Implementierungen.

In einigen Bereichen gibt es dennoch zum Teil gravierende Unterschiede zwischen den Testkandidaten - etwa bei der Benutzerfreundlichkeit. Generell führen die durchweg hohe Funktionsmächtigkeit der Werkzeuge und die vielfältigen Parametrisierungsmöglichkeiten zu vergleichsweise langen Einarbeitungszeiten.

Statsoft: Statistica Professional

Das gilt auch für Statistica Professionell von Statsoft, obwohl das Tool vor allem dank seiner modernen, über alle Analyseaufgaben und -produkte einheitlichen Oberfläche in Sachen Benutzerfreundlichkeit das Testfeld anführt. Die Funktionsvielfalt von Statistica ist hoch, besonders bei der Zahl wählbarer Regressionsverfahren, der Datenvorverarbeitung sowie der Parametrisierung der Verfahren.

SAS: Enterprise Guide

Bei der Funktionalität muss sich Statistica insgesamt jedoch dem Enterprise Guide von SAS knapp geschlagen geben. Dieser bietet dem Statistikexperten den großen Funktionsumfang von SAS/STAT. Trotz kleiner Schwächen steht den Nutzern über den gesamten Analyseprozess hinweg eine vielfältige Unterstützung selbst bei feingranularen Einstellungen zur Verfügung. Die Benutzerfreundlichkeit des Enterprise Guide ist hoch - allerdings weicht dieses Bedienkonzept stark von dem verwandter SAS-Produkte ab: Nutzer, die also zum Beispiel zusätzlich den Enterprise Miner oder das Data Integration Studio verwenden, müssen sich für jedes Tool auf eine andere Oberfläche einstellen.

IBM SPSS: Statistics Professional

Die besondere Stärke von Statistics Professional von IBM SPSS liegt in der sehr guten Visualisierung der Ergebnisse. Sie überzeugt durch hohe Flexibilität bei der Erstellung von Grafiken und bei ungewöhnlichen, aber übersichtlichen Ergebnisausgaben, etwa wenn es um die Darstellung der Regressionskoeffizienten geht. Allerdings fällt die Funktionalität von SPSS insgesamt etwas geringer aus als die der anderen Testkandidaten.

Rapid-I: RapidMiner

Wie schneidet im Vergleich zu den drei kommerziellen Produkten das einzige Open-Source-Tool im Test ab? RapidMiner hat über die letzten Jahre spürbar an Reife gewonnen, was zu einem Großteil auf das Konto der vollständig neu konzipierten, wesentlich übersichtlicheren Bedienoberfläche geht.

Im Testverlauf fielen allerdings auch Schwachstellen auf, die zeigen, dass RapidMiner nach wie vor Verbesserungspotenzial hat: Der csv-Importknoten erfordert zeitaufwendige manuelle Korrekturen, die "Forward Selection" im Zusammenspiel mit der linearen Regression gestaltet sich umständlich, und die neue, stark beworbene Bereitstellung von Metadaten ("Einzige Lösung mit Metadaten-Transformation: Vergessen Sie Trial-and-Error") erwies sich im Test als noch nicht ausgereift. Die fehlende automatische Erzeugung von Grafiken zur Ergebnisvisualisierung kann man zum Teil durch Verwendung von R kompensieren - die Integration in RapidMiner kann insgesamt als durchaus gelungen angesehen werden.

Fazit

Durch immer komplexere analytische Fragestellungen entsteht der Bedarf, neben unterschiedlichen Verfahren auch mehrere Analyseansätze (konfirmative und explorative) gleichzeitig zu nutzen. Dies bedeutet zum Beispiel, zumindest Teile eines Analyseszenarios "Hand in Hand" durch Auswertung von Reports, mit klassischen statistischen Methoden sowie durch Einsatz von Data-Mining-Techniken zu beantworten. Softwareprodukte, die derartige Funktionalität integriert unter einer einfach zu bedienenden Oberfläche anbieten, sind derzeit allerdings noch rare Ausnahmen.

Welchen positiven Effekt allein eine durchdachte Bedienung und eine kaum erklärungsbedürftige, ansprechende Oberfläche haben können, lässt sich beispielsweise bei einigen Herstellern innovativer OLAP- oder Reporting-Tools beobachten: Es gibt Tools, mit denen die Datenanalyse einer Entdeckungsreise gleicht - man navigiert leichtfüßig durch die Daten, lässt sich von interessanten Auffälligkeiten links und rechts des "Analyse-Wegesrands" leiten und hat mit wenigen Mausklicks einen umfassenden Eindruck von dem so erforschten Datenraums gewonnen.

Die Tool-Anbieter haben in nächster Zeit zahlreiche weitere - auch größere - Entwicklungsschritte vor sich. Dazu gehört zum Beispiel neben der höheren Automatisierung von analytischen Routineaufgaben die Bereitstellung leistungsstarker konfirmativer Verfahren, mit denen man die durch Data Mining erzeugten Hypothesen überprüfen kann - ohne die Ergebnisse in ein separates Tool überführen und gegebenenfalls dort neu aufbereiten zu müssen.