CRM und Datenanalyse

Data-Mining-Tools auf dem Prüfstand

20.12.2011
Von 
Peter Neckel ist Analyst beim Data-Mining-Spezialisten Mayato.

Die Preismodelle

Es gibt unterschiedliche Mustertypen von Data-Mining-Tools mit verschiedenen Aufgabenschwerpunkten im CRM-Umfeld.
Es gibt unterschiedliche Mustertypen von Data-Mining-Tools mit verschiedenen Aufgabenschwerpunkten im CRM-Umfeld.

Der Anschaffungspreis für komplette Data-Mining-Suiten liegt weiterhin - abhängig von der Nutzeranzahl und der gewünschten Funktionalität - meist im sechsstelligen Euro-Bereich. Hier geht der Trend jedoch zu günstigeren Konditionen, da immer mehr Hersteller einzelne Funktionen in Pakete zusammenfassen und separat anbieten. Meist sind solche Pakete an typischen Nutzungsszenarien ausgerichtet, so dass man mit einem konkreten Analyseprojekt im Hinterkopf die jeweils passende Funktionalität erhält. Damit können Anwender beispielsweise ein individuelles Startpaket erwerben, das zudem bei Bedarf einfach zum Differenzpreis erweiterbar ist.

Aber auch komplette Suiten kosten nicht mehr zwangsläufig sechsstellige Summen: So ist die Einzelplatzlizenz des Statistica Data Miners bei vollem Funktionsumfang beispielsweise bereits ab 20.000 Euro erhältlich. Für Open-Source-Lösungen entfällt der Anschaffungspreis; bei professioneller Nutzung kommen jedoch jährliche Supportgebühren im vierstelligen Eurobereich hinzu.

Der Praxistest

Im Praxistest zeigten sich schnell die Stärken und Schwächen der jeweiligen Tools: Den höchsten Reifegrad erreichen der "SAS Enterprise Miner" und der "Statistica Data Miner". Sie sind flüssig zu bedienen und leisten sich im gesamten Test keine echte Schwäche. Ihre Stärken zeigen beide besonders bei hohen Ausführungsgeschwindigkeiten und dem sicheren Umgang mit großen Datenmengen.

SAS bettet den Enterprise Miner in eine leistungsfähige BI-Gesamtarchitektur ein, die dem erfahrenen Anwender eine breite Palette an Möglichkeiten bietet. StatSoft punktet mit der im Umfeld der Clusteranalyse größeren Funktionsvielfalt, mit den bequemer und feiner zu parametrisierenden Verfahren und der ausführlicheren Dokumentation. Statistica bietet weiterhin im Vergleich zu SAS das bessere Preis-Leistungs-Verhältnis.

Mit bereits deutlichem Abstand folgt das SAP BW mit der "Data Mining Workbench": Das liegt hauptsächlich daran, dass SAP lediglich ein Segmentierungsverfahren implementiert hat. Dieses kann zudem nur rudimentär parametrisiert werden und schränkt durch die erzwungene Variablen-Diskretisierung die praktische Anwendung unnötig ein. Dazu kommen erhöhte Ausführungszeiten und eine stark ergänzungsbedürftige Dokumentation, die die Einarbeitung erschwert. Überzeugen kann hingegen die grafische Darstellung der Ergebnisse; sie unterstützt die Interpretation durch einen guten optischen Eindruck und durch praxisgerechte Voreinstellungen.

WEKA wird von dem 270.000 Zeilen umfassenden Testdatensatz spürbar am meisten gefordert. Die gemessenen Ausführungszeiten sind wenig konkurrenzfähig, die allgemeine Systemstabilität ist für den professionellen Einsatz noch nicht ausreichend. Die nur rudimentär vorhandene Ergebnispräsentation erschwert die Interpretation der Cluster-Einteilungen zusätzlich: In WEKA lässt sich die spartanische Text-basierte Ausgabe nur mit hohem manuellen Aufwand in eine grafische Darstellung verwandeln. An dieser Stelle wäre eine Aufwertung des Tools mit vergleichsweise wenig Aufwand möglich.