Kritischer Blick auf die Performance
Um die Güte der Data-Mining-Ergebnisse (Modellqualität) umfassend zu beurteilen, wurden mit jedem Prüfkandidaten mehrere Prognosemodelle mit unterschiedlichen Verfahren erstellt: Die vier Lösungen wurden dazu zunächst mittels einer überschaubaren Testdatei mit 30.000 Datensätzen und 15 Variablen geprüft. Das Systemverhalten bei großen Datenmengen wurde anschließend durch Einlesen eines umfangreichen Datenvolumens mit 100.000 Datensätzen und 450 Variablen gemessen.
Die Benchmark-Daten enthielten eine Reihe typischer Datenqualitätsprobleme, mit denen Data-Mining-Tools umgehen können müssen, wie beispielsweise untereinander korrelierende Variablen, fehlende Werte oder Ausreißer. Schon im ersten Durchgang ergaben sich erhebliche Unterschiede in den Laufzeiten, die sich bei der Verarbeitung größerer Datenmengen noch verstärkten. Insbesondere der RapidMiner erwies sich in diesen Tests als instabil und zeigte drastisch verlängerte Berechnungszeiten mit höherem Datenvolumen. Die schlechte Skalierbarkeit der Lösung kann zum Ausschlusskriterium werden, wenn - wie durchaus häufig etwa im Handel, bei Banken oder Versicherungen - noch größere Datenmengen (wie Transaktionsdaten) verarbeitet werden sollen.
Die Effizienz der Analyse entscheidet
Dem SAS Enterprise Miner gelang insgesamt die beste Modellqualität. Die Bedienung der Suite geht trotz des großen Funktionsumfangs nach einer kurzen Eingewöhnungsphase relativ rasch von der Hand. Die Ergebnisqualität bei RapidMiner fiel im Vergleich ab, insbesondere die Übertragbarkeit der Modelle erwies sich als gering. Ein großer Nachteil besteht darin, dass RapidMiner keine Möglichkeit bietet, die mit unterschiedlichen Verfahren erstellten Modelle automatisch zu vergleichen. KXEN lieferte eine gute Modellqualität und zeigte sich zudem bei der Berechnung als unerreicht schnell.
Das modernste Gesamtkonzept kann laut Studie der Anbieter KXEN mit einem als "Self-Acting Data Mining" bezeichneten Ansatz vorweisen, bei dem die Datenvorbereitung nahezu automatisch abläuft. Gepaart mit der schnellen Ausführungsgeschwindigkeit führt dies zu einer sehr hohen Analyseeffizienz. Beim Test mit großen Datenvolumina veränderte sich zudem die Performance von KXEN Analytic Framework kaum.
Bei SAP gestaltete sich hingegen bereits das Einlesen der Daten problematisch und erforderte teilweise langwierige manuelle Eingriffe. So muss hier für jede Datenspalte ein separates Infoobjekt angelegt werden - für 450 Variablen ein erheblicher manueller Aufwand. Resultate und Laufzeiten waren bei SAP zwar durchaus zufriedenstellend - wenn auch nicht ganz so gut wie die Vergleichswerte von SAS und KXEN. Die geringere Analyseeffizienz macht die SAP-Lösung allerdings in der Anwendung umständlich.
Bewertung |
||||
Funktionsumfang |
++ |
++ |
0 |
0 |
Systemverhalten bei großen Datenmengen |
+ |
- - |
++ |
nicht bewertet |
Stabilität |
+ |
0 |
++ |
+ |
Dokumentation |
+ |
0 |
+ |
0 |
Gesamteffizient des Analyseprozesses |
+ |
- |
++ |
0 |
Automatisierungsgrad |
0 |
- |
++ |
- |
Ausführungsgeschwindigkeit |
+ |
- |
++ |
+ |
Modellqualität |
++ |
- |
+ |
0 |
Legende: ++ sehr gut; +gut; 0 zufriedenstellend; - unbefriedigend; -- ungenügend. |