Das Testfeld
Da Data-Mining-Funktionen in stark unterschiedlichen Tool- und Preiskategorien angeboten werden, fiel das Testfeld entsprechend breit aus: Die klassische, funktionsmächtige Data-Mining-Suite (SAS, StatSoft) findet sich ebenso darunter wie das Business-Intelligence-Werkzeug, das Data-Mining-Verfahren eher als Zusatz zu mächtigen Datenverwaltungsfunktionen offeriert (SAP). Um die Frage zu klären, ob sich die Analyseaufgabe auch mit einer kostenlosen Data-Mining-Suite zufriedenstellend lösen lässt, wurde zusätzlich eine Open-Source-Variante in den Test aufgenommen (WEKA).
Die diesjährige mayato-Studie legt den Schwerpunkt auf die Kundensegmentierung im Rahmen des Customer Relationship Analytics. Dazu traten anhand eines umfangreichen Testdatensatzes eines Finanzdienstleisters folgende vier Data-Mining-Tools und -Suiten gegeneinander an:
-
SAS Enterprise Miner 6.2
-
STATISTICA Data Miner 10 von StatSoft
-
WEKA 3.6.3 (Open-Source-Werkzeug, aktuell 3.7.2.)
-
SAP BW 7 (Data Mining Workbench)
Die Data-Mining-Toolkategorien
Bei näherer Betrachtung des Data-Mining-Softwaremarktes lassen sich typische Kategorien von Tools erkennen, deren Vertreter sich jeweils für unterschiedliche Anwendergruppen und Nutzungsszenarien eignen:
Zunächst sind hier die klassischen Data-Mining-Suiten (zum Beispiel von SAS, SPSS oder StatSoft) mit ihrem umfassenden Angebot an Funktionen für die Datenvorverarbeitung und Data-Mining-Verfahren zu nennen. Mit durchaus vergleichbarem Funktionsumfang werden sie inzwischen auch Open Source angeboten.
COMPUTERWOCHE-Studie Datenqualität (149,90 €)
Viele Unternehmen beschäftigen sich mit Datenqualität und sind mit den Ergebnissen ihrer einschlägigen Projekte auch ganz zufrieden. Was tun für eine bessere Datenqualität? Wir haben unsere Leser aus dem IT-Management gefragt, ob und mit welchem Erfolg sie für einen sauberen Datenbestand sorgen.
Demgegenüber stehen die schlankeren Data-Mining-Werkzeuge mit reduzierter Funktionalität: Sie sind in der Regel auf bestimmte Anwendungsgebiete (zum Beispiel Controlling) oder Analysefälle (zum Beispiel Prognose- und Klassifizierungsaufgaben) spezialisiert. Eine Sonderstellung in dieser Kategorie nimmt die softwaretechnische Umsetzung des Self-Acting Data Mining ein. Dieser hochautomatisierte Ansatz kommt weitgehend ohne manuelle Datenvorverarbeitung und Parametrisierung aus und eignet sich daher besonders gut für schnelle, erste Analyseprojekte.
Weiterhin haben zahlreiche Datenbank- und BI-Anbieter wie SAP, Oracle oder Microsoft in manchen Fällen recht umfangreiche Data-Mining-Funktionen in ihren Suiten integriert.