Praxistauglichkeit von Tools für Data Mining
Die Qualität der Ergebnisse, die Ausführungsgeschwindigkeit bei großen Datenmengen und die Analyseeffizienz, die Data-Mining-Produkte bieten, sind indes sehr unterschiedlich. Dies zeigte die Studie der Unternehmensberatung Mayato "Data-Mining-Software 2009", in der unter anderem vier Produkte einen umfangreichen Praxistest durchliefen.
Verwirrender Markt
Rund 150 Data-Mining-Lösungen sind heute auf dem Markt erhältlich;
Das Spektrum reicht von großen kommerziellen Produktsuiten über Spezialwerkzeuge von Nischenanbietern bis hin zu funktional mächtigen Open-Source-Tools;
Oft sind Data-Mining-Funktionen auch als Teil von Software für Business Intelligence oder von Unternehmensanwendungen erhältlich, was allerdings eine unabhängige Prüfung ihrer Leistung und Qualität erschwert;
Unternehmen sollten einmal nachschauen, ob sie nicht Softwarelizenzen haben, die Data-Mining-Funktionen einschließen. Dies ist beispielsweise bei Enterprise-Lizenzen für Datenbanksysteme wie Oracle oder dem Microsoft SQL Server der Fall. Ebenso sollten sich Besitzer von IBM- oder SAP-Lizenzen bei ihrem Lieferanten nach zusätzlichen Data-Mining-Features erkundigen.
Grundsätzlich gilt jedoch: Die Auswahl von Produkten und Funktionen ist nur dann sinnvoll, wenn ein Unternehmen zuvor die Ziele und Anforderungen definiert hat, die mit Data-Mining-Analysen erreicht werden sollen.
Als Entscheidungshilfe können Anwender die Studie "Data-Mining-Software 2009" der Unternehmensberatung Mayato heranziehen. In ihr wurden zwölf Suiten und Werkzeuge einem ausführlichen Funktionsvergleich unterzogen; vier davon durchliefen zusätzlich einen Praxistest. Die Studie ist in gedruckter Form oder als PDF erhältlich und kann über sales@mayato.com bestellt werden.
Es waren dies die kommerzielle Data-Mining-Suite "SAS Enterprise Miner 5.3" (im ersten Halbjahr 2009 wurde mittlerweile der Enterprise Miner 6.1 vorgestellt), die Open-Source-Suite "RapidMiner 4.2" vom Anbieter Rapid-I (mittlerweile ist Version 4.4 draußen), das Werkzeug "KXEN Analytic Framework 4.04" sowie die integrierte "Data Mining Workbench" von "SAP Netweaver BI". Gleich stark gewichtet wurden die für den Analyseprozess zentralen Aspekte Verfahrensspektrum, Performance, Modellqualität, Automatisierungsgrad sowie Kriterien wie Stabilität und Bedienbarkeit der Produkte.
Der Testaufbau und die Funktionsbewertung folgten dem Ablauf des klassischen Data-Mining-Prozesses: Zu Beginn steht die Datenauswahl, die von der Software etwa durch unterschiedliche Eingabeformate oder Funktionen zur Auswahl und Darstellung von Datensätzen - auch aggregiert als statistische Kennzahlen - unterstützt werden sollte.
Vor der eigentlichen Analyse liegt jedoch die umfangreichste Aufgabe in einem Data-Mining-Projekt: die Aufbereitung der Daten. Auch hierfür sollten die Tools typische Funktionen bieten, welche zum einen die Daten vereinen, anreichern und kodieren helfen, zum anderen aber auch komplexere Berechnungen für zusätzliche Kennzahlen unterstützen.