Data Mining Studie

So finden Sie das richtige Analyse-Werkzeug

24.08.2009
Von 
Peter Neckel ist Analyst beim Data-Mining-Spezialisten Mayato.

Test: Unterschiede im Funktionsumfang

Im Praxistest zeigte sich, dass die Bedienung der Data-Mining-Tools dank grafischer Benutzeroberflächen zwar grundsätzlich leicht von der Hand geht. Ein dominierendes Bedienkonzept, an dem sich die die meisten Anbieter orientieren, lässt sich jedoch nach wie vor nicht erkennen. Manche Hersteller gehen sogar dazu über, mehrere Modi für unterschiedliche Anwendertypen anzubieten.

Dennoch erfordern insbesondere die mächtigen Data-Mining-Suiten im Vergleich zu spezialisierten Werkzeugen nicht nur einen erhöhten Einarbeitungsaufwand, sondern auch fundiertes Hintergrundwissen. StatSoft und KXEN versuchen dem Gelegenheitsanwender entgegen zu kommen, indem sie beispielsweise Assistenten anbieten, die eine feste Abfolge an Analyseschritten vorgeben und die erforderlichen Eingaben dazu systematisch abfragen.

Mustertypen im Data Mining.
Mustertypen im Data Mining.

Deutliche Unterschiede lassen sich auch beim Funktionsumfang feststellen. Bei SAP und KNIME zeigen sich hier spürbare Lücken: Beide Tools bieten zum Beispiel keine Sequenzanalyse an, so dass die zeitlichen Abstände zwischen den Kauftransaktionen nicht berücksichtigt werden können. Das bedeutet in der Praxis eine deutliche Einschränkung, da so nicht nur zahlreiche analytische Anwendungsszenarien im Umfeld des Cross- und Upselling, sondern auch im Risiko-Management oder in der Betrugserkennung bei Banken und Versicherungen ausgeklammert werden.

Beide Werkzeuge bieten zudem nur eine rudimentäre Unterstützung bei der Ergebnisauswertung - bei großen Datenmengen ist der Anwender mit der Interpretation nicht sortierbarer Standardlisten, die mehrere Hundert Assoziationsregeln enthalten, deutlich überfordert. KNIME fällt zusätzlich bei der Laufzeit ab - im Wesentlichen verursacht durch die zeitraubende Datenvorverarbeitung, die für die Erstellung der zur internen Berechnung verwendeten Datenstruktur notwendig ist.

Dass es auch komfortabler geht, zeigen der SAS Enterprise Miner und der Statistica Data Miner. Sie punkten beide mit umfangreichen Funktionen, einer hohen Ausführungsgeschwindigkeit und sicherem Umgang mit großen Datenmengen. Insbesondere die von beiden Tools gebotenen, vielfältigen Optionen zur grafischen Aufbereitung und Exploration der Assoziationsregeln sind im Testfeld eine Klasse für sich.

Vor allem bei der grafischen Ergebnisauswertung zeigt hingegen das Analytic Framework von KXEN Schwächen: Hier kann der Anwender nur über eine - allerdings komfortabel konfigurierbare - Text-basierende Ausgabe verfügen. KXEN überzeugt vor allem mit der einsteigerfreundlichen Bedienung und seinem schnellen, selbstentwickelten Assoziationsverfahren. Es eignet sich somit insgesamt gut für das routinemäßige Analysieren großer Datenmengen.