Das Testfeld: Marktführende Analyse-Tools im Vergleich
In der diesjährigen Ausgabe der "Data Mining Studie" von Mayato treten zum ersten Mal die eher an die Belange von Statistikanwendern ausgerichteten Analysewerkzeuge gegeneinander an. Dem Marktführer "IBM SPSS Statistics Professional" wurde unter anderem das Statistikprodukt "Statistica Professionell" von Statsoft entgegengestellt. Von SAS Institute wurde bewusst nicht die Data-Mining-Suite "Enterprise Miner", sondern der "Enterprise Guide" ins Rennen geschickt. Zur Beurteilung der Leistungsfähigkeit von Open-Source-Software haben die Experten "RapidMiner" von Rapid-I und die darin integrierbare Programmiersprache für Statistik "R" ins Testfeld aufgenommen. Dieses besteht somit aus folgenden vier Tools:
- IBM SPSS Statistics Professional 21,
- Statsoft: Statistica Professionell 12,
- Rapid-I: RapidMiner 5.3 / R.
Das Testszenario: Media Analytics
Wie eingangs skizziert, bildet der Bereich Media Analytics ein aktuelles und zudem für Analyse-Tools anspruchsvolles Anwendungsfeld. Das konkrete Testszenario stellt sich folgendermaßen dar:
Ein App-Anbieter möchte sein Marketing-Budget effizient auf unterschiedliche Online- und Offline-Kanäle verteilen. Dazu müssen eine Reihe von Detailentscheidungen getroffen werden - zum Beispiel, in welchen Medien, auf welchen Kanälen, zu welchen Zeiten, in welcher Intensität für die App des Unternehmens geworben werden soll. Eine Offline-Kampagne des App-Anbieters im TV umfasste unter anderem mehrere hundert Ausstrahlungen auf dem Nachrichtensender N24, zu verschiedenen Zeiten, mit unterschiedlichen Zuschauerreichweiten und variierenden Spotlängen. Gleichzeitig wurde intensiv auf den Mobile-Marketing-Kanälen für die App geworben. Zudem hat auch das Ranking der App in einem Online-Portal wie dem App Store von Apple Einfluss auf die Nachfrage der Nutzer.
Um die damit verbundenen Entscheidungen durch Datenanalysen auf eine fundierte Grundlage zu stellen, wurden im Rahmen von Mayatos Media-Analytics-Ansatz Offline- und Online-Daten verknüpft, um den Einfluss der unterschiedlichen Werbemaßnahmen auf Online-Zielgrößen - im vorliegenden Fall die Anzahl der iOS-Installationen - sichtbar zu machen.
Zur Modellierung der beschriebenen Ursache-Wirkung-Zusammenhänge wurden unter anderem mehrere Prognosemodelle auf Basis von linearen Regressionsverfahren erstellt. Ziel war zum einen die Identifizierung der wesentlichen Einflussfaktoren der Online- und Offline-Werbung auf die Zielgröße. Zum anderen sollte die Zahl der App-Installationen unter gegebenen Werbebedingungen vorhergesagt werden. Der Praxistest erfolgte anhand einer Stichprobe aus den realen Datenbeständen des App-Anbieters.
Bewertungskriterien decken den Data-Mining-Prozess ab
Anhand des beschriebenen Szenarios wird der gesamte Analyseprozess im Test durchlaufen. Ein derart aufwendiges Testkonzept liefert wertvolle praxisrelevante Erkenntnisse im direkten Vergleich, die sich nicht aus den Produktbeschreibungen der Tool-Anbieter ableiten lassen.
Die Bewertung der Tools stützt sich dabei auf eine breite Zahl von Einzelkriterien. Dazu zählen sowohl Funktionalitätsaspekte wie der Funktionsumfang in den Kategorien:
- Datenvorverarbeitung,
- Analyseverfahren,
- Parametrisierung,
- Ergebnisvisualisierung,
- Gesamteffizienz,
und Faktoren, was die Benutzerfreundlichkeit betrifft:
- Stabilität,
- Ausführungsgeschwindigkeit,
- Dokumentation,
- Bedienung.