Wie umgehen mit Kundendaten?
Sowohl Produkt- als auch Kundendaten sind Stammdaten. Aber die Datenstruktur und das Nutzungsverhalten unterscheiden sich fundamental. Deshalb sind hier andere Maßnahmen erforderlich.
In gut gepflegten Datenbanken finden sich etwa vier bis sechs Prozent der Datensätze doppelt angelegt - sogenannte Dubletten. Leider sind die Datenbanken vieler Online-Händler alles andere als gut gepflegt: Kunden tragen sich neu ein, weil sie das Passwort zu ihrem alten Account nicht mehr wissen. Oder sie tun es absichtlich, weil sie auf der Blacklist stehen. Vielleicht wollen sie auch nur ein weiteres Mal Neukundenvorteile nutzen. Daher sehen wir bei Online-Händlern oft zweistellige Dublettenraten.
Viele Shops bieten heute auch eine "Gastbestellung" an, bei der nur die für die Bestellung notwendigen Daten erhoben werden, der User aber kein Passwort erhält. Ist der User aber zufrieden, kommt er wieder - und gibt seine Adresse ein weiteres Mal ein. Dubletten sind somit vorprogrammiert.
Selbst wenn die Dublettenrate im einstelligen Prozentbereich liegt, verfälscht sie Analysen beträchtlich, denn Dubletten betreffen die Stammkunden. Wer nur einmal bestellt hat, kann seine Adresse nicht doppelt angegeben haben. Bei einer Dublettenrate von fünf Prozent gehen wir als Richtwert davon aus, dass der Stammkundenbestand sogar zu 30 Prozent betroffen ist.
Stammkunden sind für viele Analysen besonders wichtig. Im Folgenden ein Beispiel, wie eine Recommendation Engine für das Cross-Selling die passenden Produkte findet (siehe auch: Das sollten E-Commerce-Plattformen im Unternehmen leisten).
Warum schaden Dubletten?
Damit eine Recommendation Engine Empfehlungen für das Cross-Selling erzeugen kann ("wer das gekauft hat, kauft auch das"), muss sie bisherige Verbundkäufe analysieren. Diese können in einem einzelnen Warenkorb liegen, sie können aber auch aus mehreren Käufen des gleichen Kunden gebildet werden.
Nehmen wir an, ein Kunde kauft
beim ersten Kauf Produkt A und B
beim zweiten Mal Produkt C und
beim dritten Kauf Produkt D, E und F.
Wird nur jeder Warenkorb einzeln analysiert, können nur die Zusammenhänge A+B, D+E, D+F und E+F ermittelt werden - es ergeben sich vier Kombinationen. Bringt man alle drei Käufe zusammen, ergeben sich 15 Kombinationen, also mehr als das Dreifache.
Ist der Kunde beim ersten Kauf unter einem anderen Datensatz gespeichert als bei den beiden anderen, ergeben sich aus A+B eine Kombination sowie aus den Produkten C, D, E und F sechs Kombinationen, zusammen also 7. Schon eine einzelne Dublette reduziert hier die für den Lernprozess verfügbaren Paarungen auf weniger als die Hälfte (7 statt 15).
Eine weitere wichtige Kennzahl ist der Customer Lifetime Value (CLV). Hierbei wird ermittelt, welchen Deckungsbeitrag ein Kunde bringt, bevor er abspringt. Der CLV ist eine Grundlage für die Entscheidung, wie viel man für die Gewinnung eines weiteren Kunden auszugeben bereit ist. Wenn man den CLV je Werbemaßnahme ermitteln kann, lassen sich Entscheidungen treffen, welche Werbemaßnahmen man besser abschaltet und wovon mehr gebucht werden sollte.
Gelangt der Kunde beim ersten Kauf über eine bestimmte Werbemaßnahme - zum Beispiel ein Schnäppchen auf einer Preissuchmaschine - in den Shop, kann sich aber beim zweiten Kauf nicht an sein Passwort erinnern und registriert sich deshalb neu, können die weiteren Käufe nicht der Werbemaßnahme zugeordnet werden. Die Listung auf der Preissuchmaschine wird dann möglicherweise abgeschaltet, obwohl sie sich lohnen würde.
Dubletten werden außerdem von Kunden aktiv angelegt, um ein Blacklisting zu umschiffen. Wer sie zulässt, beliefert Nichtzahler, Dauerrücksender etc. Das hat zwar nichts mit Analytics zu tun, aber durchaus mit Rendite.
Dubletten entdecken
Alles wäre so einfach, wenn sämtliche Bestandteile einer Kundenadresse bei jeder Eingabe in identischer Schreibweise angelegt würden. Das ist aber oft nicht der Fall: Aus der Pestalozzistr. wird versehentlich die Petsalozzistr., die Postleitzahl enthält einen Zahlendreher oder Alexandra kürzt ihren Vornamen als Alex ab. Tipp- und Orthografiefehler beim eigenen Namen sind nach unserer Erfahrung selten, mit einer Ausnahme: Wer ein Blacklisting umgehen will, wird erfinderisch, da nennt sich ein "Mayer" auch mal in "Meier" um - das Paket kommt ja trotzdem an.
Um Dubletten zu finden, ist die Prüfung der Email-Adressen ein guter erster Schritt: Stimmt sie bei zwei Kundendatensätzen überein, hat man einen zumindest fast sicheren Treffer. Allerdings haben viele Menschen mehrere Email-Adressen (ich habe zwei private und sechs geschäftliche), und manche geben auch zur Spam-Vermeidung gezielt nicht die korrekte Email-Adresse an, wenn dies nicht offensichtlich erforderlich ist. Blacklist-Vermeider holen sich einfach eine neue Gratis-Email-Adresse.
Da es bundesweite und auch internationale Straßenverzeichnisse gibt, kann man Straßennamen und Postleitzahlen mit Software automatisch prüfen und korrigieren lassen. Ob der Name nun korrekt Mayer oder Meier heißt, kann die Software allerdings nicht wissen. Es gibt aber gute Dubletten-Prüfsoftware, die ähnliche Datensätze einander zuordnet, so dass die oben aufgeführten Folgen für die Analyse vermieden werden.
Falsche Angaben bei Kundenattributen
Viele Onlineshops versuchen, von ihren Kunden zusätzliche Daten zu erfragen, die für die Paketzustellung und für die Zahlung nicht erforderlich sind, aber dabei helfen, den Kunden besser einzuordnen. Wenn der Kunde keinen Sinn darin sieht, diese Informationen preiszugeben, wird oft etwas Falsches eingetragen, vor allem wenn die Angaben verpflichtend sind: In manchen Kundendatenbanken sehen wir über fünf Prozent Personen, die am 1. Januar geboren sind. Das Geburtsjahr wird vermutlich noch häufiger geändert. Alle Daten, die in die Analyse einfließen, sollten daher auf Plausibilität geprüft werden. Bleiben Zweifel, ist es besser das entsprechende Feld für Analysen wegzulassen.
Probleme auch bei Transaktionsdaten
Auch wenn die Erfassung von Transaktionsdaten ein rein technischer Vorgang ist und daher nicht dieselben Gestaltungsmöglichkeiten wie die Bearbeitung von Stammdaten bietet, fällt uns ein Problem auch hier immer wieder auf: Die meisten Analysen von Online-Shops erheben Transaktionsdaten, indem sie ein Zählpixel in die Webpage einbauen. Der gröbste Fehler, den es hier zu vermeiden gilt: Achten Sie darauf, dass das Zählpixel nicht durch Caching verfälscht wird. Durch die Cache-Zwischenspeicherung werden sonst insbesondere die häufig abgerufenen Seiten nicht für jeden Kunden erfasst, was zu einer erheblichen Verfälschung der Daten führt.
Data Driven Marketing birgt ein enormes Potenzial. Es kann zu einer besseren und präziseren Aussteuerung des Online-Shops genutzt werden und ebenso für die Personalisierung von Katalogsendungen, Mailings und Instore-Advertising hochrelevant sein. Analysen können eine großartige faktische Basis schaffen, um Entscheidungen zu treffen und Maßnahmen zu begründen. Doch Data Driven Marketing ist nur so viel wert, wie die Daten, auf denen es aufsetzt. Das Fundament sind immer die Stammdaten. Ihrem Big-Data-Vorhaben sollte daher ein Master-Data-Projekt vorausgehen.