Grundsätzlich haben Entscheidungen, die auf Daten basieren, das Potenzial besser zu sein, als solche, die Menschen aufgrund ihrer individuellen Erfahrungen treffen. Das gilt allerdings nur dann, wenn die Menge der erfassten Daten groß und relevant genug ist. Bei aller Datengläubigkeit vergessen wir leicht, dass Menschen einen großen Datenvorteil gegenüber Maschinen haben: Er besteht im kontextuellen Wissen und semantischen Verständnis.
Menschen kennen die Zusammenhänge. Wenn ein Mensch eine Anzahl Kleidungsstücke sieht, kann er mit einer ziemlich hohen Treffsicherheit sagen, ob sie von jungen Frauen oder von älteren Männern gekauft werden - ohne auch nur einen einzigen direkten Kaufvorgang beobachtet zu haben.
Schwillt die Datenmenge an, wird die Maschine besser. Menschen tendieren zu Vorurteilen, sie sind auch dann noch von ihren Ideen überzeugt, wenn die Statistik schon klar in eine andere Richtung weist. Im Idealfall sollten daher objektive maschinelle Auswertungen mit kontextbezogener menschlicher Interpretation Hand in Hand gehen. Grundlage ist aber in jedem Fall ein gut gepflegter Datenbestand.
Stammdaten und Transaktionsdaten
Bekanntlich wird zwischen zwei Datenarten unterschieden, die für Analysen relevant sind: Transaktionsdaten (Transactional Data, früher auch Bewegungsdaten genannt) und Stammdaten (Master Data). Transaktionsdaten sind alle Daten von einzelnen Vorgängen: eine Rechnung, ein Kaufvorgang, aber auch ein einzelner Mausklick. Sie dokumentieren einen Vorgang, der abgeschlossen ist. Daher sind sie nach ihrer Erfassung keinen Änderungen unterworfen. Ein einmal erfolgter Mausklick ändert sich nicht, der nächste Mausklick auf ein anderes Produkt ist ein weiterer Datensatz (siehe auch: So geht Stammdaten-Management).
Transaktionsdaten beziehen sich auf Stammdaten. Diese beschreiben Objekte beziehungsweise Subjekte. Ein Produkt in einem Onlineshop wird durch einen Stammdatensatz beschrieben, ebenso ein Kunde. Der Transaktionsdatensatz Mausklick im Onlineshop beschreibt beispielsweise, dass Kunde Nr. 4711 (Heinz Mustermann) auf Produkt 123456 (iPhone Cover Leder schwarz für 19,90 €) geklickt hat und zwar am 17. Juni 2015 um 14:51 Uhr. Zuvor hat er "iPhone Hüllen" gesucht und besagtes Produkt an Position vier gefunden.
Die Stammdaten zu Produkt 123456 enthalten neben einer Bezeichnung beispielsweise die Farbe, den Herstellernamen, den Preis und den Lagerbestand sowie oft zusätzliche Informationen. Die Stammdaten zu Kunde 4711 enthalten neben Namen und Adresse vielleicht das Geburtsdatum, die Bankverbindung und die Email-Adresse.
Im Gegensatz zu Bewegungsdaten können sich Stammdaten ändern. Der Shop kann den Preis von Produkt Nr. 123456 erhöhen oder senken, der Lagerbestand ändert sich nach jedem Kauf. Kunde 4711 kann umziehen oder seine Bank wechseln. Während die Anzahl von Transaktionsdaten in den Big-Data-Bereich anschwellen kann, ist die Anzahl der Stammdaten selten höher als ein paar Millionen.
Die Stammdaten sind entscheidend
Wenn also die Stammdaten zahlenmäßig so deutlich in der Minderheit sind - warum sind sie dann so wichtig? Weil Transaktionsdaten sich immer auf Stammdaten beziehen. Liegen in den Stammdaten Fehler vor, multiplizieren sich diese mit der Menge dieser Beziehungen. Ist also für das oben genannte iPhone Cover in den Stammdaten eine falsche Farbe hinterlegt, so werden in einer Analyse alle Klicks auf dieses Produkt falsche Farbpräferenzen des jeweiligen Kunden ermitteln.
Ganz abgesehen davon würde die Retourenquote massiv ansteigen. Steht Herr Mustermann fälschlich als Frau Mustermann in der Datenbank, würde ein verstärktes Interesse von Frauen an Rasierklingen und Technikspielzeugen erkannt - mit entsprechenden Folgen für das automatisierte Empfehlungssystem (Recommendation Engine).
Normalisierung der Produktdaten ist wichtig
Hersteller stellen ihre Produkte gerne als etwas ganz Besonderes dar, indem sie diese wolkig beschreiben. So sind Farben nicht mehr rot oder blau, sondern "Volcano" oder "Deep Ocean". Aus dem Material Baumwolle wird "Fil d’ecosse" oder auch "pure cotton" - klingt doch schon viel wertiger, oder? Damit aber die Personalisierungs-Engine im Online-Shop erkennen kann, dass der Kunde gerne Baumwolle trägt, müssen Sie wieder überall als Produktmerkmal "Baumwolle" eintragen. Das klingt zwar langweilig, funktioniert aber besser.
- Daten_Wildwuchs_Shutterstock_naqiewei Kopie
Kommt die Rede auf Datenqualität, haben viele Unternehmen ein schlechtes Gewissen. Das riecht nach einem großen Projekt mit unsicherem Return on Investment. Doch der Einsatz zahlt sich aus, sofern man ein paar Regeln im Auge behält. - 1. Gebot: Du sollst erkennen, dass du betroffen bist!
Datenbanken sind kein statisches Gebilde. Sie unterliegen ständiger Veränderung. Werden sie nicht gepflegt, schleicht sich Wildwuchs ein - durch falsches oder doppeltes Ablegen von Informationen etwa, durch unterschiedliche Schreibweisen, durch unkontrolliertes Zusammenführen von Datenbanken etc. Jedes Unternehmen ist betroffen. - 2. Gebot: Du sollst Verantwortliche für Datenqualität benennen!
Datenqualität ist nur zu haben, wenn es Mitarbeiter gibt, die ein Bewusstsein für die Wichtigkeit der Datenpflege haben und sich um diese Aufgabe dauerhaft kümmern. Dazu muss ein Hauptverantwortlicher ernannt werden, der in regelmäßigen Zeiträumen einen Blick auf die Datenqualität wirft, die Reports von Data-Quality-Tools auswertet und gegebenenfalls Handlungen einleitet. - 3. Gebot: Du sollst Deinen Datenschatz hüten und anreichern!
Die bereinigte Datenbank muss vor neuen Verschmutzungen geschützt werden. Dabei können Data-Quality-Werkzeuge helfen, die jeden neuen Datenbankeintrag prüfen. So lässt sich herausfinden, ob Datensätze schon einmal angelegt wurden (fehlertoleranter Dublettenabgleich), ob Name, Adresse etc. stimmen und die Angaben plausibel sind (Abgleich mit Referenzdatenbanken) oder ob Kunden oder Lieferanten Compliance-Bestimmungen verletzen (Abgleich mit Sanktionslisten). - 4. Gebot: Du sollst deine Daten zugänglich und leicht auffindbar machen!
Auch die bestgepflegte Datenbank nützt nichts, wenn die in ihr schlummernden Informationen im Bedarfsfall nicht schnell genug gefunden werden. Um das zeitnahe Auffinden von Datensätzen zu gewährleisten, bedarf es einer fehlertoleranten Suchfunktion, die in der Lage ist, selbst in riesigen Datenmengen die gewünschten Informationen schnell aufzuspüren. - 5. Gebot: Du sollst Datenqualitätsprozesse automatisieren!
Datenbanken beinhalten oft Hundertausende oder sogar Millionen von Datensätzen. Es wäre ineffizient, Aufgaben der Datenbereinigung und der laufenden Qualitätspflege manuell steuern zu wollen. Viele der genannten Prozesse und Aufgaben können mit entsprechender Software in serviceorientierten Architekturen (SOA) automatisiert ablaufen. - 6. Gebot: Du sollst Datenqualität als internationale Aufgabe begreifen!
Datenqualität wird mehr und mehr zur grenzüberschreitenden Herausforderung. Im Falle von Fusionen und Übernahmen müssen internationale Stammdaten miteinander in Beziehung gesetzt werden. Darüber hinaus weiten immer mehr Unternehmen ihren Einkauf auf weltweite Märkte aus. - 7. Gebot: Du sollst dich auf Expertenwissen stützen!
Es bringt nichts, Daten einfach durch ein Analysetool laufen zu lassen. Im Umgang mit Stammdaten ist Know-how gefragt. Das betrifft die grundsätzliche Zielstellung und Herangehensweise, die Parametrierung der operativen Prozesse, die Bewertung der Ergebnisse und das Installieren von Automatismen zur nachhaltigen Qualitätspflege. - 8. Gebot: Verbessere die Qualität deiner Daten schrittweise!
Datenqualitäts-Prozesse werden am besten erstmal in nur einem Bereich gestartet, und zwar dort, wo der Nutzen am größten ist. Dieses Vorgehen hat sich in der Praxis vielfach bewährt. So ergeben sich schon in kurzer Zeit messbare Erfolge im Kleinen, etwa im CRM-System. Zudem sorgt die Strategie der kleinen Schritte für Planungssicherheit. - 9. Gebot: Du sollst die Ziele deiner Datenqualitäts-Aktivitäten immer vor Augen haben!
Datenqualität dient letztlich dem einen großen Ziel, alle Prozesse im Unternehmen effizienter zu gestalten, um den Gewinn zu maximieren. Damit dieses große Ziel im kleinen Datenqualitäts-Alltag nicht aus den Augen gerät, empfiehlt es sich, unternehmensspezifische Messgrößen (Key Performance Indicators = KPIs) zu definieren. - 10. Gebot: Du sollst die Früchte hoher Datenqualität ernten!
Wer seine Kunden fehlerfrei anspricht, vermittelt Professionalität und Kompetenz, vermeidet Reklamationen oder gar Kündigungen und sorgt für überschaubare Prozesskosten. Wer saubere Kreditoren- und Materialstammdaten hat, verringert den Verwaltungsaufwand und ist in der Lage, Einkaufsprozesse zu optimieren und etwa Mengenvorteile konsequent auszuschöpfen.
Tragen Sie diese Normalisierung in ein eigenes Feld zusätzlich zu den Phantasiebezeichnungen ein. Für die Conversion funktioniert die emotional aufgeladene Phantasiebezeichnung allerdings sicher besser, in der Produktbeschreibung sollte deshalb durchaus ein Satz stehen wie "Erhältlich in den Farben Volcano, Deep Ocean und Spring Blossom".
Sorgen Sie für Vollständigkeit!
Ist in einem Feld gar nichts eingetragen, kann auch nichts analysiert werden. Merkmale von Produkten sind für die Personalisierung der wichtigste Einflussfaktor. Fehlen Produktmerkmale, ist Personalisierung gar nicht mehr oder nur noch eingeschränkt möglich. In der gelebten Praxis fehlen aber oft Informationen. Viele Felder sind nicht befüllt, weil die Angaben vom Lieferanten nicht zur Verfügung gestellt werden.
Hier lohnt sich oftmals ein genauerer Blick. Nicht selten sind relevante Informationen im Fließtext enthalten: "Dieses wunderschöne Sommerhemd aus reiner Baumwolle bringt durch seine taillierte Form ohne aufgesetzte Taschen …" und schon weiß der Mensch, der das liest: Material: Baumwolle, Passform: tailliert, Taschenanzahl: 0. Maschinen können das heute auch. Doch dazu später mehr (siehe auch: Zehn Gebote für mehr Datenqualität).
Welche Daten sind relevant?
Vom Anwendungsfall hängt ab, welche Daten relevant sind. Für die Personalisierung im Onlineshop (oder auch in In-Store-Lösungen oder kundenindividuell gedruckten Katalogen) gibt es ein paar zentrale Merkmale, die auf besondere Präferenzen der User hindeuten. "Unterwäsche kaufe ich nur von Schiesser" oder "Computerzubehör nehmen wir von Logitech" sind typische Aussagen, die einige User treffen würden. Das sind Präferenzen auf dem Merkmal Marke.
Hier handelt es sich ähnlich wie bei "Preissegment" um relevante Merkmale, die relativ sortimentsunabhängig sind. Zudem kaufen manche User nur ein ganz bestimmtes Produktsegment, also zum Beispiel nur das Zubehör für ein Elektrogerät, nicht aber das Gerät selbst. Wollen Shopbetreiber hier den Share of Wallet erhöhen, sollten Sie die Aussteuerung an dieser Stelle nicht der selbstlernenden Maschine überlassen.
- Warengruppen 2025
eCommerce Anteile 2025; Quelle: GfK, July 2015 - Warengruppen 2014
eCommerce Anteile 2014, mit und ohne Food; Quelle: GfK, July 2015 - Warengruppen 20142014
Online-Umsatz-Anteile je Warengruppe; Quelle: GfK, July 2015 - Diffusionsmodell als Theorie-Gerüst
Berücksichtigung von Innovationen und Imitationseffekten; Quelle: GfK, July 2015 - Anteile der Warengruppen in %
Sortiment bezogene Kaufkraft; Quelle: GfK, July 2015 - Online-Umsatz-Anteile 2008-2025
Die Gewichte der Sortimente am gesamten Online-Handels-Volumen verschieben sich; Quelle: GfK, July 2015 - Online-Kauf befriedigt rationale Bedürfnisseonal
Offline-Kauf berührt emotional; Quelle: GfK, July 2015 - Sättigungstendenzen
Online-Handel auf dem Weg zur Reife; Quelle: GfK, July 2015 - Soziodemografie
Allein stehende Männer kaufen am meisten online; große Familien bevorzugen den PoS; Quelle: GfK, July 2015 - eCommerce-Umsatz 2009-2014
Je nach Branche unterschiedliche Entwicklung; Quelle: GfK, July 2015 - Wachstumstreiber des Online-Handels
Kreislauf mit nachlassender Dynamik; Quelle: GfK, July 2015
Wohlgemerkt, Obiges gilt für die Personalisierung. Andere Maßnahmen erfordern andere Daten: Für die Empfehlung ergänzender Produkte durch eine Recommendation Engine (Cross Selling) ist es sinnvoll, das Produktsegment mitlernen zu lassen. Das wird häufig nicht getan und führt dann etwa dazu, dass ein Kunde nach dem Kauf eines Fernsehers einen weiteren Fernseher angeboten bekommt. Manche Recommendation Engines sind dieser Herausforderung nicht gewachsen, oder die Produktdaten sind nicht klaren Produktkategorien zugeordnet.
Manuelle oder automatisierte Pflege? Beides!
Was tun, wenn wie aufgeführt viele Daten nicht ordnungsgemäß in den Feldern der Produktstammdaten eingetragen sind, sondern nur im Fließtext stehen? Manuelle Pflege empfiehlt sich, wenn der Datenbestand klein ist (wenige tausend Produkte und nur wenige hundert mit Unzulänglichkeiten) und sich nicht oft ändert. Dann ist dies der kostengünstigste Weg.
Schauen Sie, welche Felder leer sind (das geht mit Excel) und ob Sie die Information an anderer Stelle finden. Kopieren Sie etwa das Feld mit der Farbe, machen Sie eine Tabelle aller Farben und lassen Sie "Suchen & Ersetzen" laufen. Verfahren Sie ebenso mit allen weiteren Feldern, die Sie normalisieren wollen. Kontrollieren Sie die Ergebnisse nochmals manuell. Unterschätzen Sie den Aufwand nicht. Diese Vorgehensweise kann zehn Minuten je Datensatz in Anspruch nehmen. Wenn sich Daten ändern oder neu hinzukommen, wiederholen Sie das Vorgehen entsprechend.
Mit Datenqualitäts-Software lassen sich solche Vorgänge automatisieren, die Informationen aus dem Text extrahieren, Farben und Größen normalisieren, Millimeter in Zentimeter umrechnen etc. Geht es um größere Datenmengen, empfiehlt sich dieser automatisierte Weg, besonders wenn sich Daten häufig ändern. Neben der Kostenersparnis ist die Geschwindigkeit der zweite große Vorteil: Neue Daten werden umgehend optimiert und neue Produkte in optimaler Weise berücksichtigt. Es hilft hier, einen passenden Berater an der Seite zu haben, da viele Vorgänge komplexer sein können, als es zunächst den Anschein hat.