Was die Flüchtlingskrise für die Datenbanken bedeutet

Flüchtlinge: Herausforderung für Datenqualität

20.12.2015
Von 
800x600

Holger Wandt ist seit 1991 für Human Inference tätig. Als Sprachwissenschaftler hat er viele Jahre an der Erfassung, Pflege und Qualität des Wissens, das die Produkte von Human Inference auszeichnet, gearbeitet. In seiner heutigen Position als Principal Advisor ist er verantwortlich für alle wissensbezogenen Fragen zur Datenqualität. Er ist der  Experte auf dem Gebiet der Interpretation von Kundendaten durch natural language processing, wobei wissensbasierte Verfahren  zum Einsatz kommen, die Einsichten der Computerlinguistik zur Spracherkennung und -synthese anwenden.  Diese Verfahren sind  die Grundlage des Erfolgs der Produktsuite von Human Inference. Daneben ist Dr. Wandt ein vielgefragter Referent auf (inter)nationalen Kongressen, Studienleiter der Masterclass Data Quality Management an der Nyenrode Buisnessuniversität und Dozent der linguistischen Fakultät an der Universität Utrecht Normal 0 21 false false false DE X-NONE X-NONE MicrosoftInternetExplorer4

Die sogenannte Flüchtlingskrise bietet zahlreiche Chancen für Wirtschaft und Gesellschaft. Allerdings stellt sie auch Datenbanken und Datenqualität vor neue Herausforderungen.

Die Gelder für die Bewältigung der Flüchtlingskrise wirken "ähnlich wie ein Konjunkturprogramm", denn jeder Flüchtling wird in naher Zukunft auch ein Konsument. Wenn die schnelle Integration in die Wirtschaft tatsächlich klappt, werden viele Zuwanderer schon bald als zahlende Kunden in den CRM-Systemen und Datenbanken der Unternehmen zu finden sein. Allerdings stellt die Komplexität arabischer Namen für Datenbanken und Datenqualität gleichermaßen eine Herausforderung dar. Doch hierfür gibt es bereits längst überfällige Lösungen.

Arabische Namen stellen Datenbanken und Datenqualität vor neue Herausforderungen. Wir zeigen Ihnen, wie Sie diese bewältigen.
Arabische Namen stellen Datenbanken und Datenqualität vor neue Herausforderungen. Wir zeigen Ihnen, wie Sie diese bewältigen.
Foto: alphaspirit - shutterstock.com

Rund 11 Milliarden Euro wird der deutsche Staat alleine in diesem Jahr für die Bewältigung der Flüchtlingskrise aufbringen müssen. Nach dem Herbstgutachten des Deutschen Instituts für Wirtschaftsforschung (DIW) sind die Aufwendungen aber gut angelegtes Geld - nämlich als zusätzlicher Anreiz für die Wirtschaft. "Das wirkt ähnlich wie ein Konjunkturprogramm", sagt DIW-Experte Ferdinand Fichtner. Einige Branchen spüren das schon heute, beispielsweise die Telekommunikationsanbieter. Denn eines bringen fast alle Flüchtlinge aus der Heimat mit oder beschaffen es sich hier sehr schnell: Ein Smartphone. Denn das Handy ist in der Regel zunächst die einzige Verbindung zu den Freunden und Verwandten in den Herkunftsländern.

Arabische Namen erfordern Datenbanken mit Komplexität

Auch auf Banken, Energieversorger und viele weitere Branchen kommen in der nächsten Zeit zahlreiche neue Kunden zu. Und arabische Namen wie "Abderrahim Al Husseini" oder "Oumaima El Khatib" stellen herkömmliche Kundendatenbanken vor neue Anforderungen, denn sie sind in der Regel erheblich komplexer als mitteleuropäische Namen. Neben dem persönlichen Namen gibt es oft noch Beinamen, Abstammungsbezeichnungen unterschiedlichster Art oder Ehrennamen. Und damit steigt auch das Risiko von Falscherfassungen und Buchstabendrehern, insbesondere bei der telefonischen Aufnahme der Adressen in Call-Centern oder durch falsch ausgefüllte Online-Formulare.

So vermeiden Sie unnötige Kosten

Dazu kommt das Risiko der Mehrfacherfassung, weil der angehende Kunde eventuell nicht weiß, dass er sich schon einmal bei diesem Unternehmen angemeldet hat und auch die Mitarbeiter dort dies nicht bemerken. Schon jetzt gehen Schätzungen selbst bei gut gepflegten Kundendatenbanken von zwei bis zehn Prozent Dubletten aus. Bei schlecht gepflegten Datenbanken können diese Zahlen sogar auf 20 bis 30 Prozent steigen.

Die Folgen sind unnötige Kosten, beispielsweise durch Retouren. Daher ist es sinnvoll, von vornherein auf die Datenqualität zu achten und dabei menschliche Intelligenz mit computergestützten Systemen zu kombinieren, um Kunden später richtig ansprechen zu können. Denn die bisher einigermaßen zuverlässig arbeitenden Prozeduren zur Dublettenerkennung und Adressvalidierung stoßen bei "exotischeren" Namen aus dem Irak, Syrien oder Afghanistan schnell an ihre Grenzen.

"First time right"-Datenbereinigung

Neben den herkömmlichen Algorithmen kommen deshalb in einer guten Datenqualitätssoftware auch wissensbasierte Methoden zum Einsatz. Sie wenden Einsichten der Computerlinguistik zur Spracherkennung und -synthese an, um eine deutlich höhere Erkennungsquote von Dubletten und Fehlern zu erreichen. Sinnvollerweise sollte die Datenbereinigung auch nach dem "First-Time-Right-Prinzip" erfolgen, bei dem Daten direkt bei der Eingabe in eine Datenbank oder ins CRM-System auf ihre Richtigkeit überprüft werden. So können bereits zahlreiche Datenverunreinigungen und Dubletten zugunsten einer hohen Datenqualität verhindert werden. Bei guten Software-Lösungen kontrolliert das System unmittelbar bei der Eingabe eines neuen Kunden die Daten beispielsweise auf ihre Groß-und Kleinschreibung, die korrekte Geschlechts-Zuordnung und die Syntax. Gleichzeitig können E-Mail-Adressen automatisch validiert und postalische Adressdaten geprüft werden. (fm)