Data Governance

Hohe Datenqualität schafft Mehrwert für Unternehmen

26.03.2013
Von Tobias Wendehost
Im Informationszeitalter ist die Qualität von Daten ein entscheidendes Kriterium für wirtschaftlichen Erfolg. Doch einzelne Fehlerquellen erschweren das Daten-Management. Eine klare Data Governance kann helfen.
Mangelhafte Datenqualität verschlingt enorme Geldsummen.
Mangelhafte Datenqualität verschlingt enorme Geldsummen.
Foto: fotolia.com/whitehoune

Allein in den USA entstehen jährlich Wirtschaftsschäden von rund 600 Milliarden Dollar durch mangelhafte Datenqualität, ergab eine Studie des Data Warehousing Institute. "Wenn man diese Zahlen auf Deutschland umrechnet, entspricht das einer Belastung von zirka 186 Milliarden Euro", so Jochen Kokemüller, Mitarbeiter des Competence Teams Informationsmanagement am Fraunhofer- Institut für Arbeitswirtschaft und Organisation (IAO). Mangelhafte Daten wirken sich negativ auf die Geschäftsprozesse aus. Sind zum Beispiel Adressdaten falsch, reicht das Problem von verschwendeten Portoausgaben bis zum Verlust von Kunden. Das Bereinigen und Pflegen von Datenbeständen verschlingt andererseits viel Zeit und Geld.

Datenqualität bringt Mehrwert

"Projekte rund um Datenqualität brauchen einen Sponsor im Management." Jochen Kokemüller, Competence Team Informationsmanagement Fraunhofer IAO.
"Projekte rund um Datenqualität brauchen einen Sponsor im Management." Jochen Kokemüller, Competence Team Informationsmanagement Fraunhofer IAO.
Foto: Fraunhofer IAO

"Die Qualität bemisst sich im Endeffekt daran, was man mit Daten anfangen möchte. Eine genaue Begriffsbestimmung ist schwierig", sagt Carsten Bange, Geschäftsführer des Business Application Research Center (Barc). Der Analyst findet die englische Bezeichnung "Fitness for Use" (Gebrauchstauglichkeit) treffender. Die Daten müssen für den jeweiligen Einsatzzweck geeignet sein und bringen nur so einen Mehrwert. Das Problem liege jedoch darin, dass der gleiche Datensatz für verschiedene Anwender unterschiedliche Qualität haben kann - je nachdem, wofür sie die Daten benötigen. "Daten haben eine hohe Qualität, wenn sie einen Mehrwert schaffen und wertschöpfend sind", ergänzt Kokemüller.

Eine Möglichkeit, Datenqualität zu bestimmen, bietet die Einteilung des Massachusetts Institute of Technology (MIT). Mit Hilfe von 15 Informationsqualitäts-Dimensionen wird die Qualität der Daten beispielsweise anhand von Glaubwürdigkeit, Wertschöpfung, Relevanz und Interpretierbarkeit bewertet. Die Messung ist aber nicht trivial. So lassen sich Bereiche wie Aktualität und Relevanz mit Hilfe von Management-Werkzeugen überprüfen. Allerdings gibt es auch schwer zu fassende Kriterien wie Konsistenz oder Fehlerfreiheit. Sind eingegebene Adressen und Namen überhaupt existent, oder gehören sie zu einer anderen Person? Die häufigste Fehlerquelle in Datenbanken ist die Dublette. Kokemüller weist in diesem Zusammenhang auf die objektive und die subjektive Form der Datenqualität hin. Dubletten entstehen häufig durch menschliche Fehler wie die unterschiedliche Schreibweise von Namen oder Adressen. Sie werden dadurch subjektiv als schlecht wahrgenommen. Aus Müller wird Mueller oder Steph(f)an wird einmal mit "f" und ein anderes Mal mit "ph" eingetragen. Fehler, die sich nur mühsam bereinigen lassen.

Eine besonders komplexe Dimension, die häufig unterschätzt wird, ist die Vollständigkeit von Datensätzen. Das MIT differenziert hier zwischen drei Formen.

  • Die schematische Vollständigkeit definiert, ob alle Informationen abgebildet sind.

  • Gleichzeitig kommt es auf die Abdeckung an, also ob in einer Datenbank die festgelegte Grundgesamtheit zum Beispiel von Kunden vorhanden ist.

  • Schließlich stellt sich die Frage nach der Dichte von Informationen. Sind alle Attribute ausgefüllt, oder fehlen Werte?

Speziell bei der Dichte von Daten existieren häufig Probleme. Ein Klassiker ist die Angabe des Berufs: Es kann passieren, dass auffällig viele Kunden in einer Datenbank Architekten sind. Der Grund ist die Vorgabe von Berufen, die sich bei der Datenerhebung etwa über ein Drop-down-Menü auswählen lassen. Fehlt die Angabe, bleibt der vorgegebene Wert "Architekt" stehen, und der Fehler fällt erst bei der Auswertung auf.

Vier Ursachen für schlechte Daten

Datenqualitätsprobleme sind vielfältiger Natur und lassen sich zur Ursachenforschung in vier Gruppen einteilen:

  1. Häufig ist in Unternehmen die Verantwortung für das Daten-Management nicht klar geregelt, so dass eine genau definierte Organisation fehlt. Wer ist für das Management der Informationen verantwortlich? Wem gehören die Daten?

  2. Direkt angeschlossen ist der Prozess des Daten-Managements. Hat das Unternehmen eine Data Governance, die Richtlinien bei der Verwaltung von Daten festlegt? Wurden die Daten auf Fehler überprüft, bevor man sie in die Datenbank übernimmt?

  3. Die dritte Ursache ist der menschliche Faktor. Wurden die Mitarbeiter ausreichend geschult? Sind die Richtlinien für das Daten-Management eindeutig definiert und somit für sie verständlich?

  4. Schließlich kommt der technische Aspekt hinzu. Wie sind die Datenbanken aufgebaut? Welche technischen Werkzeuge eignen sich für die Kontrolle der Datenqualität?

"Bei unseren Untersuchungen haben wir festgestellt, dass in erster Linie organisatorische Änderungen eine nachhaltige Wirkung auf die wahrgenommene Datenqualität haben", erläutert Kokemüller mit Blick auf die aktuelle Studie des IAO "Datenqualitätswerkzeuge 2012". Das habe verschiedene Gründe: Um eine hohe Datenqualität zu erreichen, muss die Struktur der Organisation für die Pflege und Erstellung geeignet sein. Die einmalige Fehlerbereinigung der Datensätze behebe nur Symptome und habe keinen nachhaltigen Effekt. Die Organisation müsse darauf abzielen, wertschöpfende Informationen zu erzielen. Eine Veränderung in der Organisation werde von Mitarbeitern direkt wahrgenommen, wogegen die Bereinigung durch die IT-Abteilung kaum sichtbar sei.