4. Data Observability implementieren
Eine geringe Nutzung, schlechte Datenqualität oder unzureichende Zufriedenheitsmetriken deuten stark darauf hin, dass Data Debt die Nutzung von Daten zur Entscheidungsfindung beeinträchtigt. Ist das der Fall, müssen Dataops-Teams "rückwärts" arbeiten, um die Data Lineage zu verstehen - und wie sich die Daten auf dem Weg von der Quelle zum Ziel verändern. Ein Weg zum Shift-Left in Sachen Data Lineage: Data Observability implementieren. Und zwar in jedem Schritt des Datenprozesses.
"Data Observability heißt, den Zustand und Status Ihrer Daten über den gesamten Lifecycle hinweg zu kennen", erklärt Grant Fitchey, Devops Advocate beim Lösungsanbieter Redgate Software, und fügt hinzu: "Damit wissen Sie, ob und wo etwas schief gelaufen ist und was zur Behebung des Problems erforderlich ist. Zudem trägt Observability dazu bei, Data Flows an Business-Anwender zu kommunizieren und etabliert einen Audit-Kanal, um Debugging und Compliance zu unterstützen."
Auch aus Sicht der Ingenieure machen diese Leitplanken Sinn, wie Jeff Foster, Director of Technology and Innovation bei Redgate, erläutert: "Das gewährleistet, dass die Daten auf konforme und ethisch vertretbare Weise verwendet werden. Da wir immer ausgefeiltere KI/ML-Pipelines aufbauen und die Datenquellen verstehen wollen, die in umfangreiche ML-Modelle einfließen, wird Dataops immer wichtiger."
5. Offene Standards einsetzen
Data Debt ist zum Teil auch Data Systems Debt - hervorgerufen durch Data-Management-Plattformen, die nicht den Geschäftsanforderungen entsprechen.
"Daten sind so lange irrelevant, bis sie es nicht mehr sind. Und dann wird es kritisch", warnt Erik Bledsoe, Content Marketing Manager beim Observability-Anbieter Calyptia. "Sie sollten deshalb in der Lage sein, Ihre Daten richtig zu verarbeiten und aktuell relevante in den entsprechenden Backends zu speichern. Der Rest sollte in kostengünstige Storage-Lösungen fließen, wo er für zukünftige Analysen bereitsteht."
Dabei empfiehlt Bledsoe, auf herstellerneutrale Tools zu setzen, die offene Standards unterstützen. Er erklärt: "Wenn nur eine bestimmte Applikation, die Sie seit drei Jahren nicht mehr verwenden, auf die Daten zugreifen kann, kommt das einer Geiselhaft für Ihre Daten gleich."
Ein anderer Weg, um Lock-in-Effekte zu vermeiden: Automatisieren Sie die Datenextraktion aus SaaS- und anderen Anwendungen und nutzen Sie zentralisierte Datenplattformen wie Data Lakes oder Data Warehouses für Reporting- und Analysezwecke. Diese zentralisierten Plattformen können auch eine Quelle für Plattformmigrationen sein. Die Archivierung älterer Daten hilft dabei, Compliance-Anforderungen zu erfüllen - ohne Datenvisualisierungs- und Analysetools mit mehr Daten als erforderlich zu überfrachten.
6. Management-Plattformen gut wählen
Zu guter Letzt sollten Data Architects zur Vermeidung von Datenschulden diskutieren, welche Datenbank- und Data-Management-Plattform die optimale ist. Vor einigen Jahren gab es abgesehen von relationalen Datenbanken keine große Auswahl - das hat sich grundlegend geändert. Fällt die Entscheidung auf eine nicht optimale Data-Management-Plattform, können die für Data Analytics nötigen Workarounds zu komplexen Datenschulden führen.
Flexible Datenspeicher und semistrukturierte Datenmodelle einzusetzen, sind ein Weg um damit umzugehen, wie Victor Lee, Vice President of Developer Experience beim Datenbankanbieter TigerGraph, erklärt: "Die Graph-Technologie hilft dabei, Data Debt zu reduzieren, indem sie Unternehmen in die Lage versetzt, ihre Daten schnell auf lockere Art und Weise miteinander zu verbinden und diese intelligenter zu integrieren."
Da immer mehr Unternehmen auf datengetriebene Entscheidungsfindung setzen und ML-Modelle entwickeln wollen, um sich Wettbewerbsvorteile zu verschaffen, sollten Datenteams das Thema Data Debt proaktiv angehen. (fm)
Dieser Beitrag basiert auf einem Artikel unserer US-Schwesterpublikation Infoworld.