Data Debt

6 Mittel gegen Datenschulden

03.11.2023
Von 


Isaac Sacolick ist Autor des Amazon-Bestsellers "Diving Digital: The Leader's Guide to Business Transformation thourh Technology". Er schreibt als freier Autor unter anderem für unsere US-Schwesterpublikation CIO.com.

 
Data Debt kann ähnlich vernichtend wirken wie Technical Debt. Das hilft dagegen.
(Daten-)Schulden sind per se nichts Schlechtes - wenn sie auch abgebaut werden.
(Daten-)Schulden sind per se nichts Schlechtes - wenn sie auch abgebaut werden.
Foto: eamesBot - shutterstock.com

Um technische Schulden zu vermeiden, setzen Devops-Teams auf Infrastructure as Code, automatisieren Deployments mit CI/CD und etablieren Continuous-Testing-Strategien. Aus gutem Grund: Technical Debt kann agile Entwicklungsteams lähmen. "In kleinen Dosen können technische Schulden nützlich sein", gibt jedoch Marko Anastasov, Mitbegründer von Semaphore CI/CD, zu bedenken und erklärt: "Das eröffnet die Chance, dringende Dinge im Blick zu behalten."

Data-Engineering-Teams, die Data Ops und Data Governance optimieren wollen, sollten technische Schulden in ihrem Code und ihren Automatisierungen abbauen, Datenwissenschaftler ihre Machine-Learning-Modelle und anderen Analysecode entsprechend evaluieren.

Technical Debt auf Codeebene zu reduzieren, reicht für Data- und Analytics-Teams allerdings nicht aus. Sie müssen sich auch mit Data Debt (Datenschulden) befassen, indem sie:

  • Datenduplikate reduzieren,

  • die Datenqualität verbessern,

  • Dark-Data-Quellen identifizieren,

  • Stammdaten zentralisieren, und

  • Data-Security-Probleme beheben.

Ähnlich wie technische Schulden sind auch Datenschulden leichter zu erkennen, wenn sie erst einmal entstanden sind. Dann sind die verantwortlichen Teams gefragt, Probleme zu lösen, bevor Verbesserungen an der Daten-Pipeline hinzugefügt oder neue Analytics-Funktionen entwickelt werden. Best Practices zu implementieren, um neue Datenschulden zu minimieren, ist dabei ein diffiziles Unterfangen - vor allem, wenn die Teams nicht sämtliche künftigen Analytics-, Dashboarding- und Machine-Learning-Use-Cases vorhersehen können.

Die folgenden sechs Handlunsgempfehlungen unterstützen Datenteams dabei, Data-Debt-Risiken zu vermeiden, respektive zu mindern.

1. Governance in Analytics integrieren

Devops-Teams sind sich bewusst, dass es deutlich schwieriger ist, sich um Codequalität, Defekte und Sicherheitsprobleme zu kümmern, wenn der Code erst einmal geschrieben ist. Deswegen streben sie nach einem "Shift Left", wenn es um Security- und Qualitätssicherungs-Praktiken geht. Ganz ähnlich sollten Dataops-Engineers und Datenwissenschaftler bei Data-Governance-Praktiken vorgehen - und diese zum Einsatz bringen, während sie Daten-Pipelines, Analytics- und Machine-Learning-Modelle bauen oder warten.

"Datenkataloge, Data-Lineage-Tools und Metadaten-Managementsysteme können Unternehmen dabei unterstützen, Datenquellen und -modelle zu managen und zu tracken. Das kann das Risiko von Data Debt reduzieren", meint Joseph Rutakangwa, Mitbegründer und CEO des Analytics-Dienstleisters Rwazi. Er ergänzt: "Tools für die Datenqualität - etwa Data-Profiling- oder Data-Cleansing-Tools - können dazu beirtragen, Probleme in diesem Bereich zu erkennen und zu verhindern, dass qualitativ schlechte Daten einfließen. Auch das trägt dazu bei, Datenschulden zu vermeiden."

Auch Michael Drogalis, Principal Technologist bei Confluent, erachtet den Einsatz von Technologien als hilfreich - ohne Best Practices gehe es aber nicht. Er empfiehlt: "Wählen Sie Ihre Access Patterns mit Bedacht, halten Sie die Governance aufrecht, setzen Sie auf Versionierung und unterscheiden Sie Source-of-Truth-Daten von Derived Data."

2. Governance-Verantwortlichkeiten schaffen

Agile Datenteams mit Data-Governance-Technologien und Best Practices auszustatten, ist ein guter Start. Allerdings sollten die Teammitglieder sich ihrer spezifischen Rolle und Verantwortlichkeiten in Bezug auf Technologie und Data Debt bewusst sein, um einen Prozess der kontinuierlichen Verbesserung anzustoßen.

CEO Rutakangwa empfiehlt an dieser Stelle, Data-Stewardship-Rollen einzuführen: "Das hilft dabei, Datenmodelle zu pflegen, sicherzustellen, dass die Daten korrekt sind, und Probleme anzugehen, um Datenschulden zu minimieren."

Sasha Grujicic, President beim Analytics-Spezialisten NowVertical, zeigt auf, was Unternehmen zu erwarten haben, die die richtige Data-Governance-Struktur identifizieren und skizzieren, indem sie eine Top-Down-Strategie anwenden und ein skalierbares System aufbauen, das aktuelle und zukünftige Eingaben unterstützt: "In den meisten Fällen wird dies das Data-Debt-Risiko reduzieren, die Kosten senken, die Produktivität steigern und eine Grundlage für Wachstum in den kommenden Jahren schaffen."

3. Trust-Metriken festlegen

Datenteams, die Datenschulden abbauen wollen, sollten in erster Linie darauf abzielen, das Vertrauen (Trust) der Mitarbeiter in die Daten zu verbessern. Geht es um Entscheidungen, sollte man der Genauigkeit und Zuverlässigkeit vertrauen können.

"Um den Level of Trust in Ihre Daten zu bestimmen können Sie Cataloging-Tools zu Rate ziehen und sich ansehen, wie viele Datenexplorationen und Production Reports auf spezifischen Daten beruhen", empfiehlt Michel Tricot, Mitbegründer und CEO des auf Datenintegration spezialisierten Unternehmens Airbyte.

Ein höherer Nutzungsgrad kann ein Anzeichen für Trust sein - ist aber nicht der einzige Faktor, der hier mit hereinspielt. Dataops und Governance-Teams sollten die Datenqualität anhand folgender Metriken erfassen:

  • Genauigkeit,

  • Vollständigkeit,

  • Konsistenz,

  • Aktualität,

  • Einzigartigkeit, und

  • Validität.

Datenverantwortliche sollten darüber hinaus in Erwägung ziehen, Feedback von Führungskräften und Usern einzuholen und eine Bewertung für die Datenzufriedenheit zu entwickeln, die das Vertrauen in die Daten, Reports und Vorhersagen misst.