Daten-Pipelines automatisieren

5 Wege zum Dataops-Glück

09.01.2024
Von 


Isaac Sacolick ist Autor des Amazon-Bestsellers "Diving Digital: The Leader's Guide to Business Transformation thourh Technology". Er schreibt als freier Autor unter anderem für unsere US-Schwesterpublikation CIO.com.

 
Viele Dataops-Teams haben Mühe, mit den steigenden Anforderungen an die Datenqualität Schritt zu halten. Künstliche Intelligenz respektive Machine Learning kann helfen.
(Generative) KI und Machine Learning können auch den Alltag von Dataops-Teams bereichern.
(Generative) KI und Machine Learning können auch den Alltag von Dataops-Teams bereichern.
Foto: ArtemisDiana - shutterstock.com

Data Wrangling, Dataops, Data Prep, Data Integration - wie auch immer Ihr Unternehmen den Vorgang, Daten zu integrieren und zu bereinigen, nennt - er ist arbeitsintensiv. Entsprechend tauchen in vielen Unternehmen Schwierigkeiten auf, wenn es darum geht:

  • neue Datensätze effizient zu integrieren,

  • die Datenqualität zu optimieren,

  • Stammdatensätze zu zentralisieren oder

  • bereinigte Kundendatenprofile zu erstellen.

Dataops ist zwar keine neue Herausforderung, gewinnt jedoch zunehmend an Bedeutung. Immer mehr Firmen streben danach, datengetrieben zu operieren und mit Analytics Wettbewerbsvorteile zu erschließen. Diejenigen, die sich dabei als Pioniere hervortun, weiten Dataops auch auf unstrukturierte Datenquellen aus, um KI-Suchfunktionen zu etablieren und ihre Daten für die Verwendung mit Large Language Models (LLMs; auch große Sprachmodelle) vorzubereiten.

Die Herausforderungen, die sich aus dieser Entwicklung für Dataops-Teams ergeben, lauten:

  • allgemein effizienter zu werden,

  • qualitativ bessere Ergebnisse zu liefern,

  • skalieren, um große Datenmengen und -geschwindigkeiten verarbeiten und mit unterschiedlichen Datenquellen arbeiten zu können, sowie

  • Daten-Pipelines in Sachen Zuverlässigkeit zu optimieren.

Die gute Nachricht: Um Daten-Pipelines zu automatisieren, stehen qualitativ immer bessere Tools zur Verfügung - vor allem im Bereich künstliche Intelligenz (KI) respektive Machine Learning (ML). Mit ihrer Hilfe lässt sich die Datenverarbeitung von manuellen und regelbasierten Ansätzen in Richtung intelligente Automatisierung treiben. Im Gespräch mit Experten haben wir fünf Bereiche identifiziert, die Dataops-Teams mit Hilfe von KI und ML effizienter gestalten können.

1. Datenvorbereitung reduzieren

"Fortschrittliche KI- und ML-Funktionen ermöglichen einen Paradigmenwechsel bei der Datenintegration, -transformation und -beobachtung", konstatiert Will Freiberg, CEO beim Managed-Service-Anbieter Crux. "Mit Hilfe automatisierter Lösungen können Dataops-Teams künftig 70 Prozent ihrer Zeit, für High-Level-Analysen verwenden, statt sie mit Datenvorbereitung zu vergeuden", ergänzt er.

Um zu ermitteln, welchen Stellenwert manuelle Aufgaben innerhalb des Dataops-Teams einnehmen, empfiehlt der Manager den Betroffenen, sich zwei Fragen zu stellen:

  • Wie lange dauert es von der ersten Entdeckung eines neuen Datensatzes, bis dieser geladen, bereinigt und im Data Lake des Unternehmen zusammengeführt wird, respektive in den Data Catalog Einzug hält?

  • Wird die Daten-Pipeline automatisiert überwacht, um Änderungen am Datenformat zu erkennen?

Sind manuelle Verarbeitungsschritte erforderlich, um die Daten-Pipelines zu unterstützen, sollten Dataops-Teams nach Meinung von Freiberg die Gelegenheit nutzen, um die Zykluszeiten für neue Datenquellen und die Recovery-Zeiten nach Daten-Pipeline-Problemen zu optimieren: "Sobald Datenteams Standards für die Datenqualität definieren und diese in die KI einfließen lassen, kann die Technologie schematische Änderungen und Anomalien erkennen, wenn externe Datensätze eingebunden und gemanagt werden. Das verhindert kaputte Daten-Pipelines und die Notwendigkeit, manuell eingreifen zu müssen."

2. Observability und Monitoring skalieren

Defekte Daten-Pipelines sind das Resultat, wenn auf Monitoring, Alerts und Automatisierung verzichtet wird. Um Probleme möglichst schnell zu erkennen und zu beheben, empfehlen sich aktive Abhilfemaßnahmen in Form von Data-Observability-Tools und Dataops-Best-Practices, die dabei unterstützen Datenintegrations-Ereignisse zu loggen und Daten-Pipelines zu überwachen.

"Probleme manuell aufzuspüren und zu beheben ist angesichts der Datenmengen, mit denen die Unternehmen heute umgehen müssen, zeitaufwändig", meint Emily Washington, Senior Vice President of Product Management bei Precisely. Sie gibt Daten-Spezialisten einen Tipp an die Hand, um die Datenqualität effektiv sicherzustellen: "Validieren Sie die Daten, sobald sie in das Ökosystem des Unternehmens gelangen. Continuous Monitoring gewährleisten Sie, indem Sie Data Observability im Rahmen einer übergreifenden Datenintegritätsstrategie einführen."

Data Observability zielt darauf ab, konsistente und zuverlässige Daten-Pipelines für Decision Making, Dashboards und Machine-Learning-Modelle bereitzustellen. Für Dataops ist es zudem eine Möglichkeit, Service-Level-Ziele (SLOs) zu managen - ein Prinzip, das mit Site Reliability Engineering eingeführt wurde und auch für Daten-Pipelines gilt. Produktmanagement-Expertin Washington bringt die Vorzüge auf den Punkt: "In der Konsequenz führt Data Observability zu gesünderen Daten-Pipelines, produktiveren Teams und zufriedeneren Kunden."

Sollten sich Dataops-Funktionen mit Blick auf die Zukunft auch bei Generative AI durchsetzen, könnte das ermöglichen, Data Observability in großem Maßstab zu skalieren. Zum Beispiel indem:

  • Problemmuster in Datensätzen identifiziert und Abhilfemaßnahmen empfohlen, beziehungsweise automatisierte Bereinigungsmaßnahmen angestoßen werden.

  • Code-Korrekturen und Optimierungsvorschläge für Daten-Pipelines empfohlen werden.

  • Datenpipelines dokumentiert und die Informationsgewinnung für die Data Observability optimiert werden.