Was ist DataOps?

02.08.2022
Von 


Scott Carey ist Redakteur bei unser IDG-Schwesterpublikation Computerworld in Großbritannien. Der IT-Journalist mit dem Schwerpunkt auf Unternehmensanwendungen moderiert auch Branchenveranstaltungen. Besonders interessieren ihn die großen IT-Player und Cloud-Service-Anbieter. Er hat ein Diplom in Journalistik an der Universität Cardiff in Wales erworben. In seiner Freizeit treibt er Sport, reist viel und beschäftigt sich intensiv mit der Medienlandschaft in Großbritannien.
DataOps vereint DevOps mit Data Science. Das sollten Sie zum Thema wissen.
DataOps lässt DevOps und Data Science verschmelzen.
DataOps lässt DevOps und Data Science verschmelzen.
Foto: LuckyStep - shutterstock.com

DataOps - oder Data Operations - ist eine aufkommende Disziplin, die DevOps-Teams mit Dateningenieuren und Datenwissenschaftlern zusammenbringt. Das Ziel: Tools, Prozesse und Organisationsstrukturen bereitzustellen, die das datenorientierte Unternehmen unterstützen.

DataOps - Definition

DataOps ist eine agile, prozessorientierte Methodik, um Analysen zu entwickeln und bereitzustellen. Michele Goetz, Vice President und Principal Analyst bei Forrester, definiert DataOps als "die Fähigkeit, Lösungen zu ermöglichen, Datenprodukte zu entwickeln und Daten für den Geschäftswert über alle Technologieebenen hinweg zu aktivieren - von der Infrastruktur bis hin zur Experience".

Laut Dataversity besteht das Ziel von DataOps darin, das Design, die Entwicklung und die Wartung von Applikationen zu rationalisieren, die auf Daten und Datenanalysen basieren. DataOps soll die Art und Weise verbessern, wie Daten gemanagt und Produkte erstellt werden - und diese Verbesserungen mit den Unternehmenszielen koordinieren.

DataOps vs. DevOps

DevOps ist eine Softwareentwicklungsmethodik, die den Lebenszyklus der Systementwicklung um eine kontinuierliche Bereitstellung (Continuous Delivery) erweitert. Dazu werden Development- und Operations-Teams zu einer Einheit zusammengeführt, die für ein Produkt oder einen Service verantwortlich zeichnet.

DataOps baut auf diesem Konzept auf, und fügt Datenspezialisten (also Datenanalysten, Datenentwickler, Dateningenieure und/oder Datenwissenschaftler) zum "Mix" hinzu. Diese konzentrieren sich auf die kollaborative Entwicklung von Datenströmen und die fortlaufende Nutzung von Daten im gesamten Unternehmen.

Ted Dunning, CTO für MapR bei HPE und Co-Autor von "Machine Learning Logistics: Model Management in the Real World", klärt auf: "DevOps ist ein bewährter Trend, aber immer mehr Unternehmen tragen Data-Science-Fähigkeiten in die Softwareentwicklung und Systeme. Das erfordert jemanden innerhalb des DevOps-Teams, der ein Data Mindset mitbringt."

DataOps - Grundsätze

Wie DevOps orientiert sich auch DataOps an der agilen Methodik. Der Ansatz legt Wert auf die kontinuierliche Bereitstellung von analytischen Erkenntnissen - mit dem vorrangigen Ziel, die Kunden zufrieden zu stellen. DataOps-Teams sollten gemäß dem DataOps-Manifest:

  • Wert auf funktionierende Analysen legen und deren Performance an den Erkenntnissen messen, die sie liefern;

  • offen für Veränderungen sein und versuchen, die sich entwickelnden Kundenbedürfnisse zu verstehen;

  • sich selbst um Ziele herum organisieren und "Heldentum" zugunsten nachhaltiger und skalierbarer Teams und Prozesse über Bord werfen;

  • Daten, Tools, Code und Umgebungen von Anfang bis Ende orchestrieren, um reproduzierbare Ergebnisse zu erzielen; sowie

  • Analyse-Pipelines als Analogie zu schlanken Fertigungsstraßen betrachten und regelmäßig über das Feedback von Kunden, Teammitgliedern und betrieblichen Statistiken reflektieren.

Unternehmen setzen heute zunehmend Machine Learning in einer Vielzahl von Produkten und Dienstleistungen ein. DataOps ist ein Ansatz, der darauf ausgerichtet ist, die End-to-End-Anforderungen des maschinellen Lernens zu unterstützen.

"Dieser Ansatz macht es zum Beispiel für Datenwissenschaftler einfacher, die Unterstützung der Softwareentwicklung zu erhalten", schreiben Dunning und Co-Autorin Ellen Friedman, Principal Technologist bei HPE. Er helfe dabei, das bereitzustellen, was benötigt wird, wenn Modelle während der Bereitstellung an den Betrieb übergeben werden. Der DataOps-Ansatz sei jedoch nicht auf maschinelles Lernen beschränkt, fügen sie hinzu: "Diese Art der Organisation ist für jede datenorientierte Arbeit nützlich und erleichtert es, die Vorteile zu nutzen, die der Aufbau einer globalen Datenstruktur bietet. Darüber hinaus passt DataOps auch gut zu Microservices-Architekturen."

DataOps - in der Praxis

Um maximalen Nutzen aus dem DataOps-Ansatz zu ziehen, müssten Unternehmen ihre Data-Management-Strategien weiterentwickeln, um mit Daten in großem Umfang umgehen und auf reale Ereignisse reagieren zu können, sobald diese einträten, schreibt das Autoren-Duo: "Traditionell isolierte Rollen können sich als zu starr und langsam erweisen, um in Big-Data-Organisationen, die eine digitale Transformation durchlaufen, eine gute Figur zu machen. Hier kann DataOps helfen."

Da DataOps auf DevOps aufbaut, sind funktionsübergreifende Teams, die sich über Fachbereiche wie Operations, Software-Engineering, Produktmanagement, Datenanalyse oder Data Engineering erstrecken, unerlässlich. DataOps-Teams sollten dabei so geführt werden, dass eine bessere Zusammenarbeit und Kommunikation zwischen Entwicklern, Operations- und Datenexperten gewährleistet ist.

Laut Dunning könnten auch Datenwissenschaftler als wichtige Mitglieder in DataOps-Teams einbezogen werden: "Das Wichtigste dabei ist meiner Meinung nach, nicht an der traditionellen Elfenbeinturm-Organisation festzuhalten, in der Data Scientists von den Entwicklungsteams abgeschottet arbeiten. Der wichtigste Schritt ist, Data Scientists tatsächlich in ein DevOps-Team einzubinden."

Dabei weist der Manager aber auch darauf hin, dass Data Scientists nicht unbedingt dauerhaft in ein DataOps-Team eingebettet sein müssten: "Typischerweise ist ein Datenwissenschaftler für eine gewisse Zeit in das Team eingebettet. Seine Fähigkeiten und seine Denkweise beginnen abzufärben. Anschließend kann jemand im Team die Rolle des Dateningenieurs übernehmen und zu einer Art Low-Budget-Datenwissenschaftler werden."

Die meisten DevOps-basierten Unternehmen verfügten bereits über den Kern eines DataOps-Teams, so Co-Autorin Friedman. Sobald sie Projekte identifiziert haben, die eine datenintensive Entwicklung benötigen, müssten sie nur noch jemanden mit Daten-Knowhow in das Team aufnehmen. Bei dieser Person könne es sich sogar um einen Dateningenieur und nicht um einen vollwertigen Datenwissenschaftler handeln. Oftmals würden Teams aus Personen mit sich überschneidenden Kompetenzen gebildet oder einzelne Personen könnten je nach Fachwissen mehrere Rollen in einem DataOps-Team übernehmen.

"In großen Projekten kann eine bestimmte DataOps-Rolle von mehr als einer Person besetzt werden. Aber es ist durchaus üblich, dass einige Personen mehr als eine Rolle abdecken", schreiben Dunning und Friedman in ihrem Buch. "Operations- und Software-Engineering-Fähigkeiten können sich überschneiden; Teammitglieder mit Erfahrung in Softwareentwicklung können auch als Data Engineers qualifiziert sein. Häufig verfügen Data Scientists über Data-Engineering-Kenntnisse. Überschneidungen zwischen Data Science und Operations sind jedoch selten."

Laut Forrester-Analystin Goetz gehören folgende Bereiche zu den wichtigsten Fachgebieten von DataOps-Teams:

  • Datenbanken

  • Integration

  • Orchestrierung von Daten und Prozessen

  • Bereitstellung von Datenrichtlinien

  • Daten- und Modellintegration

  • Kontrolle von Datensicherheit und Datenschutz

Unabhängig von ihrer Zusammensetzung müssen DataOps-Teams ein gemeinsames Ziel verfolgen: Die datengesteuerten Anforderungen der Dienste, die sie unterstützen. "Mit Ingenieurteams, guten Ingenieuren, muss man Ziele gut festlegen", sagt Dunning. "Wenn es ein gemeinsames Ziel gibt, nämlich die Lösung eines Problems, dann organisiert sich das Team sehr oft selbst, um dieses Problem zu lösen. Schwierig wird es dann, wenn verschiedene Personen unterschiedliche Aspekte des Problems sehen. Ops-Leute werden sich um die Zuverlässigkeit sorgen, dass man innerhalb einer bestimmten Zeit eine Antwort erhält. Die Datenwissenschaftler konzentrieren sich eher auf die Genauigkeit der Antwort. Hier gibt es bereits eine kleine Divergenz. Aber wenn sie versuchen, dasselbe Problem zu lösen, und bereit sind, bei der Lösung Kompromisse einzugehen, lässt sich meiner Meinung nach ziemlich leicht eine soziale Struktur aufbauen."

DataOps - Jobrollen & Gehälter

Zu den Mitgliedern des DataOps-Teams gehören laut Goetz:

  • Datenspezialisten, die die Datenlandschaft und Entwicklungs-Best-Practices unterstützen

  • Data Engineers, die Ad-hoc- und Systemunterstützung für BI-, Analyse- und Geschäftsanwendungen leisten

  • Principal Data Engineers, die als Entwickler an produkt- und kundenorientierten Ergebnissen arbeiten

Nachfolgend haben wir einige der beliebtesten Jobrollen im Zusammenhang mit DataOps und deren Gehaltsspannen in Deutschland (Daten via Stepstone) zusammengestellt:

  • Analytics Manager: 57.200 bis 77.300 Euro

  • Data Scientist: 48.000 bis 65.300 Euro

  • Business Intelligence Analyst: 45.700 bis 63.800 Euro

  • Data Analyst: 40.300 bis 55.800 Euro

  • Data Architect: 56.200 bis 76.300 Euro

  • Data Engineer: 43.700 bis 61.400 Euro

Dieser Beitrag basiert auf einem Artikel unserer US-Schwesterpublikation CIO.com. (fm)