In 7 Schritten zur richtigen Datenplattform

27.06.2024
Von  und


Isaac Sacolick ist Autor des Amazon-Bestsellers "Diving Digital: The Leader's Guide to Business Transformation thourh Technology". Er schreibt als freier Autor unter anderem für unsere US-Schwesterpublikation CIO.com.

 


Florian Maier beschäftigt sich mit diversen Themen rund um Technologie und Management.
Lesen Sie, wie Sie zu einer modernen Datenplattform finden, die Ihren Machine-Learning-, Analytics- oder Visualisierungsanforderungen gerecht wird.
In der Big-Data-Ära haben Analysen auf Spreadsheet-Basis längst ausgedient. Dieser Leitfaden weist Ihnen den Weg zur für Sie geeigneten Datenplattform.
In der Big-Data-Ära haben Analysen auf Spreadsheet-Basis längst ausgedient. Dieser Leitfaden weist Ihnen den Weg zur für Sie geeigneten Datenplattform.
Foto: NicoElNino - shutterstock.com

Analytics-Plattformen haben sich im Lauf der letzten Jahre erheblich weiterentwickelt und warten inzwischen mit Funktionen auf, die die Fähigkeiten der letzten Generation von Reporting- und Business-Intelligence-Tools weit übersteigen. Dabei bedienen diese modernen Datenplattformen eine breite Palette von Business-Anwendungsfällen sowie Enduser-Personas und können Datenkomplexitäten in folgenden Bereichen auflösen:

  • Datenvisualisierung,

  • Dashboarding,

  • Analytics sowie

  • Machine Learning.

Egal, ob Sie Ihre ersten Dashboards und Predictive-Analytics-Funktionen entwickeln, ihre Analytics-Plattformlandschaft konsolidieren oder Compliance und Data Governance stärker in Analyse-Workflows einbinden möchten (beziehungsweise müssen): Dieser Ratgeber vermittelt Ihnen, wie Sie in sieben zielgerichteten Schritten zur richtigen Datenplattform für Ihre Zwecke finden.

1. Anwendungsfälle identifizieren

Die meisten Unternehmen sind heutzutage bestrebt, sich das Attribut "Data-driven" auf die Fahnen schreiben zu können. In diesem Zuge setzen immer mehr Firmen auf Predictive Analytics und Machine Learning (ML), wenn es darum geht, Business-Entscheidungen zu treffen. Diese übergreifende Zielsetzung resultiert in mehreren Use Cases:

  • Mitarbeiter aus dem Business zu "Citizen Data Scientists" transformieren, die sich mit Unterstützung von Datenvisualisierungen, Dashboards, Reportings und anderen Features dem Data Storytelling verschreiben.

  • Datenwissenschaftler dazu befähigen, über den gesamten ML-Lifecycle hinweg produktiver zu arbeiten. Zum Beispiel, wenn es darum geht, neue Datensätze zu explorieren, ML-Modelle weiterzuentwickeln, die Performance dieser Modelle zu überwachen oder sie einem Retraining zu unterziehen.

  • DevOps-Teams in die Lage versetzen, Produkte mit Analytics-Bezug zu entwickeln. Das kann sich beispielsweise in kundenorientierten Applikationen mit eingebetteten Dashboards, Echtzeit-Analysefähigkeiten, integrierten ML-Modellen oder Edge-Analytics-Lösungen manifestieren.

  • Isolierte Reporting-Systeme substituieren, die in Enterprise-Systemlandschaften integriert sind und Verknüpfungen zu Data Lakes und -Warehouses aufweisen.

Mit Blick auf diese Anwendungsfälle stellt sich die Frage, ob Firmen jeweils separate Plattformen benötigen, um diese zu realisieren - und ob es überhaupt von Vorteil ist, mehrere solcher Lösungen parallel einzusetzen. Helena Schwenk, VP im Chief Data and Analytics Office beim Datenbankanbieter Exasol, hat darauf zwar auch keine konkrete Antwort, hält aber fest, wie die Business-Realität (oft) aussieht: "Die meisten Unternehmen versuchen, mit weniger mehr zu erreichen. In der Konsequenz müssen sie oft Kompromisse bei ihrer Data-Analytics-Plattform eingehen, was zu einer Vielzahl von Datenmanagement-Problemen führen kann - beispielsweise lange Verarbeitungszeiten, mangelnde Skalierbarkeit, Vendor Lock-In oder exponentielle Kosten."

Der Data-Expertin zufolge bestehe die Herausforderung darin, eine Lösung zu finden, die Produktivität, Geschwindigkeit und Flexibilität bei einem angemessenen Preisgefüge gewährleiste. Damit Sie das umsetzen können, brauchen Sie tiefere Einblicke in Ihre Datenbestände - und sollten verschiedene organisatorische, funktionale, betriebliche und Compliance-technische Aspekte fokussieren, die wir im Folgenden behandeln.

2. Datenkomplexitäten prüfen

Data- und Analytics-Plattformen unterscheiden sich beispielsweise darin, welchen Grad der Flexibilität sie bei der Arbeit mit verschiedenen Datentypen, Datenbanken und mit Blick auf das Processing realisieren. Colleen Tartow, Field CTO und Head of Strategy beim Plattformanbieter VAST Data, empfiehlt an dieser Stelle: "Orientieren Sie sich an ihren aktuellen und zukünftigen Daten-Use-Cases - insbesondere mit Blick auf die jüngsten Entwicklungen in Sachen Deep Learning und künstliche Intelligenz." Dabei müsse die gesamte Daten-Pipeline für strukturierte und unstrukturierte Daten vereinheitlicht werden, unterstreicht die Technologieentscheiderin: "Das lässt sich nicht einfach aus bestehenden Composable Data Stacks mit BI-Fokus extrahieren."

Data-Science-, Engineering- und Data-Ops-Teams sollten deshalb die aktuellen Architekturen in den Bereichen Datenintegration und Datenmanagement überprüfen und anschließend einen zukünftigen Idealzustand projizieren. Dabei sollten folgende wichtige Fragen eine zentrale Rolle spielen:

  • Liegt Ihr Fokus auf strukturierten Datenquellen oder wollen Sie auch Text und unstrukturierte Daten analysieren?

  • Planen Sie mit SQL-Datenbanken und -Warehouses oder haben Sie auch NoSQL-, Vektor- und andere Datenbanktypen im Auge?

  • Die Datenflüsse welcher SaaS-Plattformen sollen integriert werden? Soll die Plattform der Wahl diese Aufgabe übernehmen oder sind für diese Zwecke andere Integrations- und Pipeline-Tools vorgesehen?

  • Werden die Daten im Vorfeld bereinigt und in den gewünschten Datenstrukturen gespeichert? Inwieweit benötigen Datenwissenschaftler Tools, um Daten zu bereinigen, vorzubereiten oder anderweitig zu verarbeiten?

  • Welche Anforderungen stellen Sie in Sachen Datenverfügbarkeit, Datenschutz und Security - insbesondere mit Blick auf die Tatsache, dass viele SaaS-Lösungen Daten zu Visualisierungs- oder Trainingszwecken (zwischen)speichern?

  • Welchen Umfang haben die Daten - und bis zu welchem Grad sind Verzögerungen vom Zeitpunkt der Datenerfassung bis zur Verfügbarkeit akzeptabel?

Weil sich die Anforderungen an Daten weiterentwickeln, macht es durchaus Sinn, die Daten- und Integrationsmöglichkeiten der jeweiligen Plattform in Augenschein zu nehmen, bevor funktionale und nicht-funktionale Anforderungen in den Fokus rücken. So lässt sich die Liste möglicher Kandidaten auch schneller eingrenzen.

Daniel Yu, SVP of Solution Management and Product Marketing bei SAP, konkretisiert dies am Beispiel der immer beliebteren, generativen KI-Funktionen: "Wenn Sie Generative AI in Ihr Unternehmen integrieren wollen, sind die Grundlage dafür vertrauenswürdige Daten und eine Datenplattform, die in der Lage ist, KI-Richtlinien, -Prozesse und -Praktiken geschickt zu steuern. Das sorgt nicht nur für die nötige Transparenz und Rechenschaftspflicht, sondern stellt auch sicher, dass Policies, Compliance und Datenschutz nicht zum Flaschenhals für Innovationen werden."

3. Endbenutzer-Skills erfassen

Drei Dekaden voller Spreadsheet-Katastrophen, duplizierten Datenquellen, -Lecks, -Silos und anderen Compliance-Verfehlungen dürften Beweis genug sein, dass es keine gute Idee ist, bei der Wahl einer Datenplattform die Verantwortlichkeiten und Kompetenzen der Endbenutzer außer Acht zu lassen.

Darauf sollten Sie also idealerweise Ihren Fokus richten, bevor Sie sich von den schillernden Visualisierungen und überbordenden Machine-Learning-Bibliotheken einer Lösung begeistern lassen. Die folgenden End-User-Personas spielen dabei eine wichtige Rolle:

  • Citizen Data Scientists wissen benutzerfreundliche Interfaces zu schätzen - und die Möglichkeit, schnell und einfach Daten zu analysieren, Dashboards zu erstellen und Erweiterungen einzuspielen.

  • Professionelle Datenwissenschaftler beschäftigen sich vorzugsweise mit Modellen, Analysen und Visualisierungen und verlassen sich dabei auf DataOps in Sachen Integrationen sowie auf Data Engineers für Vorbereitungs-Tasks. Für größere Organisationen könnten in diesem Zusammenhang Plattformen interessant sein, die Collaboration-Features und rollenbasierte Kontrollen bieten. Kleinere, multidisziplinär ausgerichtete Data-Science-Teams bevorzugen möglicherweise Lösungen, die darauf fokussieren, die Datenarbeit möglichst effizient zu gestalten.

  • Developer wünschen sich in erster Linie APIs, einfache Embedding-Tools, umfangreiche Erweiterungsoptionen für JavaScript sowie Möglichkeiten, Dashboards und Modelle in Applikationen zu integrieren.

  • IT-Betriebsteams benötigen Tools, um Leistungsdefizite, Verarbeitungsfehler und andere betriebliche Probleme zu identifizieren.

An dieser Stelle sollten Sie jedoch auch das Thema Governance nicht vernachlässigen. Diesbezüglich könnten folgende Aspekte eine Rolle spielen:

  • Überprüfen Sie bestehende Data-Governance-Richtlinien, insbesondere mit Blick auf Berechtigungen, Vertraulichkeit und Herkunft und ermitteln Sie, inwiefern die Datenplattform Ihrer Wahl diese erfüllt.

  • Stellen Sie die Flexibilität der Plattform mit Blick auf Row-, Column- und rollenbasierte Zugangskontrollen auf den Prüftstand - insbesondere, wenn es darum geht, Analysefunktionalitäten auf Kundenseite bereitzustellen.

  • Einige Datenplattformen verfügen über integrierte Portale und Tools, um Datensätze zu zentralisieren, andere ermöglichen es, Datenkataloge von Drittanbietern zu integrieren.

  • Stellen Sie sicher, dass die gewählte Plattform die jeweils relevanten Datensicherheitsanforderungen in Bezug auf Autorisierung, Verschlüsselung, Data Masking und Auditing erfüllt.

Ganz allgemein gilt: Wenn mehrere Abteilungen oder Geschäftsbereiche auf eine Data- und Analytics-Plattform zugreifen können, ist es umso wichtiger, dass diese zum Betriebsmodell des Unternehmens passt.

Sie wollen weitere interessante Beiträge zu diversen Themen aus der IT-Welt lesen? Unsere kostenlosen Newsletter liefern Ihnen alles, was IT-Profis wissen sollten - direkt in Ihre Inbox.

Jetzt CW-Newsletter sichern

4. Funktionale Anforderungen erfassen

Da moderne Datenplattformen an mehreren Fronten miteinander konkurrieren, setzen die Anbieter alles daran, Kunden mit den neuesten Funktionen zu begeistern. Um dabei bei allem PR-Überschwang nicht den Blick fürs Wesentliche zu verlieren, macht es Sinn, eine nach Prioritäten geordnete Feature-Liste zu erstellen. Die hilft dabei, essenzielle Funktionen von denen zu trennen, die nur "nice to have" sind.

Ein Bereich, der dabei besondere Aufmerksamkeit verdient, sind generative KI-Funktionen: Einige Datenplattformen ermöglichen bereits den Einsatz von Prompts und natürlicher Sprache, um Daten abzufragen und Dashboards zu erstellen. Das kann in den Händen weniger kompetenter User Communities ein mächtiges Werkzeug darstellen. Ein weiteres Feature, das Sie in diesem Bereich in Erwägung ziehen sollten, ist die Möglichkeit, Textzusammenfassungen aus Datensätzen, Dashboards oder ML-Modellen zu erstellen, um Trends, beziehungsweise Peaks erkennen zu können.

Und Generative AI treibt im Datenplattform-Umfeld weitere Blüten, wie Ariel Katz, CEO des Business-Intelligence-Anbieters Sisense, konstatiert: "Die Verschmelzung von KI-Innovationen und wachsender API Economy führt zu einem Entwickler-fokussierten Shift, der intuitive, reichhaltige Applikationen mit ausgefeilten, in die User Experience eingebetteten Analysefunktionen ermöglicht. In dieser neuen Welt werden Entwickler zu Innovatoren, weil sie komplexe Analysen einfacher in Apps integrieren können, um den Nutzern genau dann datengetriebene Einblicke zu geben, wenn diese sie brauchen."

5. Nicht-funktionale Anforderungen definieren

Geht es darum, nicht-funktionale Anforderungen für eine Datenplattform zu definieren, gilt es:

  • Performance-Ziele festzulegen,

  • die Flexibilität von ML- und KI-Modellen zu überprüfen,

  • Security-Anforderungen zu evaluieren,

  • Cloud-Flexibilitäten zu durchdringen, sowie

  • weitere, betriebliche Faktoren zu berücksichtigen.

An dieser Stelle hat Roy Sgan-Cohen, GM of AI, Platforms and Data beim GenAI-Spezialisten Amdocs, einige wertvolle Tipps auf Lager: "Technische Führungskräfte sollten Datenplattformen bevorzugen, die Support für Multi-Cloud-Umgebungen und verschiedene GenAI-Frameworks bieten. Kosteneffizienz, nahtlose Integration mit Datenquellen und -konsumenten, niedrige Latenz sowie robuste Datenschutz- und Sicherheitsfunktionen sind ebenfalls wichtige Aspekte."

Welche weiteren Aspekte Entscheider in diesem Bereich nicht außer Acht lassen sollten, weiß Piotr Korzeniowski, COO des Analytics-Anbieters Piwik PRO: "Achten Sie darauf, dass die Datenplattform Ihrer Wahl einfach zu implementieren ist, mit dem Rest Ihres Stacks integriert und dabei nicht unnötigerweise Kosten verursacht oder Ressourcen frisst. Denken Sie dabei an den Onboarding-Prozess, entsprechendes Schulungsmaterial und möglichst auch fortlaufenden Support durch den Anbieter."

6. Kosten schätzen

Der Markt für Daten- und Analytics-Plattformen ist zwar ausgereift, entwickelt sich aber dennoch rasant weiter. Einige Anbieter stellen Datenanalysefunktionen auch als kostengünstige oder kostenlose Add-Ons im Rahmen umfassenderer Lösungen zur Verfügung. Ganz allgemein gesprochen, zählen zu den Preisfaktoren der Plattformen im Regelfall:

  • die Anzahl der Endbenutzer,

  • das Datenvolumen,

  • die Menge der Assets (Dashboards, Modelle usw.) sowie

  • der Funktionsumfang.

Denken Sie dabei jedoch daran, dass die Preise für die Plattform nur einen Teil der Gesamtkosten darstellen - und Implementierung, Schulung und Support noch "on top" kommen. Noch wichtiger ist es jedoch, die jeweiligen Produktivitätsfaktoren der Lösungen zu durchdringen - schließlich fokussieren einige auf Benutzerfreundlichkeit, andere auf möglichst breiten Funktionsumfang.

Die Total Cost of Ownership zu schätzen, ist nicht trivial - und liefert wegen der technologischen Weiterentwicklung oft auch keine verlässlichen Ergebnisse. Zusätzlich wird dieses Unterfangen dadurch erschwert, dass die allermeisten Firmen das Wachstumspotenzial von kundenorientierten Analytics-Funktionen, die Kosteneinsparungen durch Produktivitätsverbesserungen oder den Geschäftswert verbesserter Entscheidungsfindungsprozesse nicht so einfach abschätzen können. Dennoch sollten Sie sich davor hüten, das Preisgefüge einer Lösung in den Fokus zu stellen oder gar eine Plattform zu wählen, nur weil der Anbieter sie mit anderen Produkten im Bundle anbietet.

7. Plattformen evaluieren

Heutige, moderne Datenplattformen lassen sich grob in zwei wesentliche Kategorien einteilen. Bei der ersten Gattung handelt es sich um Business-Intelligence-, Data-Visualisation-, Dashboarding und Reporting-Plattformen, die sich in erster Linie an Citizen Data Scientists und ihr professionelles Gegenstück richten. In diesem Bereich sind unter anderem folgende Plattformen relevant:

In die zweite Kategorie fallen Data-Science-Plattformen mit Funktionen für Datenvisualisierung, ML-Modellerstellung und Predictive Analytics. Zu diesen Lösungen gehören beispielsweise:

Bei der Evaluierung dieser (und weiterer) Plattformen ist es essenziell, mehrere Use Cases zu identifzieren, Proof of Concepts zu fahren und Erfolgskriterien zu definieren. Dabei sollten die Anwendungsfälle verschiedene User-Personas, Datentypen und Compliance-Faktoren umfassen, die Erfolgskriterien hingegen die Benutzerfreundlichkeit sowie die Analyseergebnisse fokussieren.

Wenn Sie die richtige Datenplattform für Ihre Zwecke gefunden haben, ist die Arbeit allerdings nicht vorbei: Dann heißt es, die Nutzung zu monitoren, neu aufkommende Business Cases zu erkennen und neu hinzukommende Funktionen zu evaluieren.