Fabric als zentrale Datenplattform
Wie Microsoft den Data-Analytics-Markt erobern will
Datum:29.11.2023
Autor(en):Heinrich Vaske
Mit Fabric schafft Microsoft eine zentrale Daten- und Analytics-Plattform für Unternehmen,
die das Thema KI vorantreiben wollen. Viele Bausteine dafür sind längst vorhanden.Noch ruht er still und starr, der Datensee, aber mit Fabric hofft Microsoft einen
kleinen Tsunami auszulösen.
Foto: Valerii_M - shutterstock.com
Microsoft-CEO Satya Nadella hatte Fabric1 schon auf der Konferenz Build 20232 als die wichtigste Einführung eines Datenprodukts seit dem SQL Server bezeichnet. Fabric war dann auch erneut ein bedeutendes Thema auf der User-Konferenz Ignite vor wenigen Tagen. Die übergreifende Datenplattform, die Data-Engineering3, Data Warehousing4, maschinelles Lernen5 und KI 6zusammenführt, ist seit Anfang November verfügbar. Herzstück ist OneLake7, ein zentraler Datenpool, in dem Unternehmen ihre Data Warehouses und Data Lakes konsolidieren und ihre Daten für KI- und Analytics-Projekte bereitstellen sollen.
Fabric stützt sich auf verschiedene Microsoft-Produkte sowie auf Open-Source-Technologien von Databricks8, das seit Jahren eng mit Microsoft zusammenarbeitet und viele seiner Produkte in die Azure-Cloud-Plattform integriert hat9. Microsoft will sich mit Fabric für den bevorstehenden KI-Boom aufstellen. Daten sind die Grundlage für jedes KI-Vorhaben, und KI-Lösungen sind bekanntlich immer nur so gut, wie die Daten, auf denen sie basieren.
Fragmentierte Datenwelten machen Unternehmen zu schaffen
Doch einen homogenen, einfach zu bearbeitenden Datenbestand vorzuhalten, noch dazu in gleichbleibend hoher Qualität, ist alles andere als trivial. Die Datenumgebungen in den Betrieben sind über Jahre, oft Jahrzehnte hinweg organisch gewachsen. Sie sind fragmentiert, heterogen, schlecht gepflegt und vielen Unternehmen fehlt der Überblick. Microsoft will mit Fabric Antworten auf diese Probleme geben und konnte seit der Ankündigung der Preview auf der Build-Konferenz nach eigenen Angaben bereits 25.000 Unternehmen davon überzeugt, Fabric zu nutzen - oft gleich für eine ganze Reihe von Workloads.
Microsoft bezeichnet Fabric als "vollständige Analyseplattform", die im Wesentlichen Eigenschaften von Power BI,10 Azure Synapse Analytics11 und Azure Data Factory12 kombiniert. Insgesamt lassen sich laut Hersteller die folgenden sieben Kern-Workloads abbilden, die jeweils für bestimmte Personengruppen mit spezifischen Aufgaben im Umfeld der Datenbearbeitung vorgesehen sind:
-
Data Factory: Microsoft bietet hier eine Datenintegrations-Umgebung13, in der Entwickler und auch Anwender Daten verschiedenen Ursprungs - zum Beispiel aus Datenbanken, Data Warehouses und Lakehouses oder auch aus Echtzeit-Datenquellen - erfassen, vorbereiten und mithilfe sogenannter Dataflows transformieren können. Microsoft führt hier Azure Data Factory und Power Query Dataflows 14zusammen. Dabei lassen sich die Daten zwischen mehreren Datenspeichern verschieben und via "Fast Copy" in das jeweilige Lakehouse oder Data Warehouse in Microsoft Fabric übertragen und für Analysen heranziehen. Neben den Dataflows sind die Data Pipelines wichtig, die Unternehmen umfangreiche Daten-Orchestrierungsfunktionen bereitstellen, um komplexe ETL- und Data Factory-Workflows zu erstellen.
-
Synapse Data Engineering: Dies ist ein in Fabric fest verdrahteter Apache Spark Service,15 der neben Spark 3.3.1 auch Python 3.10 und Delta 2.2 mitbringt. Entwickler können damit Daten im großen Umfang transformieren und eine Lakehouse-Architektur im Delta-Format für heterogene Datenwelten aufbauen.
-
Synapse Data Science: Genau wie Data Engineering ist auch Synapse Data Science16 eine Komponente von Azure Synapse Analytics. Hier stellt Fabric verschiedene Tools für Data Scientists bereit. Zum Angebot gehören etwa Jupyter Notebooks 17und andere Tools zum Erstellen, Trainieren und Bereitstellen von Modellen für maschinelles Lernen - auch in großem Maßstab.
-
Synapse Data Warehouse: Microsoft stellt hiermit die Data Warehousing-Komponente von Azure Synapse Analytics 18zur Verfügung. Sie bietet ein Data Warehouse mit Unterstützung von massiv-paralleler Verarbeitung, so dass große Datenmengen für analytische Zwecke aufbereitet werden können.
-
Synapse Realtime Analytics: Mit dieser Funktion19, ebenfalls von Azure Synapse Analytics, können Anwender Realtime-Analysen auf Streaming-Daten vornehmen. Hier werden Daten analysiert und verarbeitet, während sie in ein System eingespeist werden.
-
Power BI: Das bekannte Business-Analytics-Tool von Microsoft20 bietet interaktive Visualisierungen und BI-Funktionen mit einer benutzerfreundlichen Oberfläche. Anwender können damit Einblicke in ihre Daten gewinnen und sich diese in Dashboards und Reports anzeigen lassen.
-
Data Activator: Microsofts No-code-Angebot21, das Anwendern helfen soll, automatisiert Maßnahmen einzuleiten, wenn Power-BI-Reports oder -Eventstreams veränderte Datenmuster erkennen lassen oder wenn bestimmte vorab definierte Schwellwerte erreicht werden. Beispielsweise können dann bestimmte Benutzer benachrichtigt oder Power-Automate-Workflows gestartet werden.
Mit Fabric stellt Microsoft also eine zentrale Plattform bereit, die eine breite Palette von Tools für die verschiedenen Bedürfnisse von Datenexperten bietet. Man wolle den Aufwand für die Integration von Analysediensten reduzieren und die Bearbeitung von Datenbeständen vereinfachen, so das Unternehmen. Die einheitliche Architektur führe auch zu einem verbesserten Kosten-Management, da künftig für jeden Workload ein einziger "Kapazitäts- und Speicherpool" bereitstehe. Anwender könnten ihre Daten effektiv mit End-to-End-Governance- und Sicherheitsfunktionen schützen, die für Daten in Microsoft Fabric genauso funktionierten wie darüber hinaus.
OpenLake - zentraler Datensee für das gesamte Unternehmen
Herzstück von Fabric ist OneLake, ein einheitlicher und logischer Data Lake für die gesamte Organisation, der automatisch mit jedem Fabric-Mandanten bereitgestellt wird und zentraler Ort für alle Analysedaten sein soll. Für Kunden sei es einfacher, diesen einen Datenpool zu nutzen, als - wie meistens bislang - mit mehreren Data Lakes für unterschiedliche Business Units zu arbeiten. Jeder Fabric-Mandant stellt automatisch OneLake bereit, ohne dass zusätzliche Ressourcen eingerichtet oder verwaltet werden müssen.
Unternehmen erhalten laut Microsoft eine "natürliche Governance- und Compliance-Grenze", die allein vom Administrator des jeweiligen Mandanten kontrolliert wird. Diese wichtige Instanz sorgt dafür, dass OneLake auf das eigene Unternehmen beschränkt bleibt, wo dann die verschiedenen Beteiligten ihren jeweiligen Beitrag zum Data Lake leisten können. Innerhalb eines Mandanten lassen sich verschiedene Arbeitsbereiche mit unterschiedlichen Zugriffsrichtlinien und -rechten einrichten.
So wie Word-, Excel- oder PowerPoint-Dateien in OneDrive gespeichert werden, können Lakehouses, Warehouses und andere Datenelemente in Fabric/OneLake abgelegt werden. Verschiedene Nutzergruppen greifen über ihre spezifischen Oberflächen darauf zu, Entwickler zum Beispiel auf die Spark-Entwickleroberfläche in einem Lakehouse.
ADLS Gen 2 als Basis
OneLake basiert auf Azure Data Lake Storage (ADLS) Gen2 22und unterstützt strukturierte wie unstrukturierte Daten. Die Fabric-Datenelemente, etwa Data Warehouses und Lakehouses, speichern ihre Daten in OneLake im offenen Delta-Parquet-Format.23 Wenn beispielsweise ein Data Engineer Daten mit Spark 24in ein Lakehouse lädt und ein SQL-Entwickler T-SQL verwendet, um Daten in einem transaktionsbasierten Data Warehouse zu laden, tragen am Ende beide zum selben Data Lake bei.
Microsofts OneLake unterstützt dieselben ADLS-Gen2-APIs und -SDKs, um Kompatibilität mit vorhandenen ADLS-Gen2-Anwendungen, einschließlich Azure Databricks, zu ermöglichen. Unternehmen können Daten in OneLake so adressieren, als handele es sich um ein übergreifendes ADLS-Speicherkonto für die gesamte Organisation. Jeder Arbeitsbereich wird als Container innerhalb dieses Kontos angezeigt und unterschiedliche Datenelemente werden als Ordner darin präsentiert.
Zugelassene Anwender können in OneLake bestimmte Domänen und Arbeitsbereiche nutzen, um ihre Daten zu organisieren und Mitarbeitenden zu ermöglichen, über einen personalisierten Daten-Hub in diesen Beständen zu suchen. Laut Microsoft werden Daten nur ein einziges Mal in den Lake geladen, diese Kopie kann dann in allen Fabric-Workloads und -Engines verwendet werden. So sollen sich Datenduplizierung und sinnloses Anhäufen von Daten reduzieren lassen.
Dateien direkt aus dem Data Lake in Power BI laden
In Power BI stellt Microsoft zudem den Direct Lake-Modus25 bereit, über den Anwender eine Realtime-Verknüpfung zwischen ihren Reports und ihren OneLake-Daten herstellen können. Man wolle mit dieser direkten Integration von Power BI und OneLake sicherstellen, dass immer nur eine Kopie der Daten erstellt werde. So könnten Business-User immer auf die besten Daten zugreifen, eine Datenfragmentierung werde vermieden. Die Daten können dann in Microsoft 365-Anwendungen wie Outlook, Word, Excel, Teams oder PowerPoint übernommen werden.
Microsoft wäre nicht Microsoft, wenn nicht auch schon ein GenAI-basierter Copilot für Fabric 26bereitstünde - wenn auch erst einmal nur als Preview. So können Anwender sich in Power BI automatisiert Reports und Zusammenfassungen erstellen lassen. In Data Factory können Sie in einfacher Sprache beschreiben, wie sie Daten erfassen und umwandeln möchten, Copilot erledigt dann - im Idealfall - den Rest.
Mit Fabric hat Microsoft auch eine Reihe von Management-, Governance- und Sicherheitsfunktionen vorgestellt, die dabei helfen sollen, Einblicke in die Nutzung und Akzeptanz von Daten sowie Tools zu deren Verwaltung und Sicherung zu erhalten. Diese Governance- und Sicherheitsfunktionen sollen nun durch eine Integration mit Microsoft Purview27 erweitert werden. Kunden können jetzt "Purview-Information-Protection"-Kennzeichnungen verwenden, um sensible Fabric-Daten zu klassifizieren - sowie es Anwender von Microsoft 365 bereits kennen. Indem Benutzer- und Systemoperationen automatisch in Microsoft-Purview-Audit-Protokollen erfasst werden, sollen sich Audits vereinfachen lassen.
Datenquellen mit Fabric verbinden
Unternehmen halten heute ihre Daten normalerweise verstreut in diversen Clouds, Konten, Datenbanken, Domänen und Engines. Mit Shortcuts28 und der Datenreplikations-Funktion Mirroring29 will Microsoft deshalb die Einbindung von Daten in OneLake vereinfachen. Shortcuts ermöglichen es Datenteams, Daten in OneLake zu virtualisieren, ohne sie verschieben und duplizieren zu müssen. Daten, die über verschiedene Clouds, Geschäftsbereiche und Domänen verteilt sind, lassen sich zu einem virtualisierten Datenprodukt zusammenfassen, das auf anwenderspezifische Anforderungen zugeschnitten ist.
Shortcuts gibt es nicht nur für OneLake und Azure Data Lake Storage Gen2, sondern auch für Amazon S3 und Microsoft Dataverse. Darüber hinaus hat der Softwarekonzern Funktionen wie "Link to Microsoft Fabric" in seine Power Apps eingefügt, sodass Dynamics-365- und Power-Platform-Daten direkt mit Fabric verknüpft werden können.
Mirroring dient dazu, vorhandene Cloud-Data-Warehouses und -Datenbanken dem Workload Synapse Data Warehouse hinzuzufügen und dort zu verwalten. Die Funktion repliziert dafür einen Snapshot der Datenbank auf OneLake in Delta Parquet-Tabellen und hält die Kopie nahezu in Echtzeit synchron. Sobald die Quelldatenbank angeschlossen ist, funktionieren Features wie Shortcuts, der Direct-Lake-Modus in Power BI und das übergreifende Sicherheitsmodell laut Hersteller sofort. In Kürze sollen auch Kunden von Azure Cosmos DB, Azure SQL DB, Snowflake und Mongo DB die Möglichkeit bekommen, über diese Spiegelung auf ihre Daten in OneLake zuzugreifen. 2024 sollen dann weitere Datenquellen hinzukommen.
Daten aus Microsoft 365 lassen sich für Fabric bereitstellen
Microsoft hat ferner angekündigt, die bisher nur im JSON-Format angebotenen Daten von Microsoft 365 künftig auch im Delta-Parquet-Format bereitzustellen und so eine einfache Integration in OneLake zu ermöglichen. Durch die native Integration in Microsoft Graph, dem einheitlichen Datenmodell für Produkte wie Teams, Outlook oder SharePoint, könnten Anwender damit auch die großen Mengen an Arbeitsdaten, die sich in der Microsoft-365-Welt ansammelten, für Fabric bereitstellen.
Microsoft verspricht Kunden, die Ihren gesamten Datenbestand in OneLake konsolidieren, dass sie dort Domänen, Unterdomänen und Arbeitsbereiche verwenden können, um Ihre Daten in einem "logischen Datengeflecht" zu organisieren. So würden eine föderierte Governance und eine granulare Kontrolle möglich, während die Beschäftigten im Unternehmen über eine intuitiv nutzbare, personalisierte Datendrehscheibe alle Daten finden könnten.
Data-Spezialisten positionieren sich als Fabric-Partner
Fabric könnte ein Gamechanger im Markt für Big Data/Analytics werden. Eine Reihe anderer Anbieter, darunter SAS30, Teradata31, Qlik32, Fivetran 33und Informatica34, haben zeitgleich Ankündigungen veröffentlicht, um sich in die Microsoft-Plattform einzuklinken und so weiter im Spiel zu bleiben, sollten sich Anwender für Fabric als Hauptdatenplattform entscheiden. Sie wissen, dass viele Kunden unter dem Druck, in Sachen Analytics und KI Fortschritte zu machen, an der Konsolidierung ihrer Datenplattformen arbeiten. Gleichzeitig fürchten die Unternehmen oft, sich noch tiefer in die Abhängigkeit von Microsoft zu begeben, als es ohnehin schon der Fall ist.
Immerhin gibt es noch jede Menge Konkurrenz. Beispielsweise will sich auch Snowflake 35als die Plattform präsentieren, die sowohl Data Lakes als auch Warehouses unterstützt und zudem in der Lage ist, externe Datenquellen über das Apache Iceberg-Tabellenformat abzufragen, eine Technologie, die auch Cloudera 36und Google 37unterstützen. Auch Snowflake glaubt nach eigenem Bekunden an die Eliminierung von Datenkopien, um die Verwaltung zu vereinfachen und maximale Effizienz zu erreichen.
Databricks bestätigte gleichzeitig mit der Bekanntgabe von Microsofts Fabric-Neuigkeiten die komplette Überarbeitung seiner Lakehouse-Plattform mit der so genannten Data-Intelligence-Schicht Lakehouse IQ. 38Der neue Plan von Databricks sieht die Einbindung von Technologien vor, die mit der 1,3 Milliarden Dollar teuren Übernahme von MosaicML39 ins Unternehmen kamen, einem Startup mit Fokus auf Generative AI. Databricks möchte nach eigenen Angaben eine Retrieval Augmented Generation (RAG) einführen, mit der Kunden "hochqualitative Conversational Agents auf ihren eigenen Daten" erstellen können. Produktdetails wurden noch nicht bekannt gegeben.
Bei all den schönen Ankündigungen weist allerdings The Register 40auf ein grundsätzliches Problem hin, dass noch nicht gelöst sei: In heutigen Data-Warehouse und BI-Umgebungen greifen manchmal Hunderte oder sogar Tausende von Benutzern gleichzeitig auf die Datenbank zu. Spezialanbieter arbeiten seit Jahren mit besonderer Hardware oder Abfrageoptimierung, um diesem Problem zu begegnen. Cloud-basierte Data-Warehouses können manches durch das Hinzufügen von Knoten wettmachen, aber für die Benutzer entstünden oft immense Kosten. (hv)
Links im Artikel:
1 https://learn.microsoft.com/de-de/fabric/get-started/microsoft-fabric-overview2 https://community.fabric.microsoft.com/t5/Webinars-and-Video-Gallery/Microsoft-Fabric-Satya-Nadella-at-Microsoft-Build-2023/m-p/3288599
3 https://www.computerwoche.de/a/was-macht-ein-data-engineer,3550939
4 https://www.computerwoche.de/a/was-ist-ein-data-warehouse,3551695
5 https://www.computerwoche.de/a/was-sie-ueber-maschinelles-lernen-wissen-muessen,3329560
6 https://www.computerwoche.de/k/kuenstliche-intelligenz-artificial-intelligence,3544
7 https://learn.microsoft.com/de-de/fabric/onelake/onelake-overview
8 https://www.databricks.com/de
9 https://azure.microsoft.com/de-de/products/databricks
10 https://www.computerwoche.de/a/15-tipps-fuer-business-nutzer,3551451
11 https://azure.microsoft.com/en-us/products/synapse-analytics
12 https://azure.microsoft.com/de-de/products/data-factory
13 https://radacad.com/what-is-data-factory-in-microsoft-fabric
14 https://learn.microsoft.com/de-de/power-query/connectors/dataflows
15 https://blog.fabric.microsoft.com/en-us/blog/introducing-synapse-data-engineering-in-microsoft-fabric/
16 https://blog.fabric.microsoft.com/en-us/blog/introducing-synapse-data-science-in-microsoft-fabric/
17 https://jupyter.org/try-jupyter/retro/notebooks/?path=notebooks/Intro.ipynb
18 https://blog.fabric.microsoft.com/en-US/blog/introducing-synapse-data-warehouse-in-microsoft-fabric/
19 https://learn.microsoft.com/en-us/fabric/real-time-analytics/
20 https://powerbi.microsoft.com/de-de/
21 https://learn.microsoft.com/en-us/fabric/data-activator/data-activator-introduction
22 https://learn.microsoft.com/de-de/azure/storage/blobs/data-lake-storage-introduction
23 https://datasolut.com/was-ist-delta-lake/
24 https://www.computerwoche.de/a/was-ist-apache-spark,3614187
25 https://learn.microsoft.com/de-de/power-bi/enterprise/directlake-overview
26 https://learn.microsoft.com/en-us/fabric/get-started/copilot-fabric-overview
27 https://learn.microsoft.com/de-de/purview/purview
28 https://learn.microsoft.com/en-us/fabric/onelake/onelake-shortcuts
29 https://blog.fabric.microsoft.com/en-us/blog/introducing-mirroring-in-microsoft-fabric/
30 https://www.sas.com/en_ae/news/press-releases/2023/november/sas-decision-intelligence-to-be-integrated-into-microsoft-fabric.html
31 https://www.teradata.com/Press-Releases/2023/Teradata-AI-Unlimited-for-Microsoft-Fabric
32 https://community.qlik.com/t5/Qlik-Replicate/Support-for-Microsoft-Fabric/td-p/2085906
33 https://www.fivetran.com/blog/fivetran-supports-microsoft-onelake-as-a-destination-through-integration-with-microsoft-fabric
34 https://now.informatica.com/idmc-microsoft-fabric.html
35 https://www.snowflake.com/news/snowflake-accelerates-how-users-build-next-generation-apps-and-machine-learning-models-in-the-data-cloud/
36 https://de.cloudera.com/
37 https://cloud.google.com/solutions/data-warehouse-modernization?hl=de
38 https://www.databricks.com/blog/introducing-lakehouseiq-ai-powered-engine-uniquely-understands-your-business
39 https://www.databricks.com/blog/databricks-mosaicml
40 https://www.theregister.com/2023/11/27/microsoft_databricks_data_platform/
Alle Rechte vorbehalten. Jegliche Vervielfältigung oder Weiterverbreitung in jedem Medium in Teilen oder als Ganzes bedarf der schriftlichen Zustimmung der IDG Tech Media GmbH. dpa-Texte und Bilder sind urheberrechtlich geschützt und dürfen weder reproduziert noch wiederverwendet oder für gewerbliche Zwecke verwendet werden. Für den Fall, dass auf dieser Webseite unzutreffende Informationen veröffentlicht oder in Programmen oder Datenbanken Fehler enthalten sein sollten, kommt eine Haftung nur bei grober Fahrlässigkeit des Verlages oder seiner Mitarbeiter in Betracht. Die Redaktion übernimmt keine Haftung für unverlangt eingesandte Manuskripte, Fotos und Illustrationen. Für Inhalte externer Seiten, auf die von dieser Webseite aus gelinkt wird, übernimmt die IDG Tech Media GmbH keine Verantwortung.