Microsoft-CEO Satya Nadella hatte Fabric schon auf der Konferenz Build 2023 als die wichtigste Einführung eines Datenprodukts seit dem SQL Server bezeichnet. Fabric war dann auch erneut ein bedeutendes Thema auf der User-Konferenz Ignite vor wenigen Tagen. Die übergreifende Datenplattform, die Data-Engineering, Data Warehousing, maschinelles Lernen und KI zusammenführt, ist seit Anfang November verfügbar. Herzstück ist OneLake, ein zentraler Datenpool, in dem Unternehmen ihre Data Warehouses und Data Lakes konsolidieren und ihre Daten für KI- und Analytics-Projekte bereitstellen sollen.
Fabric stützt sich auf verschiedene Microsoft-Produkte sowie auf Open-Source-Technologien von Databricks, das seit Jahren eng mit Microsoft zusammenarbeitet und viele seiner Produkte in die Azure-Cloud-Plattform integriert hat. Microsoft will sich mit Fabric für den bevorstehenden KI-Boom aufstellen. Daten sind die Grundlage für jedes KI-Vorhaben, und KI-Lösungen sind bekanntlich immer nur so gut, wie die Daten, auf denen sie basieren.
Fragmentierte Datenwelten machen Unternehmen zu schaffen
Doch einen homogenen, einfach zu bearbeitenden Datenbestand vorzuhalten, noch dazu in gleichbleibend hoher Qualität, ist alles andere als trivial. Die Datenumgebungen in den Betrieben sind über Jahre, oft Jahrzehnte hinweg organisch gewachsen. Sie sind fragmentiert, heterogen, schlecht gepflegt und vielen Unternehmen fehlt der Überblick. Microsoft will mit Fabric Antworten auf diese Probleme geben und konnte seit der Ankündigung der Preview auf der Build-Konferenz nach eigenen Angaben bereits 25.000 Unternehmen davon überzeugt, Fabric zu nutzen - oft gleich für eine ganze Reihe von Workloads.
Microsoft bezeichnet Fabric als "vollständige Analyseplattform", die im Wesentlichen Eigenschaften von Power BI, Azure Synapse Analytics und Azure Data Factory kombiniert. Insgesamt lassen sich laut Hersteller die folgenden sieben Kern-Workloads abbilden, die jeweils für bestimmte Personengruppen mit spezifischen Aufgaben im Umfeld der Datenbearbeitung vorgesehen sind:
Data Factory: Microsoft bietet hier eine Datenintegrations-Umgebung, in der Entwickler und auch Anwender Daten verschiedenen Ursprungs - zum Beispiel aus Datenbanken, Data Warehouses und Lakehouses oder auch aus Echtzeit-Datenquellen - erfassen, vorbereiten und mithilfe sogenannter Dataflows transformieren können. Microsoft führt hier Azure Data Factory und Power Query Dataflows zusammen. Dabei lassen sich die Daten zwischen mehreren Datenspeichern verschieben und via "Fast Copy" in das jeweilige Lakehouse oder Data Warehouse in Microsoft Fabric übertragen und für Analysen heranziehen. Neben den Dataflows sind die Data Pipelines wichtig, die Unternehmen umfangreiche Daten-Orchestrierungsfunktionen bereitstellen, um komplexe ETL- und Data Factory-Workflows zu erstellen.
Synapse Data Engineering: Dies ist ein in Fabric fest verdrahteter Apache Spark Service, der neben Spark 3.3.1 auch Python 3.10 und Delta 2.2 mitbringt. Entwickler können damit Daten im großen Umfang transformieren und eine Lakehouse-Architektur im Delta-Format für heterogene Datenwelten aufbauen.
Synapse Data Science: Genau wie Data Engineering ist auch Synapse Data Science eine Komponente von Azure Synapse Analytics. Hier stellt Fabric verschiedene Tools für Data Scientists bereit. Zum Angebot gehören etwa Jupyter Notebooks und andere Tools zum Erstellen, Trainieren und Bereitstellen von Modellen für maschinelles Lernen - auch in großem Maßstab.
Synapse Data Warehouse: Microsoft stellt hiermit die Data Warehousing-Komponente von Azure Synapse Analytics zur Verfügung. Sie bietet ein Data Warehouse mit Unterstützung von massiv-paralleler Verarbeitung, so dass große Datenmengen für analytische Zwecke aufbereitet werden können.
Synapse Realtime Analytics: Mit dieser Funktion, ebenfalls von Azure Synapse Analytics, können Anwender Realtime-Analysen auf Streaming-Daten vornehmen. Hier werden Daten analysiert und verarbeitet, während sie in ein System eingespeist werden.
Power BI: Das bekannte Business-Analytics-Tool von Microsoft bietet interaktive Visualisierungen und BI-Funktionen mit einer benutzerfreundlichen Oberfläche. Anwender können damit Einblicke in ihre Daten gewinnen und sich diese in Dashboards und Reports anzeigen lassen.
Data Activator: Microsofts No-code-Angebot, das Anwendern helfen soll, automatisiert Maßnahmen einzuleiten, wenn Power-BI-Reports oder -Eventstreams veränderte Datenmuster erkennen lassen oder wenn bestimmte vorab definierte Schwellwerte erreicht werden. Beispielsweise können dann bestimmte Benutzer benachrichtigt oder Power-Automate-Workflows gestartet werden.
Mit Fabric stellt Microsoft also eine zentrale Plattform bereit, die eine breite Palette von Tools für die verschiedenen Bedürfnisse von Datenexperten bietet. Man wolle den Aufwand für die Integration von Analysediensten reduzieren und die Bearbeitung von Datenbeständen vereinfachen, so das Unternehmen. Die einheitliche Architektur führe auch zu einem verbesserten Kosten-Management, da künftig für jeden Workload ein einziger "Kapazitäts- und Speicherpool" bereitstehe. Anwender könnten ihre Daten effektiv mit End-to-End-Governance- und Sicherheitsfunktionen schützen, die für Daten in Microsoft Fabric genauso funktionierten wie darüber hinaus.
OpenLake - zentraler Datensee für das gesamte Unternehmen
Herzstück von Fabric ist OneLake, ein einheitlicher und logischer Data Lake für die gesamte Organisation, der automatisch mit jedem Fabric-Mandanten bereitgestellt wird und zentraler Ort für alle Analysedaten sein soll. Für Kunden sei es einfacher, diesen einen Datenpool zu nutzen, als - wie meistens bislang - mit mehreren Data Lakes für unterschiedliche Business Units zu arbeiten. Jeder Fabric-Mandant stellt automatisch OneLake bereit, ohne dass zusätzliche Ressourcen eingerichtet oder verwaltet werden müssen.
Unternehmen erhalten laut Microsoft eine "natürliche Governance- und Compliance-Grenze", die allein vom Administrator des jeweiligen Mandanten kontrolliert wird. Diese wichtige Instanz sorgt dafür, dass OneLake auf das eigene Unternehmen beschränkt bleibt, wo dann die verschiedenen Beteiligten ihren jeweiligen Beitrag zum Data Lake leisten können. Innerhalb eines Mandanten lassen sich verschiedene Arbeitsbereiche mit unterschiedlichen Zugriffsrichtlinien und -rechten einrichten.
So wie Word-, Excel- oder PowerPoint-Dateien in OneDrive gespeichert werden, können Lakehouses, Warehouses und andere Datenelemente in Fabric/OneLake abgelegt werden. Verschiedene Nutzergruppen greifen über ihre spezifischen Oberflächen darauf zu, Entwickler zum Beispiel auf die Spark-Entwickleroberfläche in einem Lakehouse.
ADLS Gen 2 als Basis
OneLake basiert auf Azure Data Lake Storage (ADLS) Gen2 und unterstützt strukturierte wie unstrukturierte Daten. Die Fabric-Datenelemente, etwa Data Warehouses und Lakehouses, speichern ihre Daten in OneLake im offenen Delta-Parquet-Format. Wenn beispielsweise ein Data Engineer Daten mit Spark in ein Lakehouse lädt und ein SQL-Entwickler T-SQL verwendet, um Daten in einem transaktionsbasierten Data Warehouse zu laden, tragen am Ende beide zum selben Data Lake bei.
Microsofts OneLake unterstützt dieselben ADLS-Gen2-APIs und -SDKs, um Kompatibilität mit vorhandenen ADLS-Gen2-Anwendungen, einschließlich Azure Databricks, zu ermöglichen. Unternehmen können Daten in OneLake so adressieren, als handele es sich um ein übergreifendes ADLS-Speicherkonto für die gesamte Organisation. Jeder Arbeitsbereich wird als Container innerhalb dieses Kontos angezeigt und unterschiedliche Datenelemente werden als Ordner darin präsentiert.
Zugelassene Anwender können in OneLake bestimmte Domänen und Arbeitsbereiche nutzen, um ihre Daten zu organisieren und Mitarbeitenden zu ermöglichen, über einen personalisierten Daten-Hub in diesen Beständen zu suchen. Laut Microsoft werden Daten nur ein einziges Mal in den Lake geladen, diese Kopie kann dann in allen Fabric-Workloads und -Engines verwendet werden. So sollen sich Datenduplizierung und sinnloses Anhäufen von Daten reduzieren lassen.