Bei Microsoft Fabric handelt es sich um eine umfassende Software-as-a-Service (SaaS)-Plattform für Big Data und Analytics. Das Herzstück der Tool-Suite bildet ein Data Lake, der neue und bereits existierende Komponenten von Power BI, Azure Synapse sowie Azure Data Factory in einer singulären Umgebung integriert. In vielerlei Hinsicht ist Fabric Microsofts Antwort auf Google Cloud Dataplex. Dabei deckt Microsoft Fabric folgende Anwendungsgebiete ab:
Data Movement,
Data Storage,
Data Engineering,
Data Integration,
Data Science,
Realtime Analytics und
Business Intelligence (inklusive Security, Datenschutz und Compliance).
Zur Zielgruppe von Fabric zählen so gut wie alle Unternehmensanwender - von Administratoren über Entwickler bis hin zu Business-Analysten und Führungskräften.
In diesem Artikel werfen wir einen Blick auf die einzelnen Komponenten von Microsoft Fabric (derzeit in der Preview-Phase) sowie deren Funktionen und verraten Ihnen, wie Sie erste Schritte mit Microsofts SaaS-Analytics-Suite gehen.
OneLake
OneLake ist ein einheitlicher, logischer Data Lake für Ihr gesamtes Unternehmen - wobei es für jeden Tenant nur einen einzigen Data Lake gibt. OneLake ist als zentrale Sammelstelle für sämtliche Analysedaten konzipiert, ähnlich wie Microsoft sich das bei OneDrive vorstellt. Um OneLake einfacher von Ihrem Desktop aus zu nutzen, steht Ihnen ein entsprechender Dateiexplorer zum Download zur Verfügung. Die Basis für OneLake bildet Azure Data Lake Storage (ADLS) Gen2 - es werden also sämtliche Dateitypen unterstützt. Alle Fabric-Datenkomponenten (zum Beispiel Data Warehouses oder Data Lakehouses), speichern ihre Daten in OneLake automatisch im Delta-Format ab (basierend auf Apache Parquet). Das ist auch das Format, das Azure Databricks verwendet. Keine Rolle spielt dabei indes, ob die Daten mit Spark oder SQL generiert wurden.
Ein Data Lakehouse in OneLake zu erstellen, gestaltet sich ziemlich simpel: Über die Ansicht "Data Engineering" erstellen Sie dieses mit einigen Klicks, benennen es, und laden .CSV-Files in den Dateibereich hoch.
Was in unserem ersten kleinen Test noch nicht gut klappte: Auf die gleiche Weise Tabellen in das Lakehouse zu laden. Mit Unterstützung des Microsoft-Supports stellte sich schließlich heraus, dass die Funktion "Load to Tables" zum Zeitpunkt der Artikelerstellung nicht mit Spaltentiteln umgehen kann, die Leerzeichen enthalten. Autsch. Microsoft hat uns allerdings versichert, dass dieses Feature im fertigen Produkt laufen wird. Für unseren Test mussten wir auf bereinigte .CSV-Dateien zurückgreifen. Auch eine Spark-QL-Query über ein Notebook war kein Problem.
Spark ist nicht die einzige Möglichkeit, SQL-Abfragen auf Lakehouse-Tabellen anzuwenden: Sie können auf jede OneLake-Tabelle im Delta-Format über einen SQL-Endpunkt zugreifen. Dieser wird automatisch aufgesetzt, sobald Sie das Lakehouse bereitstellen.
Power BI
Power BI wurde um die Möglichkeit erweitert, mit OneLake Lakehouse (Delta)-Tabellen zu arbeiten. Ansonsten stehen die von Power BI gewohnten Business-Intelligence- und Analytics-Funktionen zur Verfügung, um Reportings zu erstellen und mit Microsoft 365 zu integrieren.
Data Factory
Data Factory kombiniert in Microsoft Fabric Data-Integration-Features für Citizen- und Profi-Nutzer. Dazu verbindet es sich mit etwa einhundert relationalen und nicht-relationalen Datenbanken, Lakehouses, Data Warehouses sowie generischen Interfaces. Daten können Sie mit Dataflows importieren. Das garantiert umfassende Transformationsmöglichkeiten (mehr als 300).
In unserem Test haben wir einen Dataflow ausprobiert, der zwei Tabellen aus dem Northwind-Dataset umfasste. Das funktionierte zunächst ziemlich beeindruckend, schlug dann aber im letzten Verarbeitungsschritt fehl. Der Fluch der Preview. Um Workflows für die Datenorchestrierung zu erstellen, können Sie auch Datenpipelines verwenden. Das klappte im Test mit zwei verschiedenen Beispieldatensätzen zuverlässig.
Um On-Premises-Daten in OneLake zu laden, soll es künftig möglich sein, ein entsprechendes Daten-Gateway einzurichten und mit einem Dataflow zu verbinden. Bis es soweit ist, empfiehlt es sich, lokale Daten in die Cloud zu kopieren und von dort aus zu importieren.
Data Activator
Microsoft zufolge bereichert Data Activator die Fabric-Plattform um eine No-Code-Experience. Im Klartext bedeutet das, dass automatisch Maßnahmen ergriffen werden, sobald in Daten, die sich verändern, bestimmte Muster erkannt oder Schwellenwerte erreicht werden. In diesem Fall benachrichtet die Lösung dann bestimmte Benutzer oder startet Power-Automate-Workflows.
Typische Anwendungsfälle für Data Activator wären beispielsweise:
Werbeanzeigen schalten, sobald die Umsätze in einer Filiale zurückgehen;
Im Supermarkt die Mitarbeiter benachrichtigen, um Lebensmittel aus defekten Tiefkühltruhen zu entfernen, bevor sie verderben;
Account-Teams mit individuellen Zeit- oder Wert-Limits für Kunden ausstatten, die in Zahlungsverzug geraten sind.
Data Engineering
Data Engineering in Microsoft Fabric umfasst:
das Lakehouse,
Apache-Spark-Job-Definitionen,
Notebooks (in Python, R, Scala und SQL) sowie
Datenpipelines (siehe auch Data Factory).
Data Science
Data Science in Microsoft Fabric umfasst Machine-Learning-Modelle, -Experimente und -Notebooks.
Für unseren Test haben wir uns für das Zeitreihenprognosemodell entschieden. Dieses nutzt Python, die Prophet-Bibliothek, MLflow sowie die Autologging-Funktion von Fabric. Den genutzten Beispieldatensatz finden Sie hier.
Prophet verwendet ein traditionelles Saisonalitätsmodell für die Time Series Prediction - eine erfrischende Abkehr vom Trend zu immer komplexeren Machine- und Deep-Learning-Modellen. Die Gesamtlaufzeit betrug im Test 147 Sekunden, also nicht ganz drei Minuten.
Data Warehouse
Data Warehouse in Microsoft Fabric zielt darauf ab, Data Lakes und Data Warehouses zusammenzubringen. Das unterscheidet sich vom SQL-Endpunkt des Lakehouse: Dieser ist ein "read only" Data Warehouse, das automatisch über Fabric erstellt wird. Das Data Warehouse funktioniert dagegen traditionell, unterstützt also transaktionale T-SQL-Funktionen wie jedes andere Enterprise Data Warehouse.
Im Gegensatz zum SQL Endpoint, bei dem Tabellen und Daten automatisch erstellt werden, haben Sie beim Data Warehouse die volle Kontrolle, indem Sie entweder das Portal der Microsoft-Suite oder T-SQL-Befehle nutzen.
Wir haben in unserem Test ein neues Warehouse erstellt und es mit Beispieldaten von Microsoft gefüttert.
Echtzeit-Analytics
Datenanalysen in Echtzeit sind in Microsoft Fabric eng mit Azure Data Explorer verknüpft. Sowohl Realtime Analytics in Fabric als auch Azure Data Explorer verwenden Kusto-Query-Language (KQL) -Datenbanken und -Abfragen. Im Vergleich zu SQL Server verspricht das enorme Geschwindigkeitsvorteile, insbesondere bei wachsendem Datenvolumen.
Für unseren Test haben wir einen weiteren Beispieldatensatz von Microsoft aus dem Bereich der Wetteranalysen verwendet. Dieses Beispiel enthält ein Skript mit mehreren KQL-Abfragen.
Die KQL-Query für den untenstehenden Screenshot nutzt Geospatial-Funktionen und ein Streudiagramm.
//We can perform Geospatial analytics with powerful inbuilt functions in KQL
//Plot storm events that happened along the south coast
let southCoast = dynamic({"type":"LineString","coordinates":
[[-97.18505859374999,25.997549919572112],[-97.58056640625,26.96124577052697],
[-97.119140625,27.955591004642553],[-94.04296874999999,29.726222319395504],[-92.98828125,29.82158272057499],[-89.18701171875,29.11377539511439],[-89.384765625,30.315987718557867],[-87.5830078125,30.221101852485987],[-86.484375,30.4297295750316],[-85.1220703125,29.6880527498568],[-84.00146484374999,30.14512718337613],[-82.6611328125,28.806173508854776],[-82.81494140625,28.033197847676377],[-82.177734375,26.52956523826758],[-80.9912109375,25.20494115356912]]});
StormEvents
| project BeginLon, BeginLat, EventType
| where geo_distance_point_to_line(BeginLon, BeginLat, southCoast) < 5000
| render scatterchart with (kind=map)
//Observation: Because these areas are near the coast, most of the events are Marine Thunderstorm Winds
Microsoft Fabric Preview - Testfazit
Unser Erstkontakt mit der Preview von Microsoft Fabric war von zahlreichen Bugs geprägt. Dennoch konnten wir uns bereits ein gutes Bild davon machen, welche Bandbreite an Analyticse-Funktionen die Suite abdeckt. Wenn Microsofts Produkt vollständig ausgearbeitet ist, stehen die Chancen gut, dass es mit Google Cloud Dataplex konkurrieren kann.
(fm)
Dieser Beitrag basiert auf einem Artikel unserer US-Schwesterpublikation Infoworld.