Fabric als zentrale Datenplattform

Wie Microsoft den Data-Analytics-Markt erobern will

29.11.2023
Von 
Heinrich Vaske ist Editorial Director a.D. von COMPUTERWOCHE, CIO und CSO.

Dateien direkt aus dem Data Lake in Power BI laden

In Power BI stellt Microsoft zudem den Direct Lake-Modus bereit, über den Anwender eine Realtime-Verknüpfung zwischen ihren Reports und ihren OneLake-Daten herstellen können. Man wolle mit dieser direkten Integration von Power BI und OneLake sicherstellen, dass immer nur eine Kopie der Daten erstellt werde. So könnten Business-User immer auf die besten Daten zugreifen, eine Datenfragmentierung werde vermieden. Die Daten können dann in Microsoft 365-Anwendungen wie Outlook, Word, Excel, Teams oder PowerPoint übernommen werden.

Microsoft wäre nicht Microsoft, wenn nicht auch schon ein GenAI-basierter Copilot für Fabric bereitstünde - wenn auch erst einmal nur als Preview. So können Anwender sich in Power BI automatisiert Reports und Zusammenfassungen erstellen lassen. In Data Factory können Sie in einfacher Sprache beschreiben, wie sie Daten erfassen und umwandeln möchten, Copilot erledigt dann - im Idealfall - den Rest.

Mit Fabric hat Microsoft auch eine Reihe von Management-, Governance- und Sicherheitsfunktionen vorgestellt, die dabei helfen sollen, Einblicke in die Nutzung und Akzeptanz von Daten sowie Tools zu deren Verwaltung und Sicherung zu erhalten. Diese Governance- und Sicherheitsfunktionen sollen nun durch eine Integration mit Microsoft Purview erweitert werden. Kunden können jetzt "Purview-Information-Protection"-Kennzeichnungen verwenden, um sensible Fabric-Daten zu klassifizieren - sowie es Anwender von Microsoft 365 bereits kennen. Indem Benutzer- und Systemoperationen automatisch in Microsoft-Purview-Audit-Protokollen erfasst werden, sollen sich Audits vereinfachen lassen.

Datenquellen mit Fabric verbinden

Unternehmen halten heute ihre Daten normalerweise verstreut in diversen Clouds, Konten, Datenbanken, Domänen und Engines. Mit Shortcuts und der Datenreplikations-Funktion Mirroring will Microsoft deshalb die Einbindung von Daten in OneLake vereinfachen. Shortcuts ermöglichen es Datenteams, Daten in OneLake zu virtualisieren, ohne sie verschieben und duplizieren zu müssen. Daten, die über verschiedene Clouds, Geschäftsbereiche und Domänen verteilt sind, lassen sich zu einem virtualisierten Datenprodukt zusammenfassen, das auf anwenderspezifische Anforderungen zugeschnitten ist.

Shortcuts gibt es nicht nur für OneLake und Azure Data Lake Storage Gen2, sondern auch für Amazon S3 und Microsoft Dataverse. Darüber hinaus hat der Softwarekonzern Funktionen wie "Link to Microsoft Fabric" in seine Power Apps eingefügt, sodass Dynamics-365- und Power-Platform-Daten direkt mit Fabric verknüpft werden können.

Mirroring dient dazu, vorhandene Cloud-Data-Warehouses und -Datenbanken dem Workload Synapse Data Warehouse hinzuzufügen und dort zu verwalten. Die Funktion repliziert dafür einen Snapshot der Datenbank auf OneLake in Delta Parquet-Tabellen und hält die Kopie nahezu in Echtzeit synchron. Sobald die Quelldatenbank angeschlossen ist, funktionieren Features wie Shortcuts, der Direct-Lake-Modus in Power BI und das übergreifende Sicherheitsmodell laut Hersteller sofort. In Kürze sollen auch Kunden von Azure Cosmos DB, Azure SQL DB, Snowflake und Mongo DB die Möglichkeit bekommen, über diese Spiegelung auf ihre Daten in OneLake zuzugreifen. 2024 sollen dann weitere Datenquellen hinzukommen.

Daten aus Microsoft 365 lassen sich für Fabric bereitstellen

Microsoft hat ferner angekündigt, die bisher nur im JSON-Format angebotenen Daten von Microsoft 365 künftig auch im Delta-Parquet-Format bereitzustellen und so eine einfache Integration in OneLake zu ermöglichen. Durch die native Integration in Microsoft Graph, dem einheitlichen Datenmodell für Produkte wie Teams, Outlook oder SharePoint, könnten Anwender damit auch die großen Mengen an Arbeitsdaten, die sich in der Microsoft-365-Welt ansammelten, für Fabric bereitstellen.

Microsoft verspricht Kunden, die Ihren gesamten Datenbestand in OneLake konsolidieren, dass sie dort Domänen, Unterdomänen und Arbeitsbereiche verwenden können, um Ihre Daten in einem "logischen Datengeflecht" zu organisieren. So würden eine föderierte Governance und eine granulare Kontrolle möglich, während die Beschäftigten im Unternehmen über eine intuitiv nutzbare, personalisierte Datendrehscheibe alle Daten finden könnten.

Data-Spezialisten positionieren sich als Fabric-Partner

Fabric könnte ein Gamechanger im Markt für Big Data/Analytics werden. Eine Reihe anderer Anbieter, darunter SAS, Teradata, Qlik, Fivetran und Informatica, haben zeitgleich Ankündigungen veröffentlicht, um sich in die Microsoft-Plattform einzuklinken und so weiter im Spiel zu bleiben, sollten sich Anwender für Fabric als Hauptdatenplattform entscheiden. Sie wissen, dass viele Kunden unter dem Druck, in Sachen Analytics und KI Fortschritte zu machen, an der Konsolidierung ihrer Datenplattformen arbeiten. Gleichzeitig fürchten die Unternehmen oft, sich noch tiefer in die Abhängigkeit von Microsoft zu begeben, als es ohnehin schon der Fall ist.

Immerhin gibt es noch jede Menge Konkurrenz. Beispielsweise will sich auch Snowflake als die Plattform präsentieren, die sowohl Data Lakes als auch Warehouses unterstützt und zudem in der Lage ist, externe Datenquellen über das Apache Iceberg-Tabellenformat abzufragen, eine Technologie, die auch Cloudera und Google unterstützen. Auch Snowflake glaubt nach eigenem Bekunden an die Eliminierung von Datenkopien, um die Verwaltung zu vereinfachen und maximale Effizienz zu erreichen.

Databricks bestätigte gleichzeitig mit der Bekanntgabe von Microsofts Fabric-Neuigkeiten die komplette Überarbeitung seiner Lakehouse-Plattform mit der so genannten Data-Intelligence-Schicht Lakehouse IQ. Der neue Plan von Databricks sieht die Einbindung von Technologien vor, die mit der 1,3 Milliarden Dollar teuren Übernahme von MosaicML ins Unternehmen kamen, einem Startup mit Fokus auf Generative AI. Databricks möchte nach eigenen Angaben eine Retrieval Augmented Generation (RAG) einführen, mit der Kunden "hochqualitative Conversational Agents auf ihren eigenen Daten" erstellen können. Produktdetails wurden noch nicht bekannt gegeben.

Bei all den schönen Ankündigungen weist allerdings The Register auf ein grundsätzliches Problem hin, dass noch nicht gelöst sei: In heutigen Data-Warehouse und BI-Umgebungen greifen manchmal Hunderte oder sogar Tausende von Benutzern gleichzeitig auf die Datenbank zu. Spezialanbieter arbeiten seit Jahren mit besonderer Hardware oder Abfrageoptimierung, um diesem Problem zu begegnen. Cloud-basierte Data-Warehouses können manches durch das Hinzufügen von Knoten wettmachen, aber für die Benutzer entstünden oft immense Kosten. (hv)