Oracle hat auf der CloudWorld in Las Vegas mit MySQL HeatWave Lakehouse einen neuen Datenbankdienst vorgestellt und steigt damit ins Geschäft mit Data Lakehouses ein. Das Konzept erfreut sich auf Seiten der Anwender zunehmender Beliebtheit. Ein Lakehouse kombiniert die Vorteile eines Data Warehouse - wie zum Beispiel strukturiertes Datenmanagement einschließlich des Supports für Tabellenformate, Metadatenmanagement und die Verarbeitung transaktionaler Daten - mit den niedrigen Kosten und Agilitätsvorteilen eines Data Lake.
"Bis 2024 werden mehr als drei Viertel der Unternehmen, die bereits einen Data Lake eingeführt haben, in Data Lakehouse-Technologien investieren", prognostiziert Matt Aslett, Research Vice President bei Ventana Research. Gerade in der Cloud hätten sich die Datenseen zu einem wichtigen Bestandteil der Analytics-Architekturen vieler Anwenderunternehmen entwickelt. Als Cloud-Objektspeicher biete das Lake-Konzept eine relativ kostengünstige Möglichkeit, große Datenmengen aus verschiedenen Unternehmensanwendungen und Workloads zu aggregieren. Dies gelte gerade für semistrukturierte und unstrukturierte Daten, die sich nicht für die Ablage und Verarbeitung in einem klassischen Data Warehouse eigneten, erklärt Aslett.
Oracle hat seine für den Cloud-Betrieb optimierte Datenbank MySQL Heatwave Ende 2020 herausgebracht. Hier würden Transaktionsverarbeitung, Analytics und Machine Learning in einer MySQL-Datenbank zusammengeführt, um Analysen nahezu in Echtzeit zu ermöglichen, verspricht der Hersteller.
Nicht nur Oracle-Daten auswertbar
Mit dem Lakehouse erweitert Oracle nun seine Heatwave-Datenbankarchitektur. MySQL HeatWave Lakehouse sei auf Geschwindigkeit und Effizienz ausgelegt, heißt es in einer Mitteilung. Damit ließen sich Hunderte von Terabyte an Daten im Objektspeicher in einer Vielzahl von Dateiformaten, einschließlich CSV und Parquet, sowie in Backups in Amazons Aurora und Redshift verarbeiten. Das heißt, dass Unternehmen MySQL HeatWave auch dann nutzen könnten, wenn ihre Daten nicht in einer MySQL-Datenbank gespeichert sind. Die CW berichtete über die neue Offenheit von Oracle.
Durch die Möglichkeit, Analysen und maschinelles Lernen innerhalb der Datenbank auszuführen, werde MySQL HeatWave Lakehouse außerdem einfach zu bedienen sein und gleichzeitig einen Leistungsvorteil sowohl beim Laden von Daten als auch beim Ausführen von Abfragen bieten, stellt der Hersteller seinen Kunden in Aussicht. Edward Screven, Chief Corporate Architect bei Oracle, spricht von einem integrierten Dienst für die Transaktionsverarbeitung, Analytik in Data Warehouses und Data Lakes sowie maschinellem Lernen ohne ETL (Extract, Transform, Load). Daten in Dateien und Objekten ließen sich direkt abfragen und mit analytischen Abfragen verarbeiten. "Das bedeutet, dass MySQL-Anwender keine ETL-Phase durchlaufen müssen, um die Daten zu nutzen, die sie haben", so Screven.
Autopilot optimiert Datenhandling
Durch die Kombination der verschiedenen Datenquellen erhielten Manager bessere Einblicke in die Kennzahlen ihres Unternehmens, verspricht Oracle. Die Erkenntnisse aus einem Data Lakehouse seien wertvoller, wenn sie in Echtzeit vorlägen. Bislang seien MySQL-Technologien allerdings gezwungen gewesen, Live-Daten aus ihrer MySQL-Datenbank zu laden und sie dann zur Analyse in eine separate Datenbank zu verschieben. Diese zusätzlichen Schritte hätten zusätzliche Kosten, Komplexität und mehr Zeitaufwand verursacht. Im Gegensatz dazu würden mit MySQL HeatWave und dem Lakehouse Transaktionen direkt in die Analyse-Engine verschoben, sobald sie auftreten. Jede Änderung an den OLTP-Daten werde in Echtzeit aktualisiert und im Abfrageergebnis berücksichtigt.
Zusätzlich zum Lakehouse hat Oracle MySQL Autopilot vorgestellt. Dabei handelt es sich um ein Tool für das Automatisieren und Optimieren des Daten-Handlings innerhalb von Heatwave. Funktionen wie automatisches Schema-Mapping, adaptives Data Sampling, automatisches Laden und optimierte Datenflüsse verbesserten die Leistung und reduzierten den Verwaltungsaufwand. Darüber hinaus lerne das System mit Hilfe von Machine Learning laufend dazu, um die Automatisierung entsprechend den Workloads zu verbessern und angepasste Abfragepläne aufzustellen. "Das System nutzt maschinelles Lernen und fortschrittliche Optimierungstechniken, um Abfragen zu optimieren sowie Daten schneller und besser zu laden, zu platzieren und zu komprimieren", erklärt Screven.
Starke Konkurrenz im Lakehouse-Geschäft
Mit seinem Lakehouse-Konzept trifft Oracle allerdings auf eine breite Konkurrenz im Markt. Wettbewerber wie Snowflake, Databricks, Teradata, Dremio, Google, AWS und Microsoft Azure haben alle bereits eigene Data-Lakehouse-Architekturen eingeführt. Dazu kommen Open-Source-Formate wie Delta Lake, Apache Iceberg oder Apache Hudi, die sich möglicherweise als De-facto-Standards für Lakehouse-Konzepte etablieren können.
Oracle hofft, mit Leistung gegen die Konkurrenten punkten zu können. MySQL HeatWave Lakehouse liefere eine Abfragegeschwindigkeit, die bei einer Workload-Last von 400 Terabyte 17-mal schneller sei als die von Snowflake und sechsmal schneller als Redshift, behaupten die Oracle-Verantwortlichen. Das Laden von Daten in MySQL HeatWave Lakehouse funktioniere ebenfalls deutlich zügiger: achtmal schneller als Redshift und 2,7-mal schneller als Snowflake. Zudem sei die dafür verwendete Hardware auch noch kostengünstiger als die der Wettbewerber, wirbt der Anbieter.
Die dem Lakehouse zugrunde liegende Datenbank MySQL HeatWave stellt Oracle mittlerweile in verschiedenen Clouds zur Verfügung, neben der eigenen Oracle Cloud Infrastructure (OCI) auch in AWS und Microsoft Azure. Für Unternehmen, die es vorziehen, ihre Datenbank-Workloads nicht in die Public Cloud zu verlagern, lässt sich MySQL HeatWave auch im eigenen Rechenzentrum als Teil der OCI Dedicated Region betreiben. My SQL HeatWave Lakehouse befindet sich derzeit in der Betaphase und wird voraussichtlich 2023 allgemein verfügbar sein.