Die Datenflut eindämmen

Fitnesskur durch cleveres Datenmanagement

07.07.2015
Von 


Gregor Stöckler ist geschäftsführender Gesellschafter von DataVard. Davor war er 15 Jahre lang in Führungs- und Linienfunktionen bei der SAP beschäftigt. Er ist Mitglied der Schmalenbachgesellschaft und Referent auf Fach- und Führungstagungen zu Business Intelligence und Datenmanagement.
Die Datenflut in Data-Warehouse-Systemen nimmt stetig zu. Eine umfassende Datenmanagement-Strategie bremst dieses Wachstum und hält das ERP-System fit.

Mit der Entwicklung immer neuer Möglichkeiten zur Evaluierung und Optimierung von Geschäftsprozessen wächst die Menge an wertvollen und auch überflüssigen Daten kontinuierlich an. Eine Analyse in über 250 Kundensystemen zeigt, dass produktiv genutzte und berichtsfertige Daten in InfoCubes nur rund sieben bis elf Prozent der Systemgröße ausmachen (siehe Abbildung 1). Der Rest sind Stammdaten (vier bis zehn Prozent), temporäre Daten (20 bis 31 Prozent), Daten in DSOs (30 bis 48 Prozent) und Daten in Cubes, die älter als zwei Jahre sind (drei bis sieben Prozent). Plakativ bezeichnet also Datenmüll, beziehungsweise die Abfallprodukte der Erzeugung wertvoller Informationen, die entweder auf Systemebene oder in den Akquisitions- und Transformationsschichten anfallen.

Abb. 1: Produktiv genutzte Daten machen in InfoCubes nur sieben bis elf Prozent der Systemgröße aus.
Abb. 1: Produktiv genutzte Daten machen in InfoCubes nur sieben bis elf Prozent der Systemgröße aus.
Foto: Datavard

In der Verwertung dieses Abfallhaufens liegt erhebliches Potenzial. Um dieses zu realisieren, bedarf es einer Strategie, die sowohl effektiv als auch zielgerichtet ist. Sie muss aufräumen, die Daten richtig klassifizieren, den Wert der Daten richtig erkennen und in Einklang mit den verursachten direkten und indirekten Kosten bringen. Dadurch lassen sich eine Reihe wichtiger Effekte erzielen:

  1. Direkte und indirekte Kostenersparnis durch Reduktion der Systemgröße und Verlangsamung des Datenwachstums

  2. Erhöhte Performance

  3. Vereinfachung der Systemadministration und Beschleunigung aufwändiger Arbeiten wie Recovery, Systemkopien und Upgrades

  4. Direkte und indirekte Kostenersparnis beim Betrieb von Business Warehouse Accelerator oder Hana

Letzteres ist derzeit ein Renaissance-Thema, da die hohen Kosten der Infrastruktur die Notwendigkeit einer effektiven Verwaltung deutlich machen.

Auswirkungen von Datenwachstum

Die oben genannte Analyse BW Fitness Test misst in über 250 Kundensystemen ein durchschnittliches Wachstum von 32,8 Prozent. Es sind vielfältige Gründe, die Data-Warehouse-Systeme immer größer werden lassen.

Einerseits steigt das zugrunde liegende operative Datenvolumen aufgrund einer starken Zunahme der Geschäftstransaktionen und neuer nationaler und internationaler Standorte. Neben höheren Anforderungen der Benutzer nach mehr Daten mit zunehmend detaillierterer Granularität steigt auch der Nutzungsumfang durch neue Anwendungsfälle und Applikationen. Und auch die Sicherstellung der Hochverfügbarkeit der Daten verschlingt viel Speicherkapazität. So benötigen ein Terabyte strukturierte Daten zehn bis zwanzigmal so viel Speicherplatz, bedingt durch Spiegelung, Hochverfügbarkeit, Test- und Qualitätssicherungssysteme und Backups.

Andererseits spielen auch rechtliche Gründe und Regularien eine signifikante Rolle. Vor diesem Hintergrund wächst die Notwendigkeit eines cleveren Datenmanagements, das granulare Daten für eine lange Historie speichert, auf deren Basis schnell neue Applikationen zur Berücksichtigung neuer Geschäftsanforderungen bereitgestellt werden können. "Das beschleunigte Datenwachstum ist eine Herausforderung für die Verwaltung des Systems, die verfügbaren Zeitfenster für Ladeprozesse und die performanten Auswertungen. Datenwachstum ist darüber hinaus der Hauptgrund für Leistungsverlust und steigende Betriebskosten", beschreibt Michael Hahne, Geschäftsführender Gesellschafter von Hahne Consulting die Problematik.

Cleveres Datenmanagement optimiert Kosten und Performance

Mit zunehmendem Datenvolumen nimmt der Anteil der aktiv genutzten Daten rapide ab. Gerade ältere historische (kalte) Daten werden oftmals nur noch für eventuelle Prüfungen vorgehalten. Kalte Daten werden jedoch weiterhin in gleicher Weise wie die aktiv genutzten (warmen und heißen) Daten verwaltet. Das heißt, dass ein Terabyte aktiv genutzter Daten die gleichen Kosten wie ein Terabyte unregelmäßig genutzter oder sogar ungenutzter temporärer Daten verursacht. Es versteht sich, dass dies aus Kosten- und Performance-Gründen wenig sinnvoll ist. Auch die Einhaltung von Service Level Agreements wird zunehmend schwieriger und teurer. Gefragt ist daher eine sinnvolle Speicherung beziehungsweise Archivierung der Daten gemäß ihrer Nutzung und Aussagekraft.

Speicherstrategie auf Datentyp abstimmen

Für ein Data Warehouse gibt es im Hinblick auf das physische Speichermanagement mehrere Möglichkeiten. Neben der normalen Speicherung (online) können die Daten klassisch in einem festen Speichermedium archiviert werden (offline).

Es gibt aber auch noch eine Zwischenform, die Nearline-Speicherung (NLS) (siehe Abbildung 2). Sie zeichnet sich durch zwei wesentliche Eigenschaften aus: Zum einen können die Daten mithilfe effizienter Komprimierungstechniken und dedizierter Systemlösungen vorgehalten werden. Zum anderen, und das ist für Analyse und Reporting von Bedeutung, haben die Benutzer durch die Integration der NLS-Schnittstelle in die OLAP-Engine weiterhin darauf Zugriff.

Abb 2: SAP BW Architektur mit Near-Line Storage
Abb 2: SAP BW Architektur mit Near-Line Storage
Foto: Datavard

Die Daten können daher in einem ihrem Alter und ihrer Stellung im Informationslebenszyklus entsprechenden optimalen Speichermedium abgelegt werden und damit die unterschiedlichen Anforderungen an deren Service Level Agreements (SLAs) adressieren. Der Einsatz von NLS empfiehlt sich vor allem für Daten aus InfoCubes und DSOs. Gerade für die Verwaltung großer Datenmengen mit den dabei auftretenden besonderen Anforderungen an Performance und Skalierbarkeit gibt es Konzepte, die für die unterschiedlichen Speicherstrategien Verbesserungspotenziale versprechen.

Die komprimierte Ablage der NLS-Daten erfolgt in spezifischen komprimierten Speicherbereichen der BW-Datenbank. Im Zuge der Big-Data-Diskussion sind darüber hinaus Technologien wie SAP IQ und Hadoop zukunftsträchtig, da sie große Datenvolumina effizient managen und diese mit sehr guter Performance bereitstellen können. Die klassische Datenarchivierung hingegen bietet eine kostengünstige Lösung für sehr alte Daten, Daten aus der Akquisitionsschicht und einige temporäre Daten. Durch das hohe Kosten-Nutzen-Verhältnis bietet es sich an, temporäre Daten nur kurz aufzubewahren und regelmäßig zu löschen.

Fazit

Die aktuellen Herausforderungen rasant wachsender Datenmengen, langsamerer Zugriffszeiten und unnötig hohen administrativen Aufwands in Data-Warehouse-Umgebungen lassen sich schnell und mit wenig Aufwand lösen. Mit einem nachhaltigen Konzept für ein Business Warehouse-Datenmanagement können Unternehmen die Informationsverwaltung ihrer Systeme deutlich verbessern und versteckte Potenziale realisieren. Ausgangspunkt ist die Analyse des Lebenszyklus von Informationen. Darauf aufbauend können Speicheroptimierungsmöglichkeiten wie Nearline-Storage (NLS) das Datenvolumen deutlich verringern und gleichzeitig den Zugriff auf archivierte Daten erleichtern. (bw)