DWH-Trends und -Konzepte
Während sich In-Memory Lösungen wie von selbst etablieren, bildet die Integration von DWHs mit Big-Data-Plattformen und (noch) nicht im DWH integrierten Daten (interne und externe) den Dreh- und Angelpunkt einer Modernisierung. Die meist SQL basierten Konnektoren zu und von Hadoop und NoSQL-DBs, Federation Software und Datenintegrationswerkzeuge, die neben RDBMS auch mit Hadoop, NoSQL und Web-basierten Quellen gut zusammenarbeiten, stellen das Fundament dieser Aktivitäten dar. Was noch weitgehend fehlt, sind wirklich zuverlässige Entscheidungskriterien für oder gegen den Einsatz der jeweiligen Technologie in einem bestimmten Anwendungsfall, auch wenn es hier von diversen Anbietern schon grobe Handlungsempfehlungen gibt.
Aus konzeptueller Sicht haben sich all diese Trends schon lange angekündigt. Der "Vater des Data Warehouses", Bill (William H.) Inmon beschrieb schon vor 10 Jahren in seinem Data Warehouse "DW 2.0" Ansatz sowohl das Data Lifecycle Management, die Behandlung nicht relationaler Daten, die Notwendigkeit von Enterprise Metadaten und die Serviceorientierung operativer DWHs.
Das Logical Data Warehouse (LDW) wiederum ist ein Architekturansatz von Mark Beyer (Gartner). 2009 ersonnen existiert es nun schon bald sieben Jahre - und wird doch erst jetzt so langsam bekannt. Das LDW sieht klassische Data Warehouses lediglich als eine von drei (oder wahlweise vier) seiner Säulen. Hier lagern 80 Prozent der allgemein anerkannten Informationen (Anteil der Berichtsanforderungen, nicht der nicht Datenmenge!) des Unternehmens und sollen es auch weiterhin tun.
Die restlichen 20 Prozent verteilen sich einerseits auf die bereits erwähnten Federation Ansätze, welche unter anderem den Self-Service-Ansatz unterstützen als auch Echtzeitaspekte und Pilotprojekte für Berichte und Analysen abdecken. Andererseits werden als dritte Säule richtige "Big Data Projekte" angesiedelt, die ganz gezielt die neuen Technologien nutzen. Sei es, um extrem flexibel zu bleiben, riesige Datenmengen oder Echtzeit-Streams zu bewältigen oder besonders umfangreiche Advanced Analytics (Data-Mining, Natural Language Processing, Machine Learning usw.) durchzuführen.
Das vierte Standbein ist die Spielwiese des Data Scientisten, der aus allen Quellen und Bestandteilen des LDW schöpft und Forschung auf diesen Daten betreibt. Dessen Prototypen bilden später die Basis für neue Projekte in den anderen drei Säulen. Darüber ruht das Dach des gesamten Data Management Systems mit allen Metadaten, SLAs und Lösungen zur Qualitätssicherung, Masterdaten und vieles mehr. Ein Ansatz, den sich inzwischen auch viele Softwareanbieter zu Eigen gemacht haben.
Fazit
Mit den beschriebenen Mitteln eine funktionierende Gesamtlösung zu konstruieren, ist heute eine zentrale Aufgabe - für die noch kein einheitliches technisches Design, geschweige denn eine fertige Lösung existiert. Es stellt sich daher die Frage, welche dieser neuen Ansätze wie umgesetzt werden sollte. Aus pragmatischer Sicht sind diese Konzepte Leitplanken für die strategische Ausrichtung einer zukünftigen DWH Lösung. Schließt man aus der Tatsache, dass DWHs nach den Konzepten von vor 15 bis 20 Jahren heute gut etabliert sind, auf die Zukunft, sind in fünf bis zehn Jahren DW 2.0 und LDW Patterns als allgemeine Standards zu erwarten. Daher ist jetzt ein guter Zeitpunkt, die Strategie für die nächste geplante Modernisierung eines Data Warehouse neu auszurichten. Es hat sich jedoch in der Praxis als hilfreich erwiesen, dabei "sanft" vorzugehen und die neuen Konzepte in Form einzelner Projekte - also schrittweise - zu evaluieren und auf den individuellen Bedarf zuzuschneiden.