Die Data Warehouse Technik
DWHs werden heute fast ausschließlich auf relationalen Datenbanken betrieben und Daten werden mittels SQL gelesen und verarbeitet. Für die Data Marts sind zum Teil auch speziell abfrageoptimierte multidimensionale OLAP-Datenbanken (Online Analytical Processing) im Einsatz. Beide Technologien sind für viele typische Anwendungsfälle eines Data Warehouse bestens geeignet, beispielsweise für betriebswirtschaftliches Berichtswesen oder Controlling. Relationale Datenbanken bieten durch die Möglichkeit, jederzeit Daten miteinander zu verbinden (Join) die nötige Flexibilität für Ad-hoc-Abfragen - selbst bei völlig neuen Anforderungen.
Zudem ist die Abfragesprache SQL leicht zu erlernen und wird von jeder etablierten BI- und Reporting-Software direkt unterstützt. Relationale und Multidimensionale Datenbanken gewährleisten zudem Datenkonsistenz, Hochverfügbarkeit, flexible und wirksame Sicherheitsmechanismen und Verfahren zur Sicherstellung eines wirksamen Datenschutzes sowie eine gute Verarbeitungsgeschwindigkeit auch für größere, strukturierte Datenmengen. Kein Grund also, sich aus der Komfortzone heraus zu wagen? Ganz im Gegenteil!
"Neue" Anforderungen
Verringerte Kosten und damit verbunden der Wunsch nach mehr Effizienz sind immer ein wesentlicher Treiber für Veränderungen, nicht nur im Umfeld von Data Warehouses. Hier haben sich in den vergangenen Jahren zahlreiche Ansätze etabliert. Dazu gehören Softwarelösungen zur Aufnahme fachlicher Anforderungen und deren möglichst einfache Überführung in technische Strukturen. Zudem sind hier Konzepte und Tools zur Modellierung von Datenstrukturen und Prozessen sehr hilfreich, welche dann eine weitreichende Generierung (statt manueller Entwicklung) von ETL Strecken ermöglichen, zumal sie den Aufbau und die Pflege der Dokumentation erleichtern und gleichzeitig die Komplexität der Data-Warehouse-Prozesse reduzieren können.
Im Rahmen neuer fachlicher und technischer Problemstellungen stehen aber vor allem die großen Themen und Trends der vergangenen Jahre im Blickpunkt. Dabei geht es um Tagesaktualität, unflexible Berichte, begrenzte Datenpools, zu große Datenmengen und Datendurchsätze beziehungsweise nicht einheitlich strukturierte Daten. Das sind alles Erfordernisse, die von einem herkömmliche Data Warehouse nicht, oder nur mit erheblichen Mehraufwand zu stemmen sind. Hier ein Überblick gängiger Anforderungen:
DWH operativ einsetzen: Immer mehr Unternehmen sehen das DWH nicht nur als Daten-Endpunkt, sondern als Teil weiterer operativer Prozesse. So kann es das Meldewesen bei Banken unterstützen, online Informationen für Portale bereitstellen oder CRM-Kundendaten analysieren, segmentieren und wieder ins CRM zurückspielen. Letzteres bildet einen sogenannten "Closed-Loop". Solch ein operativer Betrieb erfordert aber einige Zusatzanstrengungen. Zum Beispiel erhöht sich die nötige Systemverfügbarkeit deutlich. War es in der Vergangenheit vielleicht noch akzeptabel, wenn das DWH zwei oder drei Tage abgeschaltet war, ist plötzlich eine 24/7 Verfügbarkeit unabdingbar und stellt die DWH Architektur sowie die damit verbundenen etablierten Bewirtschaftungs- und Administrationsprozesse in Frage: Es gibt keine "keimfreien" Zeitfenster mehr für die ETL-Prozesse und die zulässige Zeit für das Restore eines Backups schrumpft von Tagen auf Stunden.
Wie schon beschrieben, steckt ein weiteres Problem operativer DWHs in der Datenqualität. Wo kleinere Abweichungen früher noch akzeptabel waren, werden plötzlich absolut exakte Zahlen benötigt. Ist eine höhere Verfügbarkeit manchmal noch durch mehr Hardware, teurere Softwarelizenzen und generelle Anpassungen an den Datenintegrationsmechanismen umsetzbar, gibt es bei der Datenqualität häufig nur eine Lösung: Jeden einzelnen Verursacher aufspüren und ganz gezielt praktikable Lösungen zur Korrektur oder Vermeidung der Fehler bauen - ganz wie bei der Programmierung der Quellsysteme selbst.
Self-Service: "Wenn ich das bei der IT in Auftrag gebe, warte ich ein halbes Jahr auf eine Lösung - dabei will ich doch nur ein paar hundert Zeilen aus meinem Excel-Sheet in meinen Bericht einbinden." So ähnlich klingen viele Begründungen für erste "U-Boot Aktivitäten" und den Aufbau diverser "Schatten-Lösungen" rund um das DWH. Fachbereichsanwender exportieren ganze Teile aus dem DWH in eigene, lokale Datenbanken und nutzen gängige Tools - gerne Excel - um die Daten für ihre Analysen zusammenzuführen. Dabei werden massenhaft Mechanismen zur Qualitätssicherung ausgehebelt, die DWH-Entwickler und andere IT-Mitarbeiter über lange Zeit mühevoll aufgebaut haben. Diese sind oftmals auch ein beliebter Grund für gegenseitige Schuldzuweisungen, wenn dabei etwas schiefgeht.
Dabei muss man den Fachanwendern im Grunde Recht geben. Ihre Anforderungen sind die Richtschnur für die Anstrengungen der IT. Hier heißt es Umdenken: Die Anforderungen an das Berichtswesen steigen permanent. Controller, Marketingmitarbeiter oder Vertrieb brauchen mehr Flexibilität bei Ihrer Arbeit. Und mehr Unterstützung durch DWH-affine Kollegen.
Ein organisatorischer Ansatz zur Lösung des Problems ist das BI Competence Center (BICC), in dem nicht nur die Mechanismen für flexiblere Arbeit mit den Daten aus dem Data Warehouse definiert und umgesetzt werden, sondern auch die richtigen Ansprechpartner zwischen Fachbereich und IT angesiedelt sind.
Ein technischer Ansatz heißt "Federation". Hier wird dem Anwender erlaubt, mehrere Quellen in einer Abfrage gemeinsam zu nutzen, also Data Warehouse und Excel-Sheet, ERP, CRM oder was auch immer benötigt wird. Die Einbindung zusätzlicher Datenquellen wird zwar von einigen Business-Intelligence-Frontends gut unterstützt. Zum Teil bildet aber eine zentrale Konfiguration, die nur Administratoren zugänglich ist und keine individuellen Quellen erlaubt, die einzige Möglichkeiten zur Einbindung. An dieser Stelle braucht es deutlich mehr benutzerspezifische Möglichkeiten.
- 10. Neue Technologien
Es gibt eine Reihe neuer Technologien im Ökosystem der Business Intelligence. Mit ihrer Markteinführung werden auch Lücken sichtbar, die es noch zu füllen gilt. Neu gegründete Unternehmen werden genau das tun. Hadoop-Beschleuniger, NoSQL-Datenintegration, Integration von Daten des Internet der Dinge, verbesserte Social-Media - alles Ansatzpunkte für neue Start-Ups. In 2016 werden wir den Aufstieg dieser „Lückenfüller“ und damit einhergehend eine Konsolidierung des Marktes beobachten können. Unternehmen werden sich zunehmend vom Ansatz der Einzellösung verabschieden und auf einen offenes und flexibles Arsenal setzen, das neue Technologien beinhaltet. - 9. Daten aus dem Internet der Dinge
Das Internet der Dinge (IoT) schickt sich an, 2016 den Mainstream zu erobern. Es scheint so, als hätte bald alles einen Sensor, der nach Hause telefoniert. Man muss sich nur die Masse an Daten vorstellen, die von Mobilgeräten rund um die Uhr erzeugt werden. Mit dem Wachstum des IoT-Datenbestands steigt auch das Potenzial für neue Erkenntnisse. Firmen werden nach Mitteln und Wegen suchen, Anwender Daten erforschen und ihre Ergebnisse teilen zu lassen - und das auf sichere, geregelte und interaktive Art und Weise. - 8. Mobile Analytik-Lösungen werden eigenständig
Die Mobile Analytik ist erwachsen geworden. Sie ist nicht länger nur eine Schnittstelle der herkömmlichen Business-Intelligence-Produkte. In 2015 kamen Produkte auf den Markt, die eine fließende, auf Mobilgeräte optimierte Benutzererfahrung boten. Unterwegs mit Daten zu arbeiten wird von einer lästigen Pflicht zu einem dynamisch integrierten Teil des Analyseprozesses. - 7. Kompetenzzentren für Analytik spielen zentrale Rolle
Immer mehr Unternehmen werden Kompetenzzentren (CoE) einrichten, um die Verbreitung und Implementierung von Self-Service-Analytik zu fördern. Diese Zentren spielen eine kritische Rolle bei der Umsetzung einer datengesteuerten Unternehmenskultur. Durch Online-Foren und Einzeltraining versetzen sie auch Nicht-Experten in die Lage, Daten in ihre Entscheidungsprozesse einzubinden. Mit der Zeit führt dies dazu, dass sich die Arbeitsabläufe im gesamten Unternehmen auf Daten stützen und an ihnen orientieren. - 6. Cloud-Daten und -Analytics starten durch
2015 war das Jahr, in dem die Cloud salonfähig wurde. Die Unternehmen merkten, dass die Speicherung von Daten in der Cloud einfach und sehr gut skalierbar ist; und dass man mit Cloud-Analytik sehr agil ist. Nicht zuletzt dank neuer Tools, die es einfacher machen Daten aus dem Web zu verwenden, werden 2016 noch mehr Unternehmen in die Cloud wandern. Die Early Adopter lernen jetzt schon von diesen Daten, und alle anderen stellen fest, dass sie besser nachziehen sollten. Mehr Unternehmen werden dank der Cloud größere Datenmengen schneller analysieren - die Cloud etabliert sich als unternehmenskritisches System. - 5. Advanced Analytics nicht mehr nur für Analysten
Auch die Nicht-Analysten werden immer anspruchsvoller. Sie erwarten mehr als nur ein Diagramm, das auf ihren Daten aufsetzt, sondern tiefer gehende und sinnvolle analytische Möglichkeiten. Unternehmen werden Plattformen implementieren, mit denen Anwender statistische Methoden anwenden, eine Reihe von Fragen stellen und im Fluss ihrer Analyse bleiben können. - 4. Datenintegration wird agiler
Viele Firmen verlangen heutzutage sehr viel Agilität im Controlling. Sie wollen den richtigen Mitarbeitern die richtigen Daten zur richtigen Zeit liefern. Das ist keine Kleinigkeit, da Daten an vielen verschiedenen Orten generiert und gespeichert werden. Datenquellenübergreifend zu arbeiten kann mühsam, unmöglich, oder beides zugleich sein. 2016 werden wir viele neue Wettbewerber mit Lösungen zur Datenintegration sehen. Dank ausgeklügelter Werkzeuge und ständig neu hinzukommenden Datenquellen werden Firmen sich davon verabschieden, alle Daten an ein und demselben Ort speichern zu wollen. Wer Daten erforschen will, wird dort auf die einzelnen Datensätze zugreifen, wo sie sich befinden und sie mit agileren Werkzeugen und Methoden kombinieren, verschmelzen oder verknüpfen. - 3. Demokratisierung der Daten-Wertschöpfungskette
Self-Service Analytikwerkzeuge haben unsere Erwartungshaltung für immer verändert. In 2016 werden Nutzer eine Wertschöpfung aus dem gesamten Lebenszyklus von Daten anstreben, insbesondere durch den Eintritt der Milleniums-Generation in den Arbeitsmarkt. Für sich wiederholende Aufgabenstellungen müssen Geschäftsanwender bestimmte Daten spontan umformen können. Dementsprechend wird als natürliche Folge von Self-Service-Analytik die Nachfrage nach Self-Service-Tools zur Datenaufbereitung und Self-Service Data-Warehousing steigen. Diese Demokratisierung wird es uns ermöglichen, schnell auf Prioritätenwechsel zu reagieren. - 2. Visuelle Statistik wird zur Weltsprache
Daten verändern den Diskurs in Chefetagen, den Medien und in sozialen Netzwerken. Menschen visualisieren ihre Daten, um Antworten auf Fragen zu suchen, Erkenntnisse zu gewinnen und ihre Geschichten mit anderen zu teilen, egal ob diese Datenexperten sind oder nicht. Mit dem Anstieg der Nutzung von Daten wird auch die Zahl der Anwender steigen, die geschäftliche oder persönliche Fragestellungen mithilfe von Daten beantworten. Arbeitgeber werden verstärkt nach Kandidaten suchen, die in der Lage sind, sich kritisch mit Daten auseinanderzusetzen. Die visuelle Analytik wird dabei als die gemeinsame Sprache dienen, mit der Menschen schnell zu Erkenntnissen gelangen, sinnvoll zusammenzuarbeiten und eine Community auf der Grundlage von Daten aufbauen können. - 1. Governance & Self-Service-BI werden beste Freunde
Viele sehen Governance und Self-Service als natürliche Feinde an. Deshalb dürften auch Viele überrascht sein, die beiden friedlich nebeneinander grasen zu sehen. Es wächst zusammen, was zusammen gehört: die kulturelle Kluft zwischen Business und IT schließt sich. Die Unternehmen haben verstanden, dass richtig auf- und eingesetzte Sicherheit eine analytische Unternehmenskultur fördern und die Anforderungen der Business-Abteilungen erfüllen kann. Man setzt sich schließlich viel eher intensiv mit seinen Daten auseinander, wenn man zentrale, bereinigte Datenquellen zur Verfügung hat und weiß, dass sich jemand (IT) um Sicherheit und Performance kümmert.
Das größte Problem bei solchen verteilten Daten ist die Performance. Es ist schon schwierig genug, auf einer einzigen, homogenen Datenbank mit abfrageoptimierten Datenstrukturen eine gute Antwortzeit hinzubekommen. Der Zusammenschluss mehrerer unterschiedlicher Datenbanken über ein herkömmliches Netzwerk stellt eine noch wesentlich größere Herausforderung dar, speziell wenn mehrere sehr große Datenbestände über dieses Netzwerk verbunden (gejoined) werden müssen. Darum kann dieser Ansatz keine generelle Lösung sein, sondern sollte nur für besondere Anwendungsfälle eingesetzt werden. Solche Szenarien werden durch spezielle Federation-Software wie zum Beispiel Cisco Composite, Denodo, RedHat JBoss Teiid oder Datavirtuality unterstützt. Hier ist der Zusammenschluss sehr unterschiedlicher Datenquellen auf zentraler Ebene möglich. Diese Werkzeuge bieten zudem Abfrageoptimierung, Datenverteilungsanalysen beziehungsweise Caching-Mechanismen und somit bessere Chancen auf akzeptable Performance. Leider kann der "normale" Anwender auch hier meist nicht einfach "private" Datenquellen nach Bedarf hinzufügen. Immerhin sind aber weitere Datenquellen durch Administratoren in aller Regel innerhalb von Minuten oder Stunden integrierbar.
Ein weiterer Ansatz für Self-Service BI sind die sogenannten "Sandboxes": Lokale, benutzerspezifische Bereiche, oft innerhalb der zentralen Data Warehouse Plattform, auf denen benutzereigene Daten abgelegt werden können. Dieser Ansatz verringert das Risiko schlechter Antwortzeiten für Abfragen, lässt aber die Frage offen, wie individuelle Daten in die Sandbox kommen. Dafür braucht es wiederum spezielle Software für einfache Datenintegration. Open Source Anbieter solcher Tools - wie Pentaho oder Talend - sind in den Community-Editionen zwar kostenfrei und auch relativ einfach zu bedienen. Richtig endbenutzertauglich sind sie darum aber noch lange nicht. Oft kommen daher in der Praxis selbstentwickelte Dienste wie browser-basierte, automatisierte Textdatei-Uploads zum Einsatz.
Große Datenmengen: Bei besonders umfangreichen Datenmengen beispielsweise aus dem Internet-of-Things (IoT), aus Produktionsanlagen oder im Telekommunikationsumfeld denkt man gleich an Big-Data-Technologien wie Hadoop. Dabei sind viele analytische Anforderungen auch bei außerordentlich großen Datenmengen im dreistelligen Terabyte- oder sogar Petabyte-Bereich mit großen relationalen Datenbankclustern von Oracle, Teradata, Microsoft, IBM und anderen einfach und effektiv umsetzbar. Beim Einsatz hunderter CPU-Cores und mehrerer Terabyte RAM lassen sich auch mit herkömmlichen Techniken riesige Datenmengen effektiv bewegen, speichern und auswerten - mit durchaus passabler Performance. Allerdings fallen dabei oft enorme Kosten für Softwarelizenzen und Hardware an.
Besonders der Umgang mit uneinheitlich strukturierten Daten wie Dokumenten, Multimedia-Dateien und Ähnlichen ist zudem nicht gerade die Stärke relationaler oder multidimensionaler Datenbanken. Bei Anforderungen außerhalb relationaler Strukturen - und da genügt es oft schon, jederzeit beliebige neue Attribute zu bestehenden Daten hinzufügen zu können - sind andere Lösungen wie Hadoop oder Wide-Column NoSQL Datenbanken zum Speichern deutlich besser geeignet. Das gilt insbesondere bei Anforderungen, bei denen die Strukturen jederzeit flexibel sind und erst bei der Analyse klar definiert werden müssen (Schema-On-Read) und nicht schon zur Zeit der Modellierung feststehen (Schema-On-Write).
Die Hersteller von DWH-Lösungen haben solche Anforderungen in den zurückliegenden Jahren verinnerlicht und bieten mittlerweile Systeme mit RDBMS, Hadoop/NoSQL und entsprechender Software zur Konnektivität zwischen beiden Welten an. Diese Lösungen sind heute allerdings noch recht limitiert und beschränken sich meist auf Werkzeuge für den Datenaustausch und übergreifende SQL-Abfragen. An der nahtlosen, plattformübergreifenden Verwaltung von Metadaten und anforderungsoptimiertem automatischem Komprimieren und Verschieben von Daten zwischen den Technologien (Data Lifecycle Management) wird gegenwärtig intensiv geforscht und entwickelt.
Ein ganz anderer Trend zum Umgang mit großen Datenmengen ist die Modellierung von Core-DWHs nach dem Data-Vault-Model. Dieses erlaubt eine größere Flexibilität bei den Datenstrukturen, eine sehr leicht verallgemeinerbare Vorgehensweise und wesentlich schnellere Befüllung des Cores, hat aber auf der anderen Seite eine beachtliche Inflation an Tabellen zur Folge und macht die Befüllung der Data Marts aus dem DWH-Core nicht unbedingt schneller oder einfacher.
Big Data & DWH
Egal ob es um hohe Kosten, umfangreiche Datenmengen, einen extremen Datendurchsatz oder Echtzeit-Anforderungen geht: Früher oder später kommen Big Data Technologien wie die Hadoop Plattform, Streaming Lösungen beziehungsweise NoSQL-Datenbanken ins Spiel. Und spätestens dann stellt sich die Frage nach zusätzlichem Know-how bei den DWH-Entwicklern. Die Implementierung von MapReduce- oder Spark-Jobs - sei es mittels Java, Scala oder entsprechender Scripting Engines - passt dabei oft nicht zur Expertise langjähriger Datenintegrationsspezialisten.
- Big Data Vendor Benchmark 2016
Die Analysten der Experton Group haben 100 Big-Data-Anbieter in verschiedenen Kategorien nach Portfolio-Attraktivität und Wettbewerbsstärke eingeordnet. - Digitale Transformation und Big Data
Die digitale Transformation ist datengetrieben. Doch die daraus resultierenden Big-Data-Szenarien sind meist komplex. - Einführung von Big Data
Ziel von Big-Data-Projekten sollte sein, einen zusätzlichen Mehrwert durch die Analyse und Nutzung von Daten zu erzielen. - Der Big-Data-Markt in Deutschland
Das hiesige Geschäft mit Big-Data-Lösungen soll von knapp 1,4 Milliarden Euro in diesem Jahr bis 2020 auf rund 3,75 Milliarden Euro anwachsen. - Deutscher Big-Data-Markt nach Branchen
Der Löwenanteil der Big-Data-Investitionen im kommenden Jahr geht auf das Konto von Dienstleistern. - Big Data Consulting
Die beste Beratung rund um Big Data liefern aus Sicht der Experton Group T-Systems, Atos und IBM. - Big Data - Datenbanken und Datenmanagement-Lösungen
Rund die Datenhaltung haben die alteingesessenen Anbieter die Nase vorn. IBM, Oracle, SAP und Microsoft haben im Ranking die Nase vorn. - Big Data braucht Beratung
Rund um Big-Data-Projekte ist viel Beratung gefragt. Die Kunden wollen gemeinsam mit den Anbietern Strategien und Lösungen entwickeln. - Zukunft von Big Data
Themen wie Industrie 4.0 und das Internet of Things werden Big Data weiter befeuern.
Unter anderem darum bauen Anbieter von Datenintegrationssoftware wie Informatica oder Oracle immer mehr Big-Data-Funktionalität in ihre Lösungen ein. Solche Werkzeuge können durch grafisch definierte Extraktions-, Lade- und Transformationsprozesse - wenn auch noch mit funktionalen Abstrichen im Hadoop-Bereich - wahlweise SQL-Befehle auf Datenbanktabellen oder Pig- und Spark-Scripts auf HDFS basierten Dateien ausführen und dabei auch NoSQL-Datenquellen und Change-Data-Capture-Prozesse integrieren. Letztere streamen die Änderungen aus ERP und CRM dann direkt beispielsweise ins Hadoop Filesytem HDFS oder Apache Flume. Die Datenintegration kann heute also sowohl auf traditionelle DWHs als auch auf Big-Data-Plattformen verteilt werden. Schon aus Gründen der Kosten und Skalierbarkeit sollten Unternehmen diese Optionen in ihre Überlegungen mit einbeziehen.