Big-Data-Lösung

SAP HANA und Hadoop - ein starkes Team

21.04.2016
Von  und Markus Severin


Gregor Stöckler ist geschäftsführender Gesellschafter von DataVard. Davor war er 15 Jahre lang in Führungs- und Linienfunktionen bei der SAP beschäftigt. Er ist Mitglied der Schmalenbachgesellschaft und Referent auf Fach- und Führungstagungen zu Business Intelligence und Datenmanagement.
Hadoop ist das Hype-Thema der Big-Data-Welt. Mit Hilfe des Open-Source-Frameworks lassen sich beliebig große Datenmengen unterschiedlichster Struktur schnell und kostengünstig verwalten, nutzen und auswerten. Doch Hadoop alleine reicht in der Regel für die Anforderungen von Big Data Analytics nicht aus. Für die Auswertung braucht es eine analytische Datenbank, die moderne Analyseverfahren einsetzt.

Empfehlenswert und ökonomisch sinnvoll ist es, kaufmännische und Massen-Datenverarbeitung zu trennen und dadurch den Spezialisten in jeder Disziplin zu vertrauen. Für viele Unternehmen kann ein idealer Mix aus der High-Performance-Datenbank SAP HANA und solider Hadoop-Plattform völlig neue Wege im Bereich der Realtime Analytics eröffnen und gleichzeitig enorme Kosten einsparen. Die Ankündigung des Produktes "SAP HANA Vora" untermauert diese ideale Konstellation. Dieses Werkzeug sorgt für eine noch tiefere Integration zwischen der In-Memory Datenplattform SAP HANA und der Big-Data-Komponente Hadoop.

Hadooponomics
Hadooponomics
Foto: Ton Snoei - shutterstock.com

Der Clou: Verteilte Verarbeitung der Daten

Ein wesentlicher Vorzug gegenüber anderen Systemen ist, dass Hadoop nicht auf teure proprietäre Hardware für die Speicherung und Verarbeitung der Daten baut. Der Vorteil des verteilten Filesystems erstreckt sich auch auf die verteilte Verarbeitung der Daten und kann nahezu endlos über günstige Standardserver skalieren: eine ideale Voraussetzung für die Vorbereitung auf die stetig wachsende Datenflut.

"Hadooponomics": Zahlen sprechen für sich

Hadoop ist nicht nur eine Option, sondern essenziell für Big-Data-Szenarien, so das Marktforschungsunternehmen Forrester Research. Um den finanziellen Nutzen der Open-Source-Software zu unterstreichen, kreierten Forrester-Analysten das Wort "Hadooponomics". Die Zahlen sprechen in der Tat für sich. Nach Angaben von Forrester belaufen sich die Kosten für die großen Hadoop-Distributionen auf 2000 bis 3000 Dollar pro Knoten und Jahr. Ein HANA-Knoten kostet dagegen rund 750.000 Dollar pro Jahr.

Ein namhaftes Unternehmen in Großbritannien stellte die konventionelle Datenspeicherung den geschätzten Kosten für den Einsatz von Hadoop gegenüber. Ein Terabyte in einer Oracle-Datenbank verursache demzufolge Kosten in Höhe von 35.000 Britischen Pfund pro Jahr. Für die Speicherung derselben Datenmenge in Hadoop errechnete das Unternehmen dagegen Kosten von 1120 Britischen Pfund pro Jahr. Angesichts dieser immensen Kostendifferenz ist es ökonomisch sinnvoll, nur die wertvollsten und am häufigsten genutzten Daten in SAP HANA zu verarbeiten und die übrigen Daten in Hadoop vorzuhalten.

Daten-Offload senkt HANA-Kosten

Mithilfe des Daten-Offloads bleiben SAP HANA-Kosten trotz steigender Datenmenge konstant, während der Zugriff auf die ausgelagerten Daten weiterhin erfolgt, ohne diese allerdings zurückladen zu müssen. Die administrativen Kosten für einfache Aufbewahrung und Verarbeitung von Inhalten sind bei Hadoop ebenfalls sehr gering. Zudem ermöglicht Hadoop, kosteneffektiv analytische Verfahren auf Daten anzuwenden.

Mittels Smart Data Access (SDA) ist der Zugriff auf derart ausgelagerte Daten weiterhin aus SAP HANA heraus möglich. Dieser Aspekt wird in Zukunft auch noch deutlich komfortabler unterstützt. Während in SPS10 von SAP HANA erste Versionen des "Hadoop Relocation Agent" im "SAP HANA Data Lifecycle Manager Tool" (DLM) integriert sind, kann man davon ausgehen, dass die Zeiten der Programmierung von manuell zu erstellenden und einzuplanenden Prozeduren zur Datenverlagerung nach Hadoop bald der Vergangenheit angehören. Das gerade angekündigte Produkt "SAP HANA Vora" unterstützt dabei im Bereich Analytics Performance, indem es eine hauptspeicherbasierte Queryausführung innerhalb des Apache Spark Framework ermöglicht und neue Funktionen integriert.

Alle Informationen mit Corporate-Daten verknüpfbar

Die gewaltigen Datenmengen, die durch aktuelle Themen wie dem "Internet of Things" (IoT) oder Industrie 4.0, aber auch durch klassische Big Data Themen (Web, Social Media, Mobile Apps) entstehen, lassen sich mithilfe von Hadoop nicht nur zu 100 Prozent auffinden und indexieren, sondern sie sind durch die Verknüpfungsmechanismen der SAP-HANA-Technologie über Smart Data Access (SDA) mit den Corporate-Daten verknüpfbar - beispielsweise Daten aus Sensoren, Netzwerken, Maschinendaten sowie unstrukturierte Informationen aus Texten, Social-Media-Daten, Mailboxen und SharePoints oder auch Video-/ Audio-Informationen. Darüber hinaus kann mittels geeigneter Zugriffsmechanismen auch den Compliance-Anforderungen Sorge getragen werden.

Sicherung bisher getätigter Investitionen

Unternehmen, die bereits in Hadoop-Umgebungen arbeiten, dort Erfahrungen mit den unterschiedlichsten Datenformaten sowie mit MapReduce gesammelt und schon Data Lakes aufgebaut haben, können diese Hadoop-Umgebungen direkt mit SAP HANA verbinden und darüber auch die Anzahl der umsetzbaren Use Cases wesentlich erhöhen. Bisher getätigte Investitionen werden somit weiter genutzt. SAP HANA ermöglicht es, nicht nur Hadoop, sondern alle gängigen Datenbankformate für Data Warehouses mittels Smart Data Access anzubinden und somit dem "logischen Data Warehouse" oder "verteilten Data Warehouse" einen Schritt näher zu kommen und eine hybride Architektur zu erhalten.

Datenvirtualisierung: Erst integrieren, dann modernisieren

Existierende Data Warehouses und Hadoop-Umgebungen lassen sich virtuell in SAP HANA verknüpfen und ermöglichen dadurch den Aufbau einer einheitlichen Zugriffschicht für Applikationen. Egal, welche Technologien über Smart Data Access mit SAP HANA verknüpft werden, aus Sicht von SAP HANA werden alle beteiligten Tabellen als eigene virtuelle Tabellen angesehen und können mit Standard SQL angesprochen und verbunden werden. Smart Data Access bietet somit eine Datenvirtualisierung.

Es empfiehlt sich, Schritt für Schritt und Applikationsbereich für Applikationsbereich zu überlegen, ob eine Modernisierung und eine mögliche direkte Verlagerung in SAP HANA sinnvoll sein können. Wichtig ist auch abzuwägen, ob die gewonnene Performance einen entscheidenden Vorteil darstellt, oder ob sich dadurch neue Geschäftsmöglichkeiten umsetzen lassen. Vorteil eines auf SAP HANA basierende verteilten Data Warehouse: die Daten sind virtuell in SAP HANA integriert und die Applikationen greifen bereits darauf zu.

Die virtuelle Tabelle, die mittels Smart Data Access auf die darunterliegende Technologie zugreift, muss nun lediglich in eine physikalische Tabelle in SAP HANA umgewandelt werden. Der Applikationszugriff bleibt dabei gleich. Dadurch ergibt sich die Möglichkeit, wichtige Applikationen nach und nach zu modernisieren und sich langfristig durch Abschaltung von nicht mehr benötigten Applikationsteilen zu trennen.

Echtzeit-Auswertung ermöglicht neue Anwendungsfelder

Eine Big-Data-Plattform mit einer hohen Verarbeitungsgeschwindigkeit für verteiltes Ausführen analytischer Algorithmen über große Datenmengen aller Strukturen ermöglicht es, analytische Applikationen in einem datenintegrierten Umfeld zu erstellen und noch wertvoller zu gestalten. Anspruchsvolle "menschliche Information", beispielsweise Video, Audio, kontextbezogene Bedeutungen oder Mehrsprachigkeit machen eine weitere Ergänzung dieses Frameworks sinnvoll, beispielsweise durch HP Autonomy. Verfügbare Konnektoren und Projektbeschleuniger helfen dabei, unterschiedlichste Datenausprägungen von intern und extern möglichst schnell aufzunehmen, zu integrieren und zu verarbeiten und für eine schnellere Umsetzung von Social Media Analytics oder die Analyse anderer unstrukturierter Daten zu sorgen. Gerade im Bereich Analytics ist Geschwindigkeit ein Differenzierungsfaktor. Die Verknüpfung von SAP HANA mit dem In-Memory basierten Framework Apache Spark ist daher umso wichtiger.

Ausprobieren erwünscht

Die Anwendungsfelder für Analytics sind zahlreich und hoch innovativ. Vieles muss jedoch zunächst erprobt werden, bevor es sich in der Praxis umsetzen lässt, wie ein Beispiel aus dem Bereich Maschinendaten zeigt. Ein Maschinen- oder Gerätehersteller muss eine Menge Sensoren verbauen, um eine bestmögliche Benutzung unterstützen zu können. Da diese Geräte beim Endkunden eingesetzt werden, müssen die Daten häufig mittels eingebauter SIM-Karten über Mobilfunk an den Hersteller übertragen werden. Dadurch entstehen Kosten für die Datenübertragung und es gilt, die zu übermittelnde Datenmenge zu optimieren.

Doch was sind die wichtigsten Daten, die übermittelt werden müssen, um neue Möglichkeiten im Bereich Preventive Maintenance zu kreieren? HP hat gemeinsam mit dem Hersteller die Daten zunächst in einem Offline Szenario mit einem Datenumfang von mehreren Monaten getestet. Data Scientists aus dem Bereich HP Global Analytics analysierten alle Daten und ermittelten daraus die wichtigsten Parameter. Für den Maschinenhersteller ergibt sich daraus die Möglichkeit, den Datenaustausch aus dem Fahrzeug anzupassen und nur die wichtigsten Daten zu übermitteln.

Zudem kann der Hersteller seinen Kunden durch die frühzeitige Erkennung von Problemen einen verbesserten Service bieten. Gemeinsam mit dem Kunden lassen sich geeignete Wartungsfenster identifizieren und dadurch kostspielige Ausfälle für den Endkunden vermeiden. Auch die Gewährleistungskosten für den Hersteller reduzieren sich, wenn festgestellt wird, dass die Maschine oder das Fahrzeug missbräuchlich benutzt wird, beispielsweise durch ständige Überladung.

Gelingt es über eine IoT Plattform, eine bidirektionale Kommunikation aufzubauen, erweitert sich das Potenzial noch einmal erheblich. In diesem Fall empfängt man nicht nur Daten aus den Maschinen, sondern kann auch auf die Maschine beziehungsweise das Fahrzeug einwirken und die entsprechenden Devices, Sensoren, Geräte remote verwalten. Dadurch lassen sich beispielsweise Software Updates verteilen und gegebenenfalls neue Funktionen nutzen, oder aber komplette oder teilweise Stilllegungen erreichen. Bei Diebstahl, festgestellt über die GPS Daten, kann das Fahrzeug oder die Maschine vollständig funktionsuntüchtig geschaltet werden (Geo Fencing).

Es empfiehlt sich grundsätzlich, Use Cases zunächst zu verproben und erst anschließend in den Produktivbetrieb zu überführen, um Fehlinvestitionen zu vermeiden. Dies gilt auch für die Big-Data-Umgebung selbst. Bevor in eine eigene Big-Data-Plattform investiert wird, für die weder ein Betriebskonzept existiert noch eine Betriebsorganisation den Praxisbetrieb übernehmen kann, lässt sich diese mit den entsprechenden Komponenten beispielsweise in einer Private Cloud nutzen und sowohl die technische Machbarkeit, aber auch die Businessrelevanz dort nachweisen. Für die Analyse aktuell anfallender Daten ist eine sehr hohe Verarbeitungsgeschwindigkeit und für die Speicherung und Verarbeitung der historischen Massendaten eine günstige Speicher- und Verarbeitungslösung notwendig.

Orchestrierung über HANA

Die Anwendungsbeispiele zeigen: Big Data ist schon lange keine Vision mehr, sondern in der Unternehmensrealität angekommen. Bisher galt: je größer die Datenmenge, umso teurer die Speicherung und umso langsamer der Zugriff. Diese Herausforderungen lassen sich mithilfe von Hadoop kostengünstig lösen, in dieser Disziplin liegt das Open-Source-Framework vorne. Nicht jedoch in der Disziplin Analytics in Echtzeit. Hier kann die In-Memory-Plattform SAP HANA punkten. Die Stärken liegen hierbei neben der schnellen Verarbeitung vor allem in der Business Logik der transaktionalen SAP-Applikationen. Durch die Kombination von SAP HANA und Hadoop lassen sich die Vorteile aus beiden Disziplinen gewinnbringend nutzen, sofern die Orchestrierung über SAP HANA erfolgt.