Parallel zum Siegeszug von Big Data hat sich auch das Open-Source-Framework Hadoop weiterentwickelt. Galt das System rund um das Hadoop Distributed File System (HDFS) und den Map-Reduce-Algorithmus anfangs noch als batch-orientierte Lösung zur Indizierung von Suchanfragen, wird es heute immer stärker als Datenbasis für zahlreiche Applikationen in vielen Unternehmen eingesetzt. Doch damit rückt auch das Thema Sicherheit in den Vordergrund und viele Anwender fragen sich, ob Hadoop hierfür die nötigen Voraussetzungen mitbringt. Häufig wird jedoch übersehen, dass Hadoop bereits heute in sensiblen Branchen wie der Finanzindustrie und dem Gesundheitswesen sowie in Umgebungen genutzt wird, in denen typische Einsatzszenarios persönliche Daten wie etwa Kreditkarten- oder Sozialversicherungsnummern erfordern.
Beliebte Einsatzzwecke von Hadoop-Systemen sind heute etwa die Optimierung von Data Warehouses, das Aufdecken von Betrugsfällen und Anomalien, dazu Recommendation Engines und Clickstream-Analysen. Der Grund für die Entwicklung von Hadoop zu einem vielfältigen Instrument liegt in den zahlreichen Open-Source-Projekten begründet, die über die Jahre in das System hineingewachsen sind - dazu zählen etwa Apache HBase, Apache Hive, Apache Drill, Apache Mahout und Apache Pig. Diese Erweiterungen bieten auf funktionalem Level deutliche Fortschritte. Doch die Frage bleibt: Wie ist es um die Sicherheit bestellt?
Wie sich Hadoop absichern lässt
In einigen Installationsmodellen trennen Unternehmen einen Hadoop-Cluster durch Firewalls und andere Netzwerk-Schutzmechanismen vom Rest der IT-Landschaft ab und ermöglichen nur wenigen "trusted users" den Zugang. Dieses Modell ist die derzeit am häufigsten gewählte Grundstruktur und hängt nicht notwendigerweise von den Hadoop-eigenen Sicherheitsfunktionen ab. Als Erweiterung dazu kann ein Modell auch den direkten Login zu den Cluster-Servern untersagen; stattdessen erhalten Nutzer nur Zugriff über die Endknoten, in Kombination mit Hadoop-Sicherheitskontrollen. Ein etwas weiter verfeinerter Ansatz nutzt die vollen Sicherheitsfunktionen in Hadoop zusammen mit Monitor- und Analyse-Tools auf Hadoop-Clustern, die Einbrüche und Fremdaktivitäten aufspüren und verhindern.
- Hadoop – Framework für Big Data
Haddop ist ein komplexes Framework, welches große Datenmengen auf zahlreiche Clusterknoten verteilen und berechnen kann. - Daraus besteht Hadoop
Hadoop besteht aus einem Cluster. Ein Knoten übernimmt die Steuerung (NameNode), die anderen die Berechnungen (DataNodes) im Cluster. - Lokaler Betrieb oder Cloud
Hadoop können Sie auch in der Cloud bei Microsoft Azure betreiben. - Ersetzt Hadoop Business Intelligence im Unternehmen?
Big Data-Lösungen wie Hadoop ergänzen Business Intelligence. Im Gegensatz zu BI-Lösungen, benötigen Big-Data-Lösungen keine perfekt zusammen gestellten Daten. - IBM General Parallel File System im Big Data-Einsatz
Verschiedene Clusterknoten können auf eine gemeinsame Datenbasis zugreifen, wenn GPFS im Einsatz ist. Unternehmen müssen beim Einsatz von Hadoop also nicht gezwungenermaßen auch auf HDFS setzen. - Hadoop in Amazon Web Services, Google Cloud Platform und Rackspace
Hadoop können Sie auch in Amazon Web Services betreiben. - Die wichtigsten Hadoop-Distributionen
Hortonworks Data Platform gehört zu den besonders bekannten Hadoop-Distributionen. - Hadoop erweitern – YARN und Co.
Auf dem Markt finden Sie zahlreiche Erweiterungen, mit denen sich der Funktionsumfang von Hadoop vergrößern lässt. - Sicherheit und Überwachung im Hadoop-Cluster
Apache Knox erhöht beispielsweise die Sicherheit im Hadoop-Cluster. Für die Überwachung der Hadoop-Infrastruktur eignet sich Apache Chukwa. - Oracle, IBM und Co. – Hadoop kommerziell erweitern
Oracle bietet zum mit Big Data SQL die Möglichkeit über SQL-Abfragen auf Big Data-Daten zuzugreifen. IBM InfoSphere BigInsights erweitert Hadoop um zahlreiche Möglichkeiten.
Zu den Sicherheitsfunktionen, auf die Unternehmen an dieser Stelle Wert legen sollten, gehört beispielsweise die erweiterbare Authentifizierung: eine Distribution mit Linux Pluggable Authentication Modules (PAM) bietet eine breite Registry-Unterstützung für den eigenen Hadoop-Cluster an. Die Kerberos-Integration sollte dabei ebenfalls angeboten werden. Für die weitere Kontrolle sollten Access Control Expressions vorhanden sein, die mittels booleschen Ausdrücken eine fein justierbare Zugriffskontrolle auf der Tabellen-Ebene wie auch für Zeilenfamilien und Zeilenebene bieten.
Des Weiteren sollte ein komplettes Log über Nutzeraktivitäten bereitgestellt werden, um Nutzerverhalten nachvollziehen und Compliance gewährleisten zu können. Die Audit-Daten lassen sich in der Folge analysieren und durchsuchen, etwa mit Apache Drill, BI-Tools wie Tableau oder bestehenden SIEM-Systemen. Unternehmen sollten auch auf logische Partitionen der Datensets achten. Sie ermöglichen es, im Zusammenspiel mit fixierten Ansichten via Snapshots, die Transformations-Historie der Daten nachzuvollziehen, um die Datenstammfolge, Auditing- und Retention-Anforderungen zu gewährleisten.
Sicherheit und Datentypen - eine Frage der Strategie
Grundsätzlich gilt auch im Hadoop-Umfeld: Eine Strategie zur Datensicherheit muss vor der Implementierung, vor der Integration ins Unternehmens-Ökosystem erfolgen. Wie andere Plattformen im Rechenzentrum auch, wird Hadoop früher oder später auch sensible Daten speichern, die bestimmten Sicherheits- und Datenschutzbestimmungen sowie Audits unterliegen. Da Angreifer stets auf der Suche nach lohnenden Zielen sind, dürfte auch Hadoop mit all seinen gespeicherten Daten schnell in ihren Fokus rücken.
- Big Data 2015
Zur Praxis von Big Data hat der US-Marktforscher Gartner 437 Teilnehmer seines eigenen Panels ("Gartner Research Circle") befragt. Die Ergebnisse dokumentiert das Papier "Practical challenges mount as Big Data moves to mainstream". - Adaption
Hatten 2012 noch 58 Prozent der Teilnehmer von bereits getätigten oder geplanten Investitionen gesprochen, sind es jetzt 76 Prozent. Gartner bezeichnet das als "Adaptionswelle". - Initiatoren
Gartner wollte auch wissen, wer Big Data-Initiativen anstößt. Hier zeigt sich eine deutliche Verschiebung zuungunsten der IT-Entscheider. - Ziele
In den vergangenen Jahren hat sich herauskristallisiert, welche Ziele die Unternehmen mit Big Data verbinden. An oberster Stelle steht die Kundenerfahrung (Customer Experience). Das war auch 2013 der Spitzenreiter, allerdings mit 55 Prozent der Nennungen. - Messung des ROI
24 Prozent derer, die bereits in Big Data-Lösungen investieren, messen den ROI (Return on Investment) nicht. Die anderen orientieren sich entweder an finanziellen Kennzahlen, an der Steigerung der Effizienz oder besserer Entscheidungsfindung.
Kleinere Hadoop-Installationen oder solche, die noch im Frühstadium stecken, speichern oft keine sicherheitsrelevanten Daten. Aber selbst wenn es der Use Case nicht vorsieht, dass auch Dokumente mit sensiblen Informationen in Hadoop abgelegt werden, wird dies früher oder später passieren. Eine Strategie, um damit umzugehen, sollte sich daher zuerst mit den Datentypen beschäftigen: Handelt es sich bei den zu speichernden Informationen um strukturierte Daten, etwa Felder in Datenströmen, Feeds, oder Transaktionsflüssen? Oder sind es semistrukturierte Daten, wie Felder in Dateien, meistens batch-artig? Oder soll es ganz beim unstrukturierten Ansatz bleiben, als Binärobjekte, Scans, Daten und Dokumente?
Wenn die Datenstruktur nicht vorher bekannt ist, empfiehlt sich die Verschlüsselung auf Festplattenebene und/oder HDFS auf Ordner- und Dokumenten-Ebene. Zur Sicherung der grundlegenden Compliance und der ruhenden Daten sollte das bei jeder Hadoop-Installation als Grundlage dienen. Diese Art des Datenschutzes hilft, Zugriffskontrollen einzuführen und ist effektiv für alle Datentypen. Zusätzlich müssen für die Daten in Bewegung andere Wege der Verschlüsselung eingesetzt werden, etwa SSL/TLS-Protokolle.
Die Daten im Fokus
Der datenzentrische Ansatz unterscheidet sich deutlich von anderen traditionellen Methoden wie Data-at-Rest- oder Data-in-Motion-Verschlüsselung. Sensible Datenelemente auf Feld-Ebene werden durch nutzbare, aber de-identifizierte Äquivalente ersetzt, die das Format, das Verhalten und die Bedeutung der Elemente beibehalten. Indem man lediglich die sensiblen Datenelemente modifiziert und ihnen ihre wahren Werte nimmt, verschwindet ihre Sensibilität - doch sie wirken weiterhin wie die echten Daten.
Dieser formatschützende Ansatz kann bei strukturierten und semi-strukturierten Daten gleichermaßen angewandt werden. Diese Methode nennt sich auch "Ende-zu-Ende Datenschutz" und bietet eine unternehmensweite Schutzmöglichkeit für Informationen innerhalb wie außerhalb der Hadoop-Umgebung. Die geschützte Form der Daten lässt sich auch in anderen Anwendungen, Analyse-Engines, im Datentransfer und Datenspeicher problemlos einsetzen. Ein großer Vorteil: der Großteil der Analysen lässt sich auch an de-identifizierten Daten mit datenzentrischen Techniken durchgeführen.
Fazit: Unternehmen können auswählen
Hadoop kommt bereits in Unternehmen mit sicherheitsrelevanten Dokumenten und Informationen zum Einsatz. Das zeigt, dass die vorgestellten Techniken zuverlässig Sicherheit gewährleisten können. Dabei ist es unumgänglich, zunächst die eigenen Anforderungen zu dokumentieren und dann nach spezifischen Funktionen zu suchen, die diese Prioritäten umsetzen. Diese sollten im Grunde die Anforderungen aufgreifen, die das Unternehmen für andere Enterprise-Systeme bereits eingeführt hat.
Die Tatsache, dass es für Funktionen wie die Zugriffskontrolle keine festen Standards gibt, sollte Unternehmen dabei helfen, selbst eine an die Bedürfnisse angepasste Hadoop-Distribution auszuwählen. Dass Hadoop Sicherheit kann, hat das System bereits gezeigt - nur welche Sicherheit die richtige ist, müssen Unternehmen selbst entscheiden. (ba)