Big Data Management

Hadoop richtig absichern

09.03.2016
Von 
Solutions Architect - Business Development & Alliances, MapR
Hadoop hilft Anwendern, Big Data in den Griff zu bekommen. Häufig bleibt aber die Frage, ob eine aus dem Open-Source-Umfeld stammende Lösung auch den nötigen Sicherheitsanforderungen entspricht. Doch mit der richtigen Strategie lassen sich Hadoop-Installationen sicher gestalten, so dass auch dem Einsatz bei sensiblen Daten nichts entgegensteht.

Parallel zum Siegeszug von Big Data hat sich auch das Open-Source-Framework Hadoop weiterentwickelt. Galt das System rund um das Hadoop Distributed File System (HDFS) und den Map-Reduce-Algorithmus anfangs noch als batch-orientierte Lösung zur Indizierung von Suchanfragen, wird es heute immer stärker als Datenbasis für zahlreiche Applikationen in vielen Unternehmen eingesetzt. Doch damit rückt auch das Thema Sicherheit in den Vordergrund und viele Anwender fragen sich, ob Hadoop hierfür die nötigen Voraussetzungen mitbringt. Häufig wird jedoch übersehen, dass Hadoop bereits heute in sensiblen Branchen wie der Finanzindustrie und dem Gesundheitswesen sowie in Umgebungen genutzt wird, in denen typische Einsatzszenarios persönliche Daten wie etwa Kreditkarten- oder Sozialversicherungsnummern erfordern.

Beliebte Einsatzzwecke von Hadoop-Systemen sind heute etwa die Optimierung von Data Warehouses, das Aufdecken von Betrugsfällen und Anomalien, dazu Recommendation Engines und Clickstream-Analysen. Der Grund für die Entwicklung von Hadoop zu einem vielfältigen Instrument liegt in den zahlreichen Open-Source-Projekten begründet, die über die Jahre in das System hineingewachsen sind - dazu zählen etwa Apache HBase, Apache Hive, Apache Drill, Apache Mahout und Apache Pig. Diese Erweiterungen bieten auf funktionalem Level deutliche Fortschritte. Doch die Frage bleibt: Wie ist es um die Sicherheit bestellt?

Wie sich Hadoop absichern lässt

In einigen Installationsmodellen trennen Unternehmen einen Hadoop-Cluster durch Firewalls und andere Netzwerk-Schutzmechanismen vom Rest der IT-Landschaft ab und ermöglichen nur wenigen "trusted users" den Zugang. Dieses Modell ist die derzeit am häufigsten gewählte Grundstruktur und hängt nicht notwendigerweise von den Hadoop-eigenen Sicherheitsfunktionen ab. Als Erweiterung dazu kann ein Modell auch den direkten Login zu den Cluster-Servern untersagen; stattdessen erhalten Nutzer nur Zugriff über die Endknoten, in Kombination mit Hadoop-Sicherheitskontrollen. Ein etwas weiter verfeinerter Ansatz nutzt die vollen Sicherheitsfunktionen in Hadoop zusammen mit Monitor- und Analyse-Tools auf Hadoop-Clustern, die Einbrüche und Fremdaktivitäten aufspüren und verhindern.

Zu den Sicherheitsfunktionen, auf die Unternehmen an dieser Stelle Wert legen sollten, gehört beispielsweise die erweiterbare Authentifizierung: eine Distribution mit Linux Pluggable Authentication Modules (PAM) bietet eine breite Registry-Unterstützung für den eigenen Hadoop-Cluster an. Die Kerberos-Integration sollte dabei ebenfalls angeboten werden. Für die weitere Kontrolle sollten Access Control Expressions vorhanden sein, die mittels booleschen Ausdrücken eine fein justierbare Zugriffskontrolle auf der Tabellen-Ebene wie auch für Zeilenfamilien und Zeilenebene bieten.

Des Weiteren sollte ein komplettes Log über Nutzeraktivitäten bereitgestellt werden, um Nutzerverhalten nachvollziehen und Compliance gewährleisten zu können. Die Audit-Daten lassen sich in der Folge analysieren und durchsuchen, etwa mit Apache Drill, BI-Tools wie Tableau oder bestehenden SIEM-Systemen. Unternehmen sollten auch auf logische Partitionen der Datensets achten. Sie ermöglichen es, im Zusammenspiel mit fixierten Ansichten via Snapshots, die Transformations-Historie der Daten nachzuvollziehen, um die Datenstammfolge, Auditing- und Retention-Anforderungen zu gewährleisten.

Sicherheit und Datentypen - eine Frage der Strategie

Grundsätzlich gilt auch im Hadoop-Umfeld: Eine Strategie zur Datensicherheit muss vor der Implementierung, vor der Integration ins Unternehmens-Ökosystem erfolgen. Wie andere Plattformen im Rechenzentrum auch, wird Hadoop früher oder später auch sensible Daten speichern, die bestimmten Sicherheits- und Datenschutzbestimmungen sowie Audits unterliegen. Da Angreifer stets auf der Suche nach lohnenden Zielen sind, dürfte auch Hadoop mit all seinen gespeicherten Daten schnell in ihren Fokus rücken.

Kleinere Hadoop-Installationen oder solche, die noch im Frühstadium stecken, speichern oft keine sicherheitsrelevanten Daten. Aber selbst wenn es der Use Case nicht vorsieht, dass auch Dokumente mit sensiblen Informationen in Hadoop abgelegt werden, wird dies früher oder später passieren. Eine Strategie, um damit umzugehen, sollte sich daher zuerst mit den Datentypen beschäftigen: Handelt es sich bei den zu speichernden Informationen um strukturierte Daten, etwa Felder in Datenströmen, Feeds, oder Transaktionsflüssen? Oder sind es semistrukturierte Daten, wie Felder in Dateien, meistens batch-artig? Oder soll es ganz beim unstrukturierten Ansatz bleiben, als Binärobjekte, Scans, Daten und Dokumente?

Wenn die Datenstruktur nicht vorher bekannt ist, empfiehlt sich die Verschlüsselung auf Festplattenebene und/oder HDFS auf Ordner- und Dokumenten-Ebene. Zur Sicherung der grundlegenden Compliance und der ruhenden Daten sollte das bei jeder Hadoop-Installation als Grundlage dienen. Diese Art des Datenschutzes hilft, Zugriffskontrollen einzuführen und ist effektiv für alle Datentypen. Zusätzlich müssen für die Daten in Bewegung andere Wege der Verschlüsselung eingesetzt werden, etwa SSL/TLS-Protokolle.

Die Daten im Fokus

Der datenzentrische Ansatz unterscheidet sich deutlich von anderen traditionellen Methoden wie Data-at-Rest- oder Data-in-Motion-Verschlüsselung. Sensible Datenelemente auf Feld-Ebene werden durch nutzbare, aber de-identifizierte Äquivalente ersetzt, die das Format, das Verhalten und die Bedeutung der Elemente beibehalten. Indem man lediglich die sensiblen Datenelemente modifiziert und ihnen ihre wahren Werte nimmt, verschwindet ihre Sensibilität - doch sie wirken weiterhin wie die echten Daten.

Dieser formatschützende Ansatz kann bei strukturierten und semi-strukturierten Daten gleichermaßen angewandt werden. Diese Methode nennt sich auch "Ende-zu-Ende Datenschutz" und bietet eine unternehmensweite Schutzmöglichkeit für Informationen innerhalb wie außerhalb der Hadoop-Umgebung. Die geschützte Form der Daten lässt sich auch in anderen Anwendungen, Analyse-Engines, im Datentransfer und Datenspeicher problemlos einsetzen. Ein großer Vorteil: der Großteil der Analysen lässt sich auch an de-identifizierten Daten mit datenzentrischen Techniken durchgeführen.

Fazit: Unternehmen können auswählen

Hadoop kommt bereits in Unternehmen mit sicherheitsrelevanten Dokumenten und Informationen zum Einsatz. Das zeigt, dass die vorgestellten Techniken zuverlässig Sicherheit gewährleisten können. Dabei ist es unumgänglich, zunächst die eigenen Anforderungen zu dokumentieren und dann nach spezifischen Funktionen zu suchen, die diese Prioritäten umsetzen. Diese sollten im Grunde die Anforderungen aufgreifen, die das Unternehmen für andere Enterprise-Systeme bereits eingeführt hat.

Die Tatsache, dass es für Funktionen wie die Zugriffskontrolle keine festen Standards gibt, sollte Unternehmen dabei helfen, selbst eine an die Bedürfnisse angepasste Hadoop-Distribution auszuwählen. Dass Hadoop Sicherheit kann, hat das System bereits gezeigt - nur welche Sicherheit die richtige ist, müssen Unternehmen selbst entscheiden. (ba)