Hadoop-Distributionen und -Grundlagen im Überblick

Hadoop mischt den Big-Data-Markt auf

14.11.2014
Von 
Thomas Drilling ist als freier IT-Journalist und IT-Consultant tätig. Seine Spezialgebiete sind Linux und Open-Source-Software.

Hadoop-Sicherheit - Apache Knox und XA Secure

Das Hadoop Core-System wies bis zur Version 2 einige prinzipielle Schwachstellen auf, wie etwa die mangelnde Echtzeitfähigkeit. Auch im Bereich Sicherheit bestand im Zeitalter vor YARN das Problem, dass Nutzer, die sich erfolgreich an einem Hadoop-Cluster authentifizierten, in der Regel auch Zugriff auf alle im Cluster gespeicherten Daten hatten. Zwar wird für Sicherheit im Kontext von Hadoop, wie erläutert, auf mehreren Ebenen gesorgt, trotzdem gibt es von je her auch Apache-Projekte, die sich ausschließlich dem Thema Hadoop-Sicherheit widmen.

Knox erweitert einen Hadoop-Cluster um Sicherheits-, Monitoring- und Automatisierungs-funktionen.
Knox erweitert einen Hadoop-Cluster um Sicherheits-, Monitoring- und Automatisierungs-funktionen.
Foto: Apache Software Foundation

Eines der populärsten ist Apache Knox. Knox ist ein REST API Gateway für die Interaktion mit Hadoop- Clustern und arbeitet quasi als Reverse Proxy, lässt sich aber auch für Policy Enforcement erweitern. Knox kümmert sich primär um die Cluster-Ebene und erweitert das Hadoop-Security-Modell für alle Nutzer, die auf die Cluster-Daten zugreifen, mit Hilfe von Authentifizierungsrollen. Knox stellt zudem weitere Enterprise-Funktionen zur Cluster-Verwaltung sowie Monitoring- und Automatisierungs-Funktionen zur Verfügung, darunter auch AD- und LDAP-Authentication-Provider. Außerdem erweitert Knox einen Hadoop-Cluster um Funktionen für Auditing und Service-Level-Autorisierung. Knox integriert sich flexibel in bestehende Sicherheitsinfrastrukturen und arbeitet zum Beispiel auch mit via Kerberos abgesicherten Hadoop-Clustern zusammen.

Allgemein fehlt Hadoop aber laut Ansicht der Hortonworks-Entwickler ein einheitliches Sicherheitsprojekt. Die bisher verfügbaren Kontrollmechanismen greifen zudem in erster Linie auf HDFS- beziehungsweise Cluster-Ebene, aber nicht über das gesamte Hadoop-Applikations-Framework hinweg. Hortonworks hat daher vor wenigen Wochen die Übernahme des Startups XA Secure bekannt gegeben und die Lösung vom XA Secure schnell in die eigene Distribution HDP eingebaut. Hortonworks will XA Secure in naher Zukunft aber auch als Open-Source-Projekt an die Apache Software Foundation übergeben. Das Softwarepaket von XA Secure erweitert Core Hadoop um Funktionen für Datensicherheit, Autorisierung, Auditing und Governance. Die Erweiterungen von XA Secure sind unter der Bezeichnung HDP Advanced Security für Hortonworks Data Platform verfügbar. Der Sourcecode von XA Secure soll in der zweiten Jahreshälfte zunächst in den Apache Incubator eingehen. Hortonworks Hauptkonkurrent Cloudera hat seine kommerzielle Distribution inzwischen ebenfalls um ein mit XA Secure vergleichbares Sicherheits-Framework erweitert und dazu die kommerzielle Software Voltage SecureData für die Cloudera-Distribution zertifiziert.