Die wichtigsten Hadoop-Distributionen
Das Hadoop-Kernsystem (Hadoop Core) besteht wie gesehen nur aus dem MapReduce-Algorithmus und HDFS. Im allgemeinen Sprachgebrauch ist allerdings meist das Hadoop-Framework einschließlich des skizzierten Ökosystems aus zum Teil aufeinander basierenden Einzelprojekten gemeint. Trotzdem ist das Installieren und Verwalten eines Hadoop-Clusters, auch unter Einbeziehung weiterer Hadoop-Komponenten wie zum Beispiel Apache Ambari, immer noch eine sehr komplexe Angelegenheit, von der Datenanalyse in Echtzeit ganz zu schweigen.
- Hortonworks
Die aktuelle Version 2.1 der "Hortonworks Data Platform" steht seit Kurzem zur Verfügung. Eine Besonderheit ist, dass Hortonworks nicht nur Linux, sondern auch Windows unterstützt. Die Hadoop-Distribution enthält unter anderem die Tools Stinger Solr und Storm, aber auch Lösungen für Sicherheit sowie IT- und Daten-Governance. - Hortonworks
Die Versionsgeschichte der Hortonworks Data Platform: An diesem Beispiel wird deutlich, dass Anbieter von Hadoop-Distributionen unterschiedliche Tools wie Tez, Falcon oder Flume in ihre Pakete integrieren, um sich von Mitbewerbern abzuheben. - Hortonworks
Hadoop 1 und 2 im Vergleich: Ein maßgeblicher Unterschied ist die Integration von YARN in Version 2 der Software. - Hortonworks
Knox, ebenfalls ein Open-Source-Tool, stellt Sicherheitsfunktionen für Hadoop zur Verfügung, etwa für die Authentifizierung von Nutzern. - Hortonworks
Struktur der Hadoop-Distribution von Hortonworks
Hadoop pur eignet sich daher nur für Spezialisten oder Entwickler. Hier schlägt die Stunde der Hadoop-Distributionen und Big-Data-Suiten. Eine Hadoop-Distribution ist eine Suite aus Hadoop Core und einer mehr oder weniger großen Anzahl vorkonfigurierter Hadoop-Komponenten, weiteren Tools und zum Teil herstellerspezifischen Erweiterungen. Darüber hinaus bekommen Unternehmen für Hadoop-Distributionen Support, auf den sie in der Regel angewiesen sind.. Big-Data-Suiten gehen noch ein Stück weiter. Diese kombinieren Hadoop Core mit weiteren Werkzeugen etwa zur Echtzeitanalyse, Datenmodellierung oder Visualisierung. Die Forrester-Studie "Big Data Solutions Q1 2014" nennt mit Amazon Web Services (AWS), Cloudera, Hortonworks, IBM, Intel, MapR Technologies, Microsoft, Pivotal Software und Teradata neun relevante Distributionen, allerdings fällt die von Intel aufgrund von Intels Einstieg bei Cloudera wieder weg. Aufgrund der sich derzeit abzeichnenden Konsolidierung des Marktes durch die zum Teil beträchtlichen Investments führender IT-Unternehmen und Risikofinanzierer bereinigt sich das Angebot relevanter Hadoop-Distributionen aus heutiger Sicht auf Hortonworks, Cloudera und Amazon Web Services (AWS).
- Hadoop-Distributionen im Kurzprofil
Im Zuge von Big Data steigt in deutschen Unternehmen das Interesse an einem Framework für eine hoch skalierbare Infrastruktur zur Analyse großer Datenmengen. Die Open-Source-Variante Hadoop hat sich hier als Quasi-Standard etabliert. Mittlerweile sind jedoch auch Enterprise-Distributionen einiger Hersteller auf dem Markt, darunter auch IBM und Microsoft. Wir stellen sieben Anbieter und ihre Produkte vor. - Amazon Elastic MapReduce (EMR)
Amazons Cloud-basierter Service "Elastic MapReduce" (EMR) nutzt Hadoop für die Verteilung der Daten und die Verarbeitung auf einem skalierbaren Cluster. Dieses Cluster besteht aus Server-Instanzen, die Amazon EC2 (Elastic Compute Cloud) bereitstellt, sowie aus Speicherkapazitäten von Amazon S3. Ein Vorteil ist, dass der User ein EMR-Cluster in wenigen Minuten einrichten kann. Er muss sich weder um die Bereitstellung von Knoten noch um das Konfigurieren von Clustern und Hadoop kümmern. - Cloudera
Die US-Firma Cloudera zählt zu den bekanntesten Anbietern von Hadoop-Distributionen. Im März 2014 beteiligte sich Intel mit angeblich 720 Millionen Dollar an dem Unternehmen und brachte seine eigene Hadoop-Technik in die Partnerschaft ein. - Hortonworks
Die aktuelle Version 2.1 der "Hortonworks Data Platform" steht seit Kurzem zur Verfügung. Eine Besonderheit ist, dass Hortonworks nicht nur Linux, sondern auch Windows unterstützt. Die Hadoop-Distribution enthält unter anderem die Tools Stinger Solr und Storm, aber auch Lösungen für Sicherheit sowie IT- und Daten-Governance. - IBM mit InfoSphere BigInsights
IBMs Distribution "InfoSphere-BigInsights" wird von Forrester Research in einer Studie zu Hadoop-Distributionen von Anfang 2014 gut bewertet. Das überrascht ein wenig, weil das Unternehmen nicht unbedingt als Open-Source-Spezialist bekannt ist. Allerdings verfügt IBM über alle Tools und Kenntnisse, die für Big Data vonnöten sind: Datenbanken, Analysewerkzeuge, Erfahrung im Bereich Cluster und High-Performance-Computing, Datenmodellierungs-Tools etc. - Intel
Seinen Ausflug in Hadoop-Regionen hat Intel im März 2014 nach einem Jahr bereits wieder beendet. Mit der "Intel Distribution for Hadoop Software" hatte das Unternehmen eine Big-Data-Software-Plattform auf Basis von Hadoop entwickelt. Sie setzte weitgehend auf der Software von Apache auf, inklusive YARN. - MapR
MapR stellt laut einem Test von Flux7 eine Hadoop-Distribution zur Verfügung, die sich durch besonders hohe Performance auszeichnet. Dazu trägt das hauseigene File-System MapR-FS bei, das anstelle des Original-Dateisystems HDFS von Hadoop zum Zuge kommt. Weitere Besonderheiten sind die Unterstützung von NFS (Network File System), Änderungen an HBase, die sich in kürzeren Antwortzeiten niederschlagen, sowie die Option, unterschiedlichen Programmcode im Cluster laufen zu lassen. - Microsoft HDInsight
Mit "HDInsight Hadoop" stellt Microsoft eine Apache-Hadoop-Distribution über seine Cloud-Plattform Azure bereit. Auf der Entwicklerkonferenz "Build" gab Microsoft Anfang April 2014 in San Francisco bekannt, dass der Hadoop-Cloud-Service HDInsight Hadoop auf die aktuelle Version 2.2 upgedatet wurde. Zudem steht den Nutzern nun auch "Hadoop YARN" (Yet Another Resource Negotiator) zur Verfügung. Damit lassen sich auch Streaming-Daten verarbeiten. - Pivotal HD
Als Hadoop-Distribution, die im Gegensatz zur Standardversion der Software auch SQL-Datenbanken als Datenquellen nutzen kann, positioniert sich "Pivotal HD". Die Distribution basiert auf Hadoop 2.0 und verbindet EMCs Greenplum-Datenbank mit der Open-Source-Software. Die engen Bande zu EMC kommen nicht von ungefähr, weil Pivotal eine Ausgründung des Storage-Spezialisten ist.