Kunden erhielten so eine schnelle und einfache Möglichkeit, Big-Data-Projekte in der Aamzon-Cloud zu verwirklichen - mitsamt in AWS integrierter Rechnungsstellung. Aus Sicht von MapR eignet sich die Lösung auch für den dauerhaften Echtzeit-Hadoop-Einsatz in der Cloud, bei dem Kunden nur für die Leistung zahlen, die sie auch tatsächlich in Anspruch nehmen.
- Hadoop – Framework für Big Data
Haddop ist ein komplexes Framework, welches große Datenmengen auf zahlreiche Clusterknoten verteilen und berechnen kann. - Daraus besteht Hadoop
Hadoop besteht aus einem Cluster. Ein Knoten übernimmt die Steuerung (NameNode), die anderen die Berechnungen (DataNodes) im Cluster. - Lokaler Betrieb oder Cloud
Hadoop können Sie auch in der Cloud bei Microsoft Azure betreiben. - Ersetzt Hadoop Business Intelligence im Unternehmen?
Big Data-Lösungen wie Hadoop ergänzen Business Intelligence. Im Gegensatz zu BI-Lösungen, benötigen Big-Data-Lösungen keine perfekt zusammen gestellten Daten. - IBM General Parallel File System im Big Data-Einsatz
Verschiedene Clusterknoten können auf eine gemeinsame Datenbasis zugreifen, wenn GPFS im Einsatz ist. Unternehmen müssen beim Einsatz von Hadoop also nicht gezwungenermaßen auch auf HDFS setzen. - Hadoop in Amazon Web Services, Google Cloud Platform und Rackspace
Hadoop können Sie auch in Amazon Web Services betreiben. - Die wichtigsten Hadoop-Distributionen
Hortonworks Data Platform gehört zu den besonders bekannten Hadoop-Distributionen. - Hadoop erweitern – YARN und Co.
Auf dem Markt finden Sie zahlreiche Erweiterungen, mit denen sich der Funktionsumfang von Hadoop vergrößern lässt. - Sicherheit und Überwachung im Hadoop-Cluster
Apache Knox erhöht beispielsweise die Sicherheit im Hadoop-Cluster. Für die Überwachung der Hadoop-Infrastruktur eignet sich Apache Chukwa. - Oracle, IBM und Co. – Hadoop kommerziell erweitern
Oracle bietet zum mit Big Data SQL die Möglichkeit über SQL-Abfragen auf Big Data-Daten zuzugreifen. IBM InfoSphere BigInsights erweitert Hadoop um zahlreiche Möglichkeiten.
"Unsere Zusammenarbeit mit AWS besteht schon, seitdem MapR über Amazon Elastic MapReduce (EMR) angeboten wird", erläutert Steve Woodledge, bei MapR für das Produkt-Marketing zuständig. "Da man unsere Produkte nun aber zusätzlich im AWS Marketplace kaufen kann, erweitern sich die Möglichkeiten für Kunden."
- Apache YARN - Hadoop-Architektur
Seit der Version 2.0 des MapReduce-Algorithmus (MRv2), eingeführt mit der Hadoop-Version 2.3, hört das Framework auf den Namen NextGen MapReduce (YARN). YARN egalisiert eine Reihe von Defiziten der Vorgängerversion in den Bereichen Echtzeitfähigkeit und Sicherheit. Die fundamentale Neuerung in der YARN-Architektur besteht darin, die zwei Hauptfunktionen Ressourcen-Management und Job-Scheduling/Monitoring in zwei separate Daemons aufzuteilen. - Apache Hive - Abfrage
Die Grafik zeigt den Query-Editor in Apache Hive. Hive erweitert das MapReduce-Framework um eine Abstraktionsebene mit der SQL-ähnlichen Abfragesprache HiveQL. HiveQl ermöglicht das Absetzen klassischer Abfragen und damit das Analysieren der im HDFS abgelegten Daten. Man kann sich Hive auch als Data-Warehouse-Komponente des Hadoop-Frameworks vorstellen. Der Query-Editor in Apache Hive. - Apache HCatalog - Management
HCatalog ist für das Management von Metadaten in Hadoop von großer Bedeutung. Die Grfik zeigt eine Table-List in Hcatalog. - Apache Pig - Scripting Engine
Die Scripting-Engine Apache Pig. - Apache Knox - Sicherheit
Apache Knox kümmert sich primär um die Cluster-Ebene und erweitert das Hadoop-Security-Modell für alle Nutzer, die auf die Cluster-Daten zugreifen, mit Hilfe von Authentifizierungsrollen. - Hortonworks und Hadoop
So stellt sich Hortonworks eine moderne Data-Architektur vor. Auf Basis der Data-Systeme operieren Big-Data-Lösungen wie Hadoop gleichberechtigt neben SQL-Datenbanken wie SQL-Server, Oracle oder SAP Hana und können bei Bedarf Daten miteinander austauschen. Applikationen wie SAP greifen nach Belieben auf die verfügbaren Daten zu. - Cloudera und Hadoop
Die Hadoop-Distribution "CDH" von Cloudera ist vom Anbieter mit dem Prädikat „enterprise ready“ versehen und beinhaltet eine Reihe eigener Entwicklungen. Im Kern verwendet allerdings auch CDH YARN für das Workload-Management und setzt wahlweise auf HDFS oder Hbase als Storage-Engine. - Amazon EMR und Hadoop
Amazon Elastic Map Reduce unterstützt inzwischen alle Hadoop-Versionen von 0.20 über 1.0.3 bis zu den aktuellen Versionen 2.2 und 2.4. Darüber hinaus arbeitet EMR auch mit den Cluster-Typen Hive, Custom JAR, Pig, Hbase und Streaming.
Im AWS Marketplace gibt es alle drei Varianten der Hadoop-Distribution von MapR - Community Edition, Enterprise Edition sowie Enterprise Database Edition. Kunden erhalten außerdem Support für Apache Spark für schnelle Entwicklung von Batch-, Interaktions- und Streaming-Anwendungen. Für das Entwerfen von Hadoop-Clustern greift MapR auf "Cloudformation"-Blueprints von AWS zurück.
- Hadoop-Distributionen im Kurzprofil
Im Zuge von Big Data steigt in deutschen Unternehmen das Interesse an einem Framework für eine hoch skalierbare Infrastruktur zur Analyse großer Datenmengen. Die Open-Source-Variante Hadoop hat sich hier als Quasi-Standard etabliert. Mittlerweile sind jedoch auch Enterprise-Distributionen einiger Hersteller auf dem Markt, darunter auch IBM und Microsoft. Wir stellen sieben Anbieter und ihre Produkte vor. - Amazon Elastic MapReduce (EMR)
Amazons Cloud-basierter Service "Elastic MapReduce" (EMR) nutzt Hadoop für die Verteilung der Daten und die Verarbeitung auf einem skalierbaren Cluster. Dieses Cluster besteht aus Server-Instanzen, die Amazon EC2 (Elastic Compute Cloud) bereitstellt, sowie aus Speicherkapazitäten von Amazon S3. Ein Vorteil ist, dass der User ein EMR-Cluster in wenigen Minuten einrichten kann. Er muss sich weder um die Bereitstellung von Knoten noch um das Konfigurieren von Clustern und Hadoop kümmern. - Cloudera
Die US-Firma Cloudera zählt zu den bekanntesten Anbietern von Hadoop-Distributionen. Im März 2014 beteiligte sich Intel mit angeblich 720 Millionen Dollar an dem Unternehmen und brachte seine eigene Hadoop-Technik in die Partnerschaft ein. - Hortonworks
Die aktuelle Version 2.1 der "Hortonworks Data Platform" steht seit Kurzem zur Verfügung. Eine Besonderheit ist, dass Hortonworks nicht nur Linux, sondern auch Windows unterstützt. Die Hadoop-Distribution enthält unter anderem die Tools Stinger Solr und Storm, aber auch Lösungen für Sicherheit sowie IT- und Daten-Governance. - IBM mit InfoSphere BigInsights
IBMs Distribution "InfoSphere-BigInsights" wird von Forrester Research in einer Studie zu Hadoop-Distributionen von Anfang 2014 gut bewertet. Das überrascht ein wenig, weil das Unternehmen nicht unbedingt als Open-Source-Spezialist bekannt ist. Allerdings verfügt IBM über alle Tools und Kenntnisse, die für Big Data vonnöten sind: Datenbanken, Analysewerkzeuge, Erfahrung im Bereich Cluster und High-Performance-Computing, Datenmodellierungs-Tools etc. - Intel
Seinen Ausflug in Hadoop-Regionen hat Intel im März 2014 nach einem Jahr bereits wieder beendet. Mit der "Intel Distribution for Hadoop Software" hatte das Unternehmen eine Big-Data-Software-Plattform auf Basis von Hadoop entwickelt. Sie setzte weitgehend auf der Software von Apache auf, inklusive YARN. - MapR
MapR stellt laut einem Test von Flux7 eine Hadoop-Distribution zur Verfügung, die sich durch besonders hohe Performance auszeichnet. Dazu trägt das hauseigene File-System MapR-FS bei, das anstelle des Original-Dateisystems HDFS von Hadoop zum Zuge kommt. Weitere Besonderheiten sind die Unterstützung von NFS (Network File System), Änderungen an HBase, die sich in kürzeren Antwortzeiten niederschlagen, sowie die Option, unterschiedlichen Programmcode im Cluster laufen zu lassen. - Microsoft HDInsight
Mit "HDInsight Hadoop" stellt Microsoft eine Apache-Hadoop-Distribution über seine Cloud-Plattform Azure bereit. Auf der Entwicklerkonferenz "Build" gab Microsoft Anfang April 2014 in San Francisco bekannt, dass der Hadoop-Cloud-Service HDInsight Hadoop auf die aktuelle Version 2.2 upgedatet wurde. Zudem steht den Nutzern nun auch "Hadoop YARN" (Yet Another Resource Negotiator) zur Verfügung. Damit lassen sich auch Streaming-Daten verarbeiten. - Pivotal HD
Als Hadoop-Distribution, die im Gegensatz zur Standardversion der Software auch SQL-Datenbanken als Datenquellen nutzen kann, positioniert sich "Pivotal HD". Die Distribution basiert auf Hadoop 2.0 und verbindet EMCs Greenplum-Datenbank mit der Open-Source-Software. Die engen Bande zu EMC kommen nicht von ungefähr, weil Pivotal eine Ausgründung des Storage-Spezialisten ist.
Über Optionen wie Datenspiegelung oder Replikation von MapR-Datenbanktabellen können Kunden auch hybride Anwendungsmodelle entwickeln mit der Möglichkeit, Analysen oder operative Applikationen in der Cloud zu verlagern. Das Verschieben von Daten in der Cloud sowie das Integrieren großangelegter Datensätze und Anwendungen erleichtern MapRs eingebaute NFS-Fähigkeiten.