Cloud-Streaming to Big Data: Streaming und Vorverarbeitung in der Cloud und Big Data On-Premise
Ein weiteres Szenario bietet das Internet of Things (IoT). Sensoren, Logdateien, Kameras, Telemetriedaten und viele weitere Dinge kommunizieren viele Daten. Dabei ist das Wachstum der unstrukturierten Daten wesentlich größer als es das der strukturierten Daten jemals war. Damit diese Flut an Daten gebändigt werden kann, können Cloud-Plattformen helfen, dynamisch Streaming-Plattformen aufzubauen und flexibel mit Ressourcen zu erweitern. Auch eine Vorfilterung der Daten ist bereits in der Cloud möglich. Die fertigen Rohdaten selbst werden dann wiederum in der On-Premise-Landschaft abgelegt.
Cloud Add-on Big Data: Mehrwertdienste in der Cloud und Big Data On-Premise
Wenn man die Hoheit über die Daten behalten möchte, aber dennoch möglichst flexible Anwendungen und Dienste entwickeln und bereitstellen möchte, dann kann man alle diese Aufgaben in die Cloud verlagern. So haben die Entwicklungs-, die BI- und die Leitungsteams vollen Zugriff auf die modernsten Verfahren und Technologien. Ebenso bietet dieses Szenario den Vorteil, dass ETL-Prozesse (Extract, Transform, Load) und die Verbindung zum Datawarehouse-System direkt von der Unternehmens-IT weiterhin betrieben werden kann und neue Kenntnisse nebenbei aufgebaut werden können. Denn gerade Administratoren für Hadoop-Cluster bilden derzeit eine sehr begehrte Ressource am Markt.
Big Cloud: Big Data in der Cloud und Mehrwertdienste On-Premise
Ein weiteres Szenario hält die Daten in der Cloud. Dort kommen die Daten aus den IoT-Geräten sowieso schon an und die Verarbeitung durch viele verfügbare Ressourcen in der Cloud wird dadurch vereinfacht. Die Mehrwertdienste können in diesem Fall auf flexiblen Infrastrukturen in der On-Premise Landschaft entwickelt und getestet werden. So kann beispielsweise ein Data Scientist mit einem kleinen Datenauszug lokal im R Studio mit der Entwicklung beginnen. Nach einer ersten Sichtung und Analyse der Daten können dann die Modelle aus dem Bereich der künstlichen Intelligenz auf spezialisierter Hardware, wie zum Beispiel ein Cluster von Graphikkarten, mit Hilfe von "Spark" oder Deep-Learning-Algorithmen schnell entwickelt und modifiziert werden, bis das fertig trainierte Modell dann auf die Cloud-Umgebung portiert werden kann.
Aussichten am hybriden Hadoop-Himmel
Sinnvoll sind die hier aufgezeigten Szenarien je nach Anwendungsbereich und Industrieschwerpunkt. Unternehmen, welche zum Beispiel wenige Streaming-Daten erwarten, benötigen sicherlich kein Szenario für diesen Fall. Zu überdenken sind jedoch alle Szenarien, denn je nach Ausprägung bieten sie eine Spezialisierung und Freiräume für Entwickler, Administratoren, BI-Consultants, externe Dienstleister usw. Je nachdem, wie die Verlagerung der einzelnen Hadoop- beziehungsweise Big-Data-Funktionalitäten aussieht, ergibt sich somit durch eine scheinbar auftretende größere Komplexität in Wirklichkeit ein höherer Grad an Flexibilität und Spezialisierung. (ba)