Das Thema Big Data hat in den vergangenen Jahren viele Entscheider massiv getrieben. Cloudera, Hortonworks, MapR & Co. zogen in die Rechenzentren vieler deutscher Unternehmen ein und befüllen die Data-Lakes der Unternehmen. Parallel dazu werden immer mehr Cloud-Infrastrukturen genutzt, um neue Dienste zur erstellen und so entstehen auch in der Cloud zum Teil Data-Lakes. Die Frage ist, wie man effektiv und sinnvoll diese hybriden Welten verbinden kann und welche Einsatzszenarien einen Mehrwert und nicht nur mehr Aufwand bringen.
Flexible hybride Welten
Wenn man sich eine klassische Big-Data-Landschaft anschaut, dann stellt sich zunächst die Frage, wie man überhaupt ein hybrides Szenario abbilden kann. Schauen wir uns dazu die unterschiedlichen Ausprägungen einmal an.
Flexible Big Data Analytics: Big Data On-Premise – Analytics On-Cloud;
Multi-Environment Big Data: Big Data On-Premise und On-Cloud;
Cloud-Streaming to Big Data: Streaming und Vorverarbeitung in der Cloud und Big Data On-Premise;
Cloud Add-on Big Data: Mehrwertdienste in der Cloud und Big Data On-Premise;
Big Cloud: Big Data in der Cloud und Mehrwertdienste On-Premise;
Flexible Big Data Analytics: Big Data On-Premise – Analytics On-Cloud.
Bei diesem Szenario werden die kritischen Daten in der On-Premise Welt gehalten und nur weniger relevante Daten, wie beispielsweise Maschinendaten in der Cloud verarbeitet. Die wichtigen Informationen bleiben somit in der internen IT und verlassen nicht das Unternehmen. Die analytischen Modelle und Visualisierungen können direkt in der Cloud Plattform prozessiert werden und bieten somit die Vorteile, welche zum Beispiel auch Software-as-a-Service-Angebote mit sich bringen. Tools, Anwendungen und Modelle sind immer aktuell und können generisch von einer breiten Nutzergemeinschaft weiterentwickelt werden.
Multi-Environment Big Data: Big Data On-Premise und On-Cloud
Bei diesem Szenario werden alle Dienste und Daten in einem hybriden Modell verwendet. Besondere Schwierigkeiten macht hier die Ressourcenverwaltung. Beispielsweise kann zwar ein Hadoop-Cluster dynamisch mit Ressourcen aus der Cloud erweitert werden, die Frage stellt sich nur nach der Orchestrierung und der Bereitstellung der Daten. Die Orchestrierung kann man sicherlich über die dynamische Erweiterung des Rechenzentrums durch VPC (Virtual Private Cloud) erlangen. Die Daten sind allerdings nur dann sinnvoll in der Cloud nutzbar, wenn
die Daten auch zum Teil in der Cloud liegen und somit nah an der Anwendung,
die Datenmenge für die Jobs nicht besonders groß ist,
die Daten schnell zwischen den unterschiedlichen Umgebungen verschoben werden können.
Den letzteren Fall können lokale deutsche Rechenzentrumsbetreiber, wie zum Beispiel e-shelter, Equinix und Co. abbilden, da hier meistens On-Premise- und Public-Cloud-Umgebung nah beieinander liegen.