Google baut sein Big-Data-Portfolio in der Cloud weiter aus. Mit Hilfe des Managed Service „Cloud Dataproc“ will der Internet-Konzern Anwendern helfen, Hadoop- und Spark-Cluster aufzusetzen, zu verwalten und auch wieder zügig abzuschalten, wenn sie nicht mehr gebraucht werden. Anwender hätten damit weniger Aufwand für die Administration ihrer Big-Data-Infrastruktur und könnten sich mehr mit den Daten beschäftigen, argumentiert Google.
Im Vordergrund steht die Geschwindigkeit des Big-Data-Dienstes: Müssten Nutzer im Rahmen lokaler Installationen beziehungsweise via Infrastructure as a Service (IaaS) bis zu 30 Minuten für die Bereitstellung entsprechender Cluster einkalkulieren, funktioniere dies mit Hilfe von Dataproc innerhalb von 90 Sekunden, verspricht der Anbieter. Der Managed Service lässt sich mit anderen Cloud-Diensten von Google verknüpfen – etwa mit Big Query, Cloud Storage, Cloud Bigtable, Cloud Logging und Cloud Monitoring. Das Management der Cluster funktioniert über die Google Developers Console, das Cloud SDK des Providers oder die REST API von Cloud Dataproc. Sämtliche durch Hadoop und Spark unterstützten Programmiersprachen würden Google zufolge auch von Cloud Dataproc bedient, beispielsweise Java, Scala, Python und R.
Cloud Dataproc liegt momentan im Betastadium vor. Der Preis beträgt einen US-Cent je Stunde pro virtuelle CPU im Cluster. Im Rahmen spezieller Instanzen könne der Dienst ab einem Minimum von zehn Minuten sogar minutengenau abgerechnet werden.