Google在2015年9月推出Cloud Dataproc測試版,日前又宣布,大資料服務雲端管理平臺Cloud Dataproc全面上市(Generally Available,GA),提供Hadoop、Spark、Hive等大資料工具雲端管理服務,支援Hadoop 2.7.2、Spark 1.6、Hive 1.2.1和Pig 0.15,且可向下相容。而GA版也支援客製化虛擬機器服務(Custom Machine Types),以分鐘計價。
Google產品經理James Malone在官方部落格表示,在進行資料分析時,使用者應該要關注資料分析的結果,而不是資料分析的工具,如Hadoop和Spark,需要在成本、規模、複雜性和使用性上謹慎取得平衡。而Cloud Dataproc則矯正了資料分析的結果和工具兩者間的平衡。
Cloud Dataproc提供用戶可以使用開發者控制工具(Developers Console)和雲端開發套件(Cloud SDK)來建立Hadoop或Spark叢集,而傳統啟動和停止叢集作業要花費10分鐘或15分鐘以上,不過,Cloud Dataproc平均只需90秒以內就能啟動和停止一項叢集作業。Google宣稱,這比就地部署(On-Premise)或IaaS服務執行叢集作業的時間快上2至10倍,以減少使用者等待作業執行的時間。
此外,Cloud Dataproc還可以和大資料分析雲端平臺Dataflow一起使用,用來處理即時批次和串流資料,也可以整合BigQuery、Cloud Bigtable和雲端儲存(Cloud Storage)等服務。
且因為代管在Google雲端平臺(Cloud Platform),Cloud Dataproc也適用於客製化VM服務,提供使用者依各自需求,自訂VM的vCPU及記憶體,並以分鐘計價,最低消費為10分鐘,另外,在叢集中每顆虛擬CPU每小時收費1分美元,而叢集也可以採用預留(Preemptible)計價的VM執行個體(Instance), 比1分美元還便宜。
James Malone表示,Cloud Dataproc在測試版時新增了幾個重要的功能,包含性能調校、叢集版本管理等,而GA版也會像測試版一樣,將頻繁釋出新的功能、軟體元件等。同時,Google也宣布,新增技術合作夥伴Arimo、Attunity、Looker、WANdisco和Zoomdata,共同開發Cloud Dataproc,而服務供應商如Moser、Pythian和Tectonic也提供Cloud Dataproc用戶技術支援。