Google宣布推出Cloud Dataproc服務,號稱可讓Hadoop及Spark叢集的建立更快、更省成本,管理也更容易。
Cloud Dataproc是Google Cloud Platform服務的最新成員。Google產品經理James Malone指出,Hadoop或Spark雖是功能強大的大資料分析工具,但其中的部署、擴充、使用及管理工作相當複雜,而且牽涉龐大的成本。Cloud Dataproc正是為了簡化Spark及Hadoop服務而設計,能讓使用者進行批次處理、查詢、資料串流及機器學習等工作,其自動化工具可協助使用者更快新增及更容易管理資料叢集,並且能在不使用時關閉,以降低成本,使企業能把心力花在資料分析的核心工作上。
目前Cloud Dataproc為beta版,支援以Spark 1.5及Hadoop 2.7.1為基礎建立的叢集。
和傳統本地部署以及競爭的Hadoop服務相比,Google強調Cloud Dataproc相當適合具有300個節點的叢集環境。首先,Cloud Dataproc收費方式為每顆虛擬CPU每小時1美分,成本效益在其他Cloud Platform資源之上。除了低價之外,Cloud Dataproc還包含運算成本較低的Preemptible VM執行個體(instances),可進一步降低成本。而且對於使用未滿一整個小時的用戶,Cloud Dataproc還提供以分計價的方式,最低消費只有10分鐘。
Google也強調Cloud Dataproc建立叢集超快的速度。相較於本地部署或一般IaaS服務需要花5到30分鐘來建立Hadoop或Spark叢集,Cloud Dataproc叢集的啟動、擴充及關閉,平均每項作業時間均在90秒之內。這表示使用者可以花更短時間在等待工作上。
由於是代管在Google Cloud Platform上,Cloud Dataproc內建與其他服務的整合工具,包括BigQuery、雲端儲存、Cloud Bigtable、雲端紀錄及雲端監控等,以提供更完整的服務。例如使用者可用Cloud Dataproc輕鬆將數TB的ETL原始資料倒進BigQuery以建立業務報表。而且工具對使用者來說也更熟悉,無需管理員或特殊軟體的服務,只要透過Google開發人員控制台、Google Cloud SDK或Cloud Dataproc REST API即可管理叢集及Spark/Hadoop作業。
Cloud Dataproc完成作業後還能加以關閉,以節省在閒置叢集上的花費,同時Cloud Dataproc可和雲端儲存、BigQuery及Cloud Bigtable整合。因為無需學習新API或工具,也能輕易將現有專案搬到Cloud Dataproc上。經常的更新確保具備最新版的Spark、Hadoop、Pig及Hive。(編譯/林妍溱)