趁著本周Apache Spark高峰會(Spark Summit)的登場,微軟宣布正式推出Azure HDInsight for Spark。
Apache Spark為一開源叢集運算框架,採用記憶體內運算技術,內含核心、Spark SQL、Spark Streaming及分散式機器學習MLlib等元件,由於它具備速度快、易用、通用及多模式等特性,使得它成為熱門的大數據運算框架。
Azure HDInsight則是微軟用來部署及管理Apache Hadoop雲端叢集的服務,目的在於針對大數據進行處理、分析及產生報告。開源的分散處理暨儲存框架Hadoop及Spark已被視為是未來大數據領域最有前景的組合。
負責Hadoop、大數據及資料倉儲的微軟行銷經理Oliver Chiu指出,Spark可在記憶體內執行大規模的資料分析應用,與傳統的大數據解決方案相較,Spark的查詢速度快上100倍,Spark for Azure HDInsight則帶來企業等級的Spark解決方案,提供完整的管理、安全與可靠性,以及更方便的操作介面。
其實微軟在去年7月便已釋出Spark for Azure HDInsight的公開預覽版,在經歷近一年的推廣之後,目前HDInsight的新叢集部署已有一半採用Spark for Azure HDInsight。