想要執行大數據分析應用的企業,除了使用自建平臺外,也有容器平臺如DC/OS的開源選擇,除了多方相容開源數據處理工具Spark、Kafka、Flink;支援機器學習、深度學習工具TensorFlow、MXNet、PyTorch等,還可以結合GPU進行高速運算。而現在開發者又多了一個新選擇,就是資料工程新創公司Astronomer近日釋出的資料工程平臺Astronomer企業0.2.0版,今年初該公司就已經推出了代管AirFlow服務及SaaS解決方案,而這次平臺新版本所主打的是,可以在私有雲平臺的Kubernetes環境上,執行Airflow,用來安排、監控應用程式工作流程。該平臺的支援的資料處理方法,也涵括了批次作業模式及即時串流模式。
Astronomer執行長Ry Walker表示,GDPR及資料隱私法規,逼得企業必須開始衡量,將用戶數據轉交給外部廠商的風險。而該公司看到企業對資料保護的需求,所因應的策略,就是讓既有平臺解決方案,搬至企業內部受控環境執行。選擇將該解決方案部署在私有Kubernetes叢集的企業,同樣享有與SaaS版一樣的服務,「但是企業可以直接存取系統原始碼」,Ry Walker表示,這也確保用戶保有客製化的自由。
在這次所釋出的新版本中,功能面總共有3個新特色。首先是支援Kubernetes Helm Charts,讓系統組態設定更為自動化。Ry Walker舉例,開發者過去建置Grafana、Flower或是自家API平臺Houston時,都得要分別進行,而現在新版釋出,在單一部署中,就可以一次設定多種元件的部署組態,加快工作速度。
第二是加強了命令程式列的功能,除了可以直接進行系統認證程序,讓組態設定過程更為流暢,也能同時部署多個Airflow應用。該公司表示,此平臺也強調開發者優先,與其採用僵硬、令人混亂的GUI操作,「我們決定滿足開源開發者的需求,提供輕量化工具、豐富的API及命令程式列。」
最後,該公司也更新了API平臺功能,現在系統可直接列出部署任務清單、自行更換部署名稱,還可以布建客製化Airflow映像檔,「在部署過程中,開發者可以更加掌握映像檔的系統相依性。」
Image may be NSFW.
Clik here to view.
新推的企業Astronomer 0.2.0版,在企業內部的Kubernetes環境中,也整合了許多開發者愛用的資料監控、分析平臺Grafana。部署於容器叢集中的Airflow容器的運作狀況,也能一目瞭然。而該平臺也有提供相異系統維度的監控方法,例如,全局的系統面為切入點,觀察CPU、記憶體及網路流量等數據。或者,也能觀察個別Kubernetes Worker節點,確保該節點的CPU、記憶體使用量都正常無虞。 圖片來源:Astronomer