去年11月,在資料排序競賽中,近幾年竄紅的大資料分析技術Apache Spark,締造新的世界紀錄,不到30分鐘就完成100TB資料的排序,打破了由Hadoop保有的72分鐘記錄。
今年4月,蘋果一位工程師在舊金山一場小型演講中,首度對外透露了Siri語音秘書能夠服務全球用戶爆量需求的關鍵,就是用來管理上千臺伺服器的Mesos軟體。Spark和Mesos這兩項技術其實都來自同一個團隊,也就是柏克萊大學的AMPLab。明天,iThome次世代大資料研討會即將登場,Apache基金會Mesos專案的管理者,也是在Mesos技術主要開發公司Mesosphere中,擔任分散式系統首席工程師的Timothy Chen,將首度在臺分享如何用Mesos架構新一代Big Data平臺。
請跟讀者簡要介紹一下您的背景?
A:我在美國在大型的軟體公司(Microsoft、VMWare)與小型Startup(Mesosphere、Z2、Evri)都做過軟體工程師,大部分的經驗都在大型分散式系統跟Big Data系統的開發。
我在Mesosphere的工作就是規畫Mesos的Container系統,並帶領團隊開發,此外也參與大資料與Mesos結合的開發(Spark、Kafka等)。我很喜歡開源軟體,也花很多精力參與許多開源軟體專案,目前擔任Apache Mesos和Apache Drill專案的PMC,也貢獻許多patch到Apache Spark。
Mesos是一套什麼樣的軟體?
A:Mesos是一個分散式系統的核心,把資料中心所有的資源抽化,而讓不同的Scheduler決定怎麼使用這些資源。Mesos本身也有寫一個像Docker一般的Container Runtime,所以更可以用來管理Container。
Mesosphere與Mesos的關係為何?
A:Mesosphere跟Mesos的關係,與Datastax跟Cassandra的關係很類似。
當初把Mesos引進Twitter的核心開發成員,大部分都在Mesosphere任職,而這可讓我們所開發的Mesos可以帶給Twitter以外更多的公司來使用。Mesosphere的產品DCOS就是以Mesos當作核心, 並在上面架構了不同的平台(如Packaging、Monitoring等),來讓Mesos更容易給不同公司運用。
Mesos與Spark皆出自柏克萊大學的AMPLab,這是巧合嗎,還是兩者有特別的關係?
A:這並不是巧合,大部分在Berkeley研究Spark的研究生,也同樣是研究Mesos的人。AMPLab在當時有許多研究是從Hadoop Mapreduce展開,包括研究如何能讓Hadoop跑得更快以及資源運用更優化。 從當時的研究開始,研究團對發現Hadoop裡面的Fair Scheduler可以更佳優化Multi-tenant多租戶架構的叢集系統,來直執行更多的運算任務。從那之後就產生不同Scheduling算法(DRF、Delayed scheduling等),這也讓他們開始架構一個平台,能夠運用這些研究結果。Mesos就是這個平台。而為了能夠證明Mesos可以支援大量Workload,他們就寫了Spark來測試Mesos。
Spark與Mesos被譽為是新世代大資料平臺,何以這麼說?
A:Mesos最具特色的地方是它能夠不只是跑Spark,而且可以同時支援不同Big Data的系統,像是Kafka、HDFS等。
很大的原因是因為社群貢獻這些Framework,讓許多系統跑在Mesos上能夠各種不同的運算工作。所以以一個平台而言。Mesos更容易整合不同類型的系統,而讓它們可以在同一個叢集下運作。
你同時參與Mesos、Kafka、Drill等大資料相關的開源專案,對於Big Data未來的發展,你有何看法?
A:我相信Big Data將會變成標準配備,而且將會出現各式各樣的平臺。這都將讓Big Data技術更容易維運,也更容易操作。Big Data將會持續滲透到更多不一樣的領域中,例如更快的串流運算或空間分析上。
能否稍微透露一下你將在Big Data Conference 2015大會的演講內容?
A:我將會討論為何不同的Big Data公司跟開源軟體選擇跟Mesos結合,而這樣子的Big Data平台看起來會是如何。