大資料分析風潮在近2年開始出現不一樣的轉變,例如從Gartner調查發現,大資料技術開始自超夯的新興技術,轉而走入幻滅期,甚至在去年中完全消失。一手創立了臺灣Hadoop社群的知意圖產品協理王耀聰是臺灣第一批在臺推動大資料分析技術Hadoop的關鍵人物。他認為:「這不是意味著大資料技術的退燒,而是大資料技術畢業了。」這是大資料技術從新興技術轉而成為成熟技術的徵兆。
王耀聰表示, 他觀察臺灣企業對Hadoop的期待,也不同於臺灣早期自行建置Hadoop平臺的先行者,如台積電、趨勢科技,自行打造整套大資料平臺,改而希望直接導入以Hadoop為核心引擎的分析應用系統。「企業開始要的是Application而不是Platform。」他說。
企業需求轉變之際,大資料技術也有了根本性的改變。他認為,過去是「靜止巨量資料」型態(Big Data at Rest),開始轉變成「流動巨量資料」型態(Big Data in Motion)。
知意圖產品協理王耀聰是臺灣推動大資料分析技術Hadoop的關鍵人物,他認為大資料不再是一個獨立的技術,而成了許多新興技術領域的底層技術,大資料開始進入了物聯網、BI、數位金融、電子商務等應用領域。
靜止巨量分析態型態的特徵是更新頻率較低、以批次處理技術為主,資料分析時間大約是分鐘到小時的等級。大多是處理人類製造的資料為主,包括了如影片、照片、Log檔、網頁等,主要資料處理技術是MapReduce、Pig、Mahout、Oozie等Hadoop生態系的套件,而資料分析主要以Hive(冷資料分析)和Impala(熱資料分析)為主,也已有相當豐富的視覺化工具來呈現分析結果。
但是新的大資料趨勢是流動巨量資料型態,最大不同是資料源是機器產生的資料,大多來自各式各樣IoT感測器產生的即時資料,也因此,資料更新頻率遠高於過去的靜止巨量資料,資料分析速度也從批次處理更進一步縮短到微批次(Micro Batch)等更短時間間隔的處理單位,資料分析時間是毫秒到秒。而Spark成了資料處理的主要平臺,但分析平臺則可以支援更多元的選擇,包括了如Shark、Spark SQL、MLib、GraphX、SparkR等。不過,目前可用的視覺化技術選擇較少,多以D3.js為主。
但不論是用於靜止巨量資料的Hadoop或是流動巨量資料的Spark,王耀聰認為,資安議題都是大資料架構接下來的最大考驗。例如Hadoop以初步強化了帳號密碼認證、讀寫權限控管、讀寫稽核紀錄、資料和通訊的加密等。而同樣地,Spark則甚至在這四項安全議題還剛處於起步階段,例如稽核工具還不足,加密機制也還在開發中。