儘管近兩年大資料分析風潮的確吹進臺灣,一時之間看似氣勢如虹,但是大多只聞樓梯響而不見人影,除了少數早因自身需求而投入Hadoop大資料分析平臺建置的企業,如趨勢科技、台積電、中華電信等,近期則大多是行動廣告或網路服務公司的採用案例,但對多數臺灣大型企業而言,實際真正開始建置的企業還不多,大資料風潮在臺灣實務上才剛進入起飛階段而已。
在2015年年中加入Spark社群的IBM,將Spark視為未來主流大資料分析技術,更喊出要培訓出百萬Spark人才來滿足未來企業的需求潮。IBM甚至也在臺成立了大資料輔導團隊,但是過去一年來,負責大資料導入顧問的臺灣IBM軟體事業處高級資訊工程師蘇友信表示,臺灣真正導入大資料平臺的企業,還是停留在蒐集資料為主,分析資料為輔的階段,大多是為了先建立一個有能力儲存大量資料的平臺,並保留未來可能分析能力的可能性,只是取代了過去的資料倉儲產品。
他以近期實際協助導入的兩家臺灣企業為例,有一家金融業者為了處理儲存超過6年的冷資料(Cold Data)而導入Hadoop,用來分析歷史性的信用卡刷卡資料,以找出不同客群的特性,作為進一步行銷的參考。
他表示,過去這些交易紀錄是甚少再經常利用的歷史性資料,大多不會儲存在資料倉儲系統內,以減少對資料倉儲系統的負擔,資料倉儲系統內大多只保留5年紀錄。但是現在藉由Hadoop平臺,就可以進一步再利用這些冷資料。
另一方面,隨著第三方支付需求在臺開始發酵,過去資料倉儲系統較容易匯入的是外部資料庫中的結構化資料,但為了分析市場趨勢,需要將社群網站等非結構化資料也納入分析,這家金融業者也希望透過Hadoop平臺來蒐集外部的原始資料。
另一家也是去年開始規畫導入Hadoop的半導體業者,則計畫分三階段導入,第一階段是Hadoop平臺搭配大量外接儲存空間,來蒐集所有的產線資料,預備了約96TB容量的磁碟空間。
等到資料收齊了,就會進入第二階段,預計要部署6~8臺伺服器來建立Hadoop運算叢集來嘗試大資料分析應用,等到逐漸熟練之後,第三階段則會進一步採購整櫃式的大資料設備,利用其快速部署的特色來擴充運算效能,以滿足未來可能的分析需求。