負責維運超級電腦的國家實驗研究院高速網路與計算中心(簡稱國網中心),不只為了研究而導入大資料分析技術,現在更從這些經驗建置完成了第一個政府大資料分析平臺Braavos,並在今年8月以36臺實體機器打造的伺服器運算叢集,展開線上測試服務,預計年底正式營運後,更將運算節點擴充至200臺叢集規模,未來除了將做為政府推動生產力4.0、物聯網等大資料分析使用外,也將開放企業、學研申請租用。
首座政府大資料分析平臺年底正式營運
國網中心主任謝錫堃表示,相較一般大資料業者提供的大資料分析平臺,多採用虛擬化方式,並透過虛擬機器來分配運算資源,容易會有資源分散而導致運算效率降低。由國網中心打造的大資料平臺主要採用實體機器來提供政府、企業和學研的資料分析使用,因此更能有效集中資源,在分析運算上也更為快速,並也提供客製化的大資料分析和專業諮詢服務。
目前在這個大資料分析平臺內,共擁有36個運算節點,總計共配置了432顆核心,並內建了864GB 記憶體,以及搭配420 TB的HDFS儲存空間。謝錫堃表示,這個大資料平臺年底正式營運後,屆時,亦將把運算節點增加到200個以上,提供更快速運算分析服務。
這個大資料分析平臺主要採用了Hadoop來建置平行分散式運算架構,並提供了數種開源分析工具的申請項目,包括了MapReduce、HDFS、Hive、Pig、Sqoop、RHadoop、Mahout、Oozie、Flume,以及HBase等10個大資料工具。謝錫堃也說,未來也將依政府、企業需求來增加其他的分析工具,比如說,加入可用來分析大量串流資料的大資料即時分析工具Spark等。
此外,為了因應不同大資料分析用途,謝錫堃指出,在這個大資料平臺也將推出2種大資料分析方案,其中一個是採用共用分析平臺,因為較無安全疑慮,因而可將資料集中存放,做為一般學術研究使用,而在申請和收費機制上則套用原本申請HPC服務的流程。
而對於較強調資料安全或隱私的政府和企業來說,國網中心則提供了另一種專用的大資料分析平臺,除了有設置專門空間來存放機敏或企業內部資料,因而在資料保護上更為安全外,還可依照企業或政府分析需求,來提供客製化分析服務。此外,企業在將資料匯入國網中心的大資料平臺後,直接從遠端網路就能進行操作,並取得分析運算的結果。至於收費方式則將依專案方式來個別處理。
至今,這個大資料分析平臺,除了已提供國網中心內部使用外,也有部份學術單位和政府機構開始採用,像是有與清大合作運用在果蠅腦神經資料庫研究分析,或協助建置災害管理資訊整合平臺,以及運用在水利署的河川、橋樑水位監測的分析運算上。
科技會報辦公室科技創新組主任柴惠珍表示,由國網中心推出上線的大資料分析平臺,未來將扮演推動政府大資料應用的重要橋樑,不只是協助政府做大資料分析,也將做為跨機關的資料共享平臺,建立起政府資料流通機制,讓各機關的資料也能有更多互通管道。
但柴惠珍也坦言,現階段政府在大資料推動過程中仍有不少挑戰得要克服,除了政府資料量累積不夠多以外,這些拿來分析的政府資料,大多仍以結構化資料為主,而對於非結構化的資料,像是影音、圖片、PDF 檔等,要拿來分析還是有其困難。
此外,許多政府機關在推動大資料分析的心態上仍趨於保守,始終堅信將資料放在機關內部最安全,因此對於要將資料拿來放入國網中心來分析仍抱持疑慮,因而躊躇不前。
而要解決這些問題,柴惠珍認為,政府得要建立政府資料計價方式,來鼓勵政府各機關將資料釋放出來,例如,透過年度考績或增加預算等獎勵機制,不只讓政府機關願意將資料放置國網中心來使用,也提供更多部會機關來分析利用,而這也將是接下來推動政府大資料得優先解決的課題。