【中國北京現場報導】全球最大的資料倉儲與大資料分析公司Teradata(天睿公司),今天(5/6)於中國北京舉辦2016 Teradata大數據峰會,這已經是第16屆Teradata Universe大會,除了30場主要議程之外,現場展示了資料分析、開源服務等主題,以及一系列的大資料視覺化圖,吸引了上千名金融、電信等各產業的資料分析領域專家及高階主管參與。
今年特別將「開源融合」這四個字放進大會主題,可以看到這個過去39年專注於資料倉儲、資料庫及資料分析領域的老牌大資料公司,現在也開始要進一步,積極擁抱並且推動開源技術。而2年前收購的大資料技術整合與諮詢公司Think Big,就是他們將觸角延伸企業,協助企業有效部署自己的資料湖、打造如Hadoop、Spark、Kafka、HBase等大資料平臺及採用各項開源套件應用的關鍵角色。Think Big於2010年成立,目前已經在美洲、歐洲、亞洲的11個國家設置辦公室,包括Facebook、Intel、Netapp、NASDAQ、美國運通等都是他們的客戶,Think Big也在近日正式宣布進入中國市場,目前整個大中華區已經是Teradata全球第二大市場,僅次於美國。
Teradata大中華區首席執行長辛兒倫今日在大會上表示,Teradata除了提供資料分析解決方案、產品與服務,讓企業選擇在公有雲、私有雲或混合雲環境中運行之外,他們的關鍵任務之一,就是要協助企業建立資料分析的生態系統,也就是先前推出的統一資料架構平臺UDA(Unified Data Architecture)。
UDA可用來整合並分析所有類型的資料,支援Aster資料庫、開源技術如Hadoop、R語言,也支援SAS、MongoDB及Oracle資料庫等。目前Teradata主要產品還包括基於開源Kafka專案的產品Teradata Listener、可以無縫查詢多個異質資料庫的QueryGrid平臺、Aater圖像式的資料挖掘探索平臺,此外,在資料分析層,也支援R、Spark,Giraph等,並支援多項BI存取工具如Tableau。
大資料分析需求已無法用單一平臺或技術來滿足
辛兒倫以近兩、三年間的業務推動經驗,歸納出三大維度的資料類型與分析應用需求,包括在深度上,需要更快速地整合分析來自企業跨部門之間,屬於關係性強、結構性強的業務型資料;寬度上,企業開始需要進一步融合公司內、外部的資料,屬於關係不明確、且結構不清晰的大資料,最後則是在跨度上,於產業內,甚至各產業之間,建立跨界的資訊共享機制。
他也提到了資料分析流程,從IT資料部門與公司內外部的最終用戶,定義出一個共同認可的價值場景,並進行資料採集、獲取、整合與建立模型、查詢以及分析應用的流程。在這個過程中,通常會面臨到的問題,包過不同資料來源的資料結構程度不同、各應用場景要求的資料精確度不同、資料分析應用要求的反應敏捷度不同、各種資料來源間連結上的關係性不強或是不確定,資料對每個場景的價值與含金量不同,以及各資料本身的易用性也有落差。
辛兒倫表示,當今資料分析專業領域,已經無法採用單一平臺,或是單一技術,來有效處理這些大資料分析需求。因此,如何有效解決資料之間求同存異的共同需求,建立資料管理體系及架構,整合統一管理資料,提升使用者滿意度,成為所有企業皆可能面臨的最大課題。
延遲綁定與支援JSON、非結構化資料是現今的關鍵資料處理方法
Teradata全球技術長Stephen Brobst則介紹了現今資料分析的關鍵作法與技術,包括採用延遲綁定(Late Binding)的資料處理模式,及支援JSON(JavaScript Object Notation)語法及非結構化資料,其中,延遲綁定技術與以前的作法不同,不會在取得資料時便定義資料結構(Schema),而是在要使用資料時,也就是需要查詢、讀取時才建立資料結構,以保留其資料應用的靈活性,而Teradata的做法便是將JSON當作資料庫第一層,當要讀取資料時再決定資料的結構。
Stephen Brobst也提到,Teradata推出的QueryGrid技術,可無縫查詢多個異質資料庫,採用QueryGrid的UDA架構中,可以包含如儲存客戶資料的Teradata 6800、紀錄Session路徑的Aster平臺、Hadoop叢集中的非結構化文件、R伺服器網格(R Server Grid),及用來記錄點擊流量的Teradata 1700等,Teradata透過這樣可串連多種資料來源的統一架構,並整合許多既有的軟硬體,來協助企業打造資料分析生態系統。
企業資料若無法將資料治理做好,所部署的資料湖最終只會淪為無用的資料沼澤
Stephen Brobst將企業進行資料探索的流程分為蒐集(Capture)、治理(Curation)及分析(Analysis)三大部分,其中蒐集包括從內、外部將資料採集至儲存平臺中,供資料工程師或資料科學家來存取使用,在治理方面,企業需找到適當的資料結構,來對應不同的資料儲存體,建立可描述資料儲存模式與欄位的中介資料,並對多個儲存體進行整合以進行週期性管理。最後分析部分,才是找出資料之間的關聯性以及可進行分析預測的Pattern。
而他認為,現在企業最大的問題是,在資料治理這部分做的不夠好,且多數企業不願意去正視這個問題,因此,儘管許多企業都已經建立資料湖(Data lake),把大量資料透過低成本的方式存到同一個地方,但是卻沒有讓資料湖中的資料發揮最大價值。
Stephen Brobst指出一項Gartner在2015年揭露的調查與預測數據,到2018年時,全球將有高達9成的資料湖會失去價值,這些已部署的資料湖將充滿過多因不確定性案例而採集的資料資產不堪負荷。Stephen Brobst認為,企業使用資料湖的方式是錯的,且不應該用資料湖的規模大小來衡量成功,此外,很多時候,企業會將重複的資料丟到資料湖中,卻並未對這些資料加以管理或有效應用,或是對於已經放進資料湖中的資料不夠了解,若是如此,即使存放了再多資料,最終只會成為無用的資料沼澤(Data Swamps)。
他認為,治理就像是對資料集持續進行管理與維護,而最容易被忽略的事情是不斷去追蹤這些內、外部資料的來源(Provenance),以及對已建立資料集(Data asset)進行使用和操作,此外,缺乏對資料與資料來源的關聯性,導致對資料品質不信任,而產生資料重複複製,或是重複操作的狀況,降低資源利用效率。而要掌握資料來源,得知道誰在什麼時候建立了這筆資料資產、建立這項資產的原始數據來源為何、建立該資料資產使用了哪些處理流程、這些資料資產已知的缺陷為何,以及所使用的演算法等。
Teradata大中華區首席執行長辛兒倫表示,目前Teradata主要產品還包括基於開源Kafka專案的產品Teradata Listener、可以無縫查詢多個異質資料庫的QueryGrid平臺、Aater圖像式的資料挖掘探索平臺,此外,在資料分析層,也支援R、Spark,Giraph等,並支援多項BI存取工具如Tableau。
Teradata全球技術長Stephen Brobst表示,延遲綁定技術(Late Binding)與以前的作法不同,不會在取得資料時便定義資料結構(Schema),而是在要使用資料時,也就是讀取時才建立資料結構,而Teradata的做法便是將JSON當作資料庫第一層,當要讀取資料時再決定資料的結構。
Teradata全球技術長Stephen Brobst將企業進行資料探索的流程分為蒐集(Capture)、治理(Curation)及分析(Analysis)三大部分,其中蒐集包括從內、外部將資料採集至儲存平臺中,供資料工程師或資料科學家來存取使用,在治理方面,企業需找到適當的資料結構,來對應不同的資料儲存體,建立可描述資料儲存模式與欄位的中介資料,並對多個儲存體進行整合以進行週期性管理。最後分析部分,才是找出資料之間的關聯性以及可進行分析預測的Pattern。
Stephen Brobst認為,現在企業最大的問題是,在資料治理這部分做的不夠好,且很多企業不願意去正視這個問題,他指出一項Gartner在2015年揭露的調查與預測數據,到2018年時,全球將有高達9成的資料湖會失去價值,這些已部署的資料湖將充滿過多因不確定性案例而採集的資料資產不堪負荷。