全球知名商業社群網站LinkedIn於3月3日宣布,開源旗下資料探勘軟體WhereHows,整合所有LinkedIn的資料處理環境,並且從中萃取元資料(Metadata),並加以管理,主要用於挖掘企業資訊,現在已於GitHub開放存取。
而WhereHows的名稱是由2個關於資料的重點所組成,一是資料從哪裡來(Where),二是資料是如何產生的(How)。WhereHows從各種資料來源蒐集元資料,並且標準化和模型化這些元資料,以及作為一種整合元資料的儲存庫(Repository),用於多種分析目的。
LinkedIn表示,WhereHows已經獲取5萬個資料集的狀態、1.4萬個評論和3.5千萬個工作實行和關聯性資訊,而這些資料分別儲存在Hadoop、Teradata或其他叢集,且占了超過15PB的儲存空間。
WhereHows提供開發者從API或Web應用程式存取資料,其中API提供其他資料處理和應用程式的自動化,而Web應用程式則提供搜尋、視覺化資料集間的關係、註解、討論、社群參與等功能。
而WhereHows主要由(1)資料儲存庫、(2)Web伺服器和(3)後端伺服器所組成,其中資料儲存庫用來儲存所有元資料內容,Web伺服器則是透過UI和API來呈現資料,另外,後端伺服器則會定期從其他系統抓取元資料。(WhereHows完整架構圖如下圖所示)
(圖片來源/LinkedIn)
另外,LinkedIn也計畫整合資料系統,如Kafka、Samza等,以及整合資料生命週期管理和配置系統,如Gobblin和Nuage,來強化WhereHows軟體與豐富元資料的蒐集。