Quantcast
Channel: iThome
Viewing all articles
Browse latest Browse all 31418

玉山資料科學團隊心法大公開

$
0
0

在本土銀行業者中數位轉型布局較為積極的玉山銀行,除了在2000年開始隨即實驗電子支付,近年更是成立了資料科學團隊,開始用大數據分析各通路、實體分行及用戶的特質。

帶領玉山銀行資料科學團隊的玉山銀行資訊處協理郭健男表示,在玉山銀行成立24年以來,經營團隊團清楚地以10年為1個單位,訂定每階段所要達成的目標。他表示,最開始20年的玉山銀行,已經完成兩階段任務,能夠提供用戶專業服務,「第3個10年,我們則鎖定利用科技,來實現玉山銀行的業務目標。」

郭健男表示,資料科學經常處理過往不曾碰過的新問題,過程中必然會碰上許多失敗、挫折。但是為了走向創新,公司高層也給予資料科學團隊相當大的空間進行實驗,「這也是玉山銀行資料科學步調較快原因。」

資料科學就如同採礦

雖然大數據、資料科學聽起來好似企業的萬靈丹,彷彿導入後所有問題都可以迎刃而解。但是打造良好的資料基礎環境仍然是必備品。光是資料的收集、整理、萃取及邏輯化,就耗費玉山資料科學團隊將近8成的力氣。

「我喜歡用採礦的概念比喻資料科學」,對郭健男來說,原始資料就像富含礦產的寶山,在收集資料過程中,就如採礦挖到一堆沙土,但是價值最高的資訊都隱藏在其中,首先得經過許多清洗、整理,「讓一開始的原始資料,變成有意義的資訊。」

在玉山資料科學團隊中,資料處理分析人員可分成三大團隊。第一是資料倉儲團隊,再者商業智慧分析團隊,最後則是資料科學團隊,除了許多具備管理資料倉儲、BI經驗的人員參與,「其中約有10位資料科學家,利用非傳統的BI方式,對資料進行探索,尋找新興業務價值。」

而所有玉山銀行資料的源頭,都是來自於資訊處建置的資料倉儲。而資訊處得負責將資料整理、建模等加工過程,讓其他部門的使用者可以迅速地進行分析或是繪製報表。

「資料是有生命周期的」,從最開頭資料的產生、收集、梳理,到歸納邏輯及規格化,最後則是產生實際加值應用,而每個步驟都需要不同專業團隊。因此,玉山銀行資料分析團隊也多是按照此流程依序分工。郭健男舉例,像是資料整理、收集,則交由資訊單位的某部門負責,資料的後端應用,則交給業務單位使用。另外,根據各單位所職掌相異的業務,如客群分析、行銷管理、風險管理、經營管理的性質,玉山銀行也會配置不同專長的資料分析人員。

然而,銀行內部擁有許多客戶個人資訊,包含姓名、性別、電話及消費紀錄等私密資料,在資料科學的應用中,玉山銀行不免會碰上資料去識別化的議題。

而郭健男強調,在資料倉儲中,每一用戶也都會給予一組獨特亂數,資料分析人員則是針對用戶屬性進行分析,並不需要知道分析對象的身份。同時,客戶個人資料都已經進行去識別化,無從得知分析對象的個資。如有產生客戶名單需求,則可以利用亂數,在資料倉儲中找到相對應用戶身份,「但這並非分析人員擁有的權限」,利用職權分割,不論是前端資料分析、後端應用,沒有任何資料分析人員可以看見完整客戶資料。

從靜態KYC資料轉為收集動態CRV資訊

在2006年時,玉山銀行也開始重視客戶資料的獲取及分析,並且產生客戶價值風險(Client's Risk &Value,CRV)分析方式,要利用既有內部的客戶KYC(Know Your Customer)資料作為基礎,近一步地加強分析細膩度,讓用戶可以更細緻地被分群。

郭健男解釋,KYC是收集最基本的客戶資料,像是男、女、教育程度、收入,「但是這樣的資料是比較靜態的。」隨著時間,用戶的經濟狀況也會不停地改變。

他舉例,比方說一名客戶從20歲開始,以學生身份成為玉山銀行的用戶,到了40歲時則成為了一名卓越成功人士。用戶需求從原本基礎的存款、提款,開始多了結婚、購屋等需求,「在他的人生旅途中,我們得要推薦不同的金融商品,比方說外幣、定存,這些都可隨狀況調整。」

為了要加深用戶與企業間的關係,玉山銀行必須與其保持著動態連結,資料也要隨用戶的人生進程改變,也因此,玉山銀行才得從KYC,進一步跨向CRV,「這樣才能適時地理解客戶的狀況。」

不過,除了用戶最初登記的個人資訊,以及客戶與銀行互動所留下消費資料、信用卡紀錄等內部資訊,使用者近年大量使用行動裝置的風氣下,往往也會在臉書、部落格等社群平臺留下許多數位足跡,「消費者自己產生了許多動態資訊。」消費者現在也兼任生產者身份,產製許多資訊,演變為生產性消費者(Prosumer)。

在資料如此爆炸性的成長下,玉山銀行不能只仰賴內部營運蒐集來的資料,「還要從外部管道了解用戶,此時就開始產生大數據分析的概念了。」然而,串接外部資料的挑戰性相當高,相比於內部資料可以自行定義姓名、性別等資訊欄位,外部資料往往雜亂無章,掌握度也遠不及行內資訊。

在資訊獲取管道已經從企業內部延伸至外部社群的情況下,同時意味著對於企業可以對用戶現況有更深層認識。因此,玉山銀行得與時俱進,從過去以產品為中心的大量銷售行為模式,轉為以客戶導向的量身訂做行銷方案,「不對客戶產生無謂的干擾。」

這時,高命中率的精準行銷概念便油然而生,資料細緻度從較粗糙的KYC資料、客戶分群(Segmentation),進步到顆粒度最細的個人化,「過程中我們需要借助科技的力量幫我們實現。」

在2006年前,玉山銀行資料的應用範疇是最基本的資料倉儲應用,例如產生法規報表、經營報表等資訊。

在2006年及2009年之前,資料分析應用的主力則著墨在BI範疇,並開始推廣客群經營、精準行銷的概念。雖然近兩三年玉山銀行已經踏入資料科學的領域,「但它不是一步到位」,目前玉山銀行仍然持續經營BI的應用。

對於用戶狀況的理解,也得從靜態轉為動態。郭健男舉例,假設過去A客戶的嗜好為打網球,在近期卻熱衷於游泳。此類的動態資訊無法從KYC的管道得知,必須主動從外部資訊渠道取得。這時便可向A客戶多推銷游泳的產品,「這類的情境式行銷,理解用戶的速度越快,效果越好。」

或是以銀行業務相關的案例為例,若分析用戶在網路平臺的點擊行為,發現A使用者經常瀏覽日本旅遊景點的資訊,便可推估客戶或許有出國旅行的需求,這時便可以推薦玉山銀行的外幣服務、雙幣信用卡,替消費者節省旅日刷卡時的額外手續費,改善使用經驗,「這就是恰到好處的行銷。」

然而從用戶長期不變的習慣,開始密切鎖定其短期行為的變動,其行為模式改變的軌跡,非BI能掌握的範疇,無從透過用戶在ATM領錢,或是銀行內部Log紀錄中理解,必須開始吸取挖掘外部管道資訊,「綜合不同的場合中觀察得知。」

比較傳統BI與資料科學本質上的差異

從BI應用演進至資料科學,兩者在研究資料本質的思維差異,也將對對玉山銀行帶來挑戰。在傳統BI中,企業能清楚了解資料帶來的洞見,像是產業性質、資料欄位的意義,但是一旦踏入了資料科學領域,企業則面對著海量資料,以及過去從未定義過的資料等未知領域,「我認為資料科學就像踏入一個不知其生態系統為何的森林」,唯有花時間走進去探索,才能了解它的真實相貌及意義。

相同的比喻套用至BI,內部資料的欄位都是企業自行定義,例如銀行存款用戶的姓名、教育程度、收入,「相當清楚此森林的面貌為何」,只要其他單位提出已經定義完成的條件,資訊單位馬上就可以根據其需求,過濾出符合要求的清單,快速、清楚取得所需要的答案,「但資料科學是一個探索的過程,過程中才會歸納出結果,找到行為模式,我不先預設題目、答案,但是要循著大方向前進。」

郭健男表示,在傳統BI的模式中,企業已經設定好條件,如同用篩網在資料中撈取需要的訊息,但是移轉至資料科學中,「我們喜歡分析小群聚的行為,從中找到一定的行為模式」,而後將其此模型挪用至更大的群集中分析,尋找能否也能找到類似的行為。

他解釋,無論是BI或者資料科學,都存在過濾資料、尋找模式的行為,但是在後者,資料科學家必須發覺資料中所存在的模式,再根據此結果,將群組間擁有類似行為的樣本都揀選出來,並非如BI般,利用既有條件直接將符合條件的樣本通盤過濾出來。

在資料科學在探尋行為模式的過程中,有時雖然能歸納出有邏輯、故事性的答案,得到符合邏輯規則若P則Q的解答,「但如果得不出符合邏輯的結果,就接受它吧!」郭健男笑著說。

企業內部資料不夠用,還要串接外部開放資料

在臺灣政府力推開放資料的政策下,企業除了內部資料應用,更多了大筆可以串接的外部資料集。但是這對於資料科學家,雖然是機會,但也是個嚴峻的挑戰。

銀行內部收集的資料,來源多半出自於用戶與公司互動所產生,大多也都是結構化資料,「這樣的資料不夠多樣化」,郭健男表示,目前玉山銀行在全臺總共有136家分行,如果只利用單一分行的營業數據做為判定該行表現的依據,而不把背景資料、各分行的獨特性列入考量,可能有失公正性。例如,當A分行的設立具有獨特戰略意義,刻意選在競爭激烈的區域內布局,當它表現不優於其他分行時,也是非戰之罪。

因此,光靠玉山銀行內部資料作為判斷依據,還不足以描述各個分行的特質,還要將背景資料納入評斷考量,例如人口資訊、所得資料、交通流量,甚至用電狀態,從多維度的角度分析,探究現象背後隱藏的故事、原因,「當把這些資料加入後,分行表現的排序評比也都不一樣了。」

目前,全臺灣總共有公布超過1萬多個開放資料集,不過,郭健男表示,玉山銀行目前經常串接的多半是金融、民生相關的資料。像是用電量報告,若使用得當,也能迸出特別火花。他表示,像是中國官方公布的資料包含了該地登記生產的工廠數量,但是如果僅名義上登記,實際上並沒有生產,此資料集也不能代表此區域的實際狀況。此時便可以從當地其他的民生資料切入,像是反應中國經濟的李克強指數,其中用電資料就是一個指標,如果該區有實際用電,就代表該地有生產行為,「越繁榮的商圈,用電量則越多,比起工廠登記數目還有意義。」

外部資料顆粒度仍過粗糙

玉山銀行串接外部開放資料時,也發現目前資料品質仍有改善之處,郭健男舉例,目前全臺灣ATM交易量及交易金額,都是以全國尺度釋出,「這樣的資料顆粒度太粗糙。」除了區域尺度外,資料統計時間也出現類似的問題,「大多以年、月為單位提供」,當資料統計時間能以星期,甚至每日為單位區間釋出,資料也會更具有參考性。

郭健男認為,顆粒度越精緻的資料富含的價值越高,比起已經經過梳洗的資料,他寧願想要複雜、未加工的原始資料,「因為資訊都是從很小顆粒的資料累積起,因此,取得最底層的資料很重要。」

他舉例,像是銀行某用戶今日帳戶結餘的數字,無法從中解讀特別的資訊,但若能提供該用戶帳戶一整日的操作行為資料,「這個行為軌跡就很重要,而不是看總結的數字。」

資料科學人才必須靠企業內部自行培養

然而,資料之於資料科學家,就如千里馬之於伯樂,空有一座資料寶山,沒有明眼人也無法察覺其價值,郭健男認為資料科學家必須經由一連串的培養,像是進入玉山資料科學團隊的成員,得要從瞭解玉山銀行內部資料開始打基礎,在培養資料素養後,才能接受多樣化的工作挑戰,「不能使用傳統的統計分析、BI觀念去審視資料。」

郭健男表示,玉山銀行的資料科學家具有一個重要人格特質,「那就是很喜歡問問題」,碰到工作作業流程不順暢之處,也會積極想要改善,並且具備不害怕改變的勇氣。在專業上,則需要具備三大專業能力:IT素養、產業知識,以及統計能力。

由於資料科學已經擺脫過去BI領域,使用現有套裝工具的機會也會大幅減少,因此團隊成員得要能使用R語言等工具,結合演算法及統計知識,自行開發統計分析工具。

同時,資料科學家也要對銀行內業務瞭若指掌,郭健男表示,玉山銀行所培養的資料科學家,每天都沈浸在銀行業務資料中,如果不熟悉內部資料欄位的意義,根本無法提供服務給第一線人員。「此外,我們得支援內部IT服務,要跟前線人員保持密切合作」,他表示,IT僅是實踐工具,而業務所包含的範圍、流程,也得跟一線工作人員討論、構思。

在累積一定程度的內部營運知識後,資料科學家也才能放手嘗試新的想法,例如,結合外部資料資料,產生一些新火花,因為「不了解基本運作流程,研究成果會很天馬行空,無法實際落地。」

不過,管理資料科學團隊同時也考驗著郭健男,必須給予資料科學團隊更大的嘗試空間,實驗不一樣的想法。在過去傳統BI思維之下,考慮到團隊生產力,會導入許多套裝軟體,提供建模、預測以及推薦等功能,加速成果產出的速度。「但碰上資料科學,我得要放慢步調,不要求馬上產出答案」,光是其中一個參數改變,就足以改變整體的行為模式。也因此,資料科學家得熟悉程式語言、統計工具及演算法,耗費精力使用非工具性的分析方式檢視資料。

資料科學應用無法一夕間在企業內部落地

不過,郭健男坦言,現階段資料科學的研究,還需要長時間的探索,才可以在企業內部落地,「我們有許多實驗性質的成果,但是還需要經過反覆驗證,才能成為常規」,由於銀行作業追求精確,不希望在產品仍處未成熟階段時就草草釋出。

他解釋,就像是機器學習應用,一開始也是從小規模樣本著手,逐漸修正、校對後,逐步在更大規模的樣本中驗證模型是否成立,「只要來回次數越多,精準度會越高」,像是蘋果人工智慧助理Siri,起初語音辨認準度也不夠精準,但是經由收集使用者回饋,近年系統辨認精確度也大幅提升。

而資料科學團隊的研究成果,最終也會經過業務單位檢驗、把關,確定具有商業價值後,才會正式變成產品,「創新與紀律,兩者位在天秤的兩端,而創新不可踰越紀律」,但郭健男表示,創新可以讓企業跳出過去的框架,重新檢視銀行業。而玉山銀行也不趕鴨子上架,急忙將研究成果變成例行作業,「模型需要不停的條件,大約經過兩年才有可能成為納入常規」,他笑著說,現在資料科學還積累著許多尚未實現的點子,等著資料團隊去研究。

態度是資料科學家最重要的人格特質

不過,稱職的資料科學成員也難尋覓,除了銀行業對於人格操守的要求,還得有鍥而不捨的人格特質,面對問題時,要一直採用新技術、做法及觀念審視,在日常工作中也要追求最佳化。但回歸一個人才的本質,「無論是技術、統計概念都其次,最重要還是態度」,郭健男認為,態度始終決定一個人的高度,不管任何產業都不會有所改變,「願意學習及接受挑戰,這才是我心目中最優良的資料科學家。」他說。


Viewing all articles
Browse latest Browse all 31418

Trending Articles



<script src="https://jsc.adskeeper.com/r/s/rssing.com.1596347.js" async> </script>