市值全球第2名的中國電商阿里巴巴,旗下諸多服務包括阿里巴巴B2B平臺、淘寶拍賣網、天貓B2C商城,還有中國最大的第三方支付平臺支付寶等, 而這些服務所產生的資料全歸一個人管,那人是中國阿里巴巴數據技術及產品部副總裁車品覺。
車品覺以8年打滾於資料界的經驗,以及在阿里巴巴實務應用下發展出「數據10誡」,現已修正到了4.0版本。作為阿里巴巴集團的資料最高領導人,車品覺說,他是虔誠的資料信仰者,喜歡用資料做決策解決問題。
企業要用資料解決問題,首先要履行數據10誡的第一條,清楚定義欲分析解決的問題是什麼?車品覺舉例,現在中國各大都市都極力發展智慧城市,但是對於城市來說,什麼樣的建設或是應用才能稱為智慧,他說,如果沒有定義智慧城市,那就難以衡量專案的成效,「定義問題是從知道到不知道的過程。」
雖然資料科學議題很夯,企業有許多問題都能從資料中找出答案,但也「不是每一個問題都是資料的問題,不是每一個問題都是大資料的問題。」車品覺說,要知道該問題是否能靠資料解決,必須先思考5件事,以明確了解需要解決的問題,「這是什麼問題?誰的問題?這問題你來解決嗎?需要現在解決嗎?資料能解決嗎?」當這5個問題的答案皆為是,那或許就是當下可以靠資料解決的問題。
阿里巴巴大資料心法:數據10誡 4.0版 |
1. 一切從定義「問題」開始,已知到未知的過程 2. 先假設資料都能獲取來思考問題,包括衍生及循環思考 3. 讓資料來幫助描述、診斷、預測以及行動建議 4.「快+準」的資料能從已知規律中產生價值 5.「廣+亂」的資料能從發現中顛覆已知 6. 大資料不是獨奏,而是不斷連接無處不在的資料 7. 大資料技術就是加速和累積「資料、分析與服務」的能力 8. 資料生態的連接需要建立標準與規範 9. 大資料是來自很多小資料的組合 10. 資料是一種信仰! 資料來源:車品覺,iThome整理,2015年09月 |
然而不少企業知道要解決的問題,卻苦無解決問題的資料,車品覺認為,思考問題解法時,不能把沒有資料當作藉口,因為現在可以取得資料的方式太多了。車品覺舉例,調查研討會的品質可以用最傳統的問卷,也能用科技的方法解決,只要在場內跟場外架設手機探測器掃描會眾手機ID,便能記錄會眾進出場內外的狀況,進一步分析演講品質。清楚定義分析的問題,不怕沒資料
車品覺另外舉了「快的打車」App的例子,他們想解決司機拒載乘客的問題,因此提供了評價的機制,當司機拒載的時候乘客得以反應,而這些評價資料也是在思考想解決的問題後才出現。所以「只要問題定義好, 需要的資料都存在,思考應該凌駕在資料技術之上,思考方法才是產生價值最重要的一點。」
以多面向歸納資料類型
因此資料並非不存在,重點在於企業能否周全收集資料,為了更清楚理解資料,歸納不同類型資料能發揮長處的時機,他用不同面向剖析資料。
首先,車品覺以能否預料以及意見正反作為X與Y軸,畫出四大象限描述企業所收集的資料。他舉例,餐廳紀錄客人的餐點,這是收集Expect Positive(預料中的正面)的資料,而Expect Negative(預料中的反面)的例子則是客人沒吃完餐點的紀錄,另一個電子商務例子則是,當有人到周大福買珠寶,記錄了客戶買了哪一個商品,這就是Expect Positive的紀錄,而調查客戶看了哪5個商品才買到了想要的戒指,則是Expect Negative,車品覺說,Expect Negative對於機器學習是重要的訓練樣本。
另外,他也依可用性將資料分為「快+準」和「廣+亂」2類。「快+準」的資料是那些企業能很快速地取得,或是經常性使用的資料,能從已知的規律中產生價值,能做的改善是加速資料更新的頻率,抑或是加速資料整合的速度,以更快速的做出決策,或許過去須3小時才更新資料,改進後期望能進步到即時。他認為,「快+準」的資料要思考的議題是「有沒有、準不準、細不細、全不全、穩不穩以及快不快。」
相對於「快+準」則是「廣+亂」,「廣+亂」的資料就是現今稱作大資料的類型,來源廣泛且格式多元,特性是能從發現中顛覆已知,車品覺認為,從「廣+亂」的資料中,才能發現意料之外的事情,因此從這些資料提煉出來的資訊也比較有明顯價值。
能有意料之的發現,正是資料的價值,品覺認為,大份人思考方法是演繹法形式,從已知推論未知,但是運用大資料技術可以逆轉這個程序。他以行銷作為例子,過去一項產品的行銷,企業會主動設定目標客群,或許是三十幾歲的女性等,針對這群人投放廣告,但是現在的方法,可以透過歷史的銷售資料,找出購買行為的特徵,逆向圈出目標客群。
車品覺也用時間維度分析資料特性,不同周期的資料所提供的價值也不一樣,以天為周期的資料可以描述狀況,而1周需要知道的則是,上星期做的決策是正確還是錯誤的,1個月就必須了解競爭對手的策略與狀態,1季就需要檢討組織是否達到設定的KPI。
資料從分析到應用,品質要求大不同
阿里巴巴使用資料最大的分水嶺在於「從看到用」,從資料用來分析現象,到用於控制全自動化的設備上。車品覺分享前些日子所做的工作,正是以自動化無人機器取代一整個既有的部門,他說,在那個時候他領悟到,資料的目的直接影響對資料品質的要求,因為用於分析觀察還是實際使用,需要的資料屬於不同等級。
他提到,像是無人機器的動作控制,需要多個複雜模型交互作用,而穩定且充足的資料來源是必要條件,在他們找出實際可用資料的過程,發現有很多資料的基本功沒扎穩,像是資料須達高可用性等項目,需要一塊一塊的補上。
而當企業達到沒有資料就無法提供服務的狀態,就如同無人機器沒有足夠的資料就無法動作,車品覺認為,「此時企業就走在對的道路上」。也因為資料的重要性提升,企業看待資料中斷應該要等同於IT系統錯誤一樣的嚴重,一旦資料出錯就必須有人負責。
不只是無人機器的控制需要有非常完整的資料,在很多情境下,當沒有完整的資料描述事件發生的細節,企業往往會把事件原因歸於運氣。在零售業中,顧客的購物慾望可能起始於朋友推薦,經過了商品搜尋以及品牌官網收集資訊,顧客逛了電子商務網站,最後卻在大賣場購買,這樣的過程或許看似大賣場比較幸運最後成功銷售商品給這位顧客,但其實不然,過程中有許多企業應該要知道的資料。像是顧客信用卡的還款時間,因為要繳交信用卡的費用感到心痛,因此購物慾望下降,此時要顧客消費是困難重重,這雖然只是一項小資料,卻也是整個顧客購物鍊很重要的一環,車品覺認為,企業應該檢視所蒐集的資料是否完整,因為企業忽略顧客的資料,有時候對結果影響甚巨。
車品覺直言「大資料是一種能力,企業要有愛因斯坦的大腦以及健壯的身體」,大資料能力組成的因素有思想、血液以及骨骼,思想就是資料運算邏輯或模型等,血液則是企業的資料,而骨骼便是最基礎的硬體設備。
車品覺說,從以前必須求老闆看看他做的資料,到現在老闆會挑剔他準備的資料沒有用,他認為,這是企業利用資料進化的結果,他發現美國許多企業不只擁有資料科學家,甚至還多了決策科學家,負責用資料替公司訂定決策。