每當我們看到「機器學習」這個字眼,兩件事情立即浮現出來。第一,我們需要越多的數據學習資料,機器才能學習到越多。如果沒有數據資料就沒有什麼可以學習。一定要有大數據(Big data)嗎?因為透過大數據可以讓機器獲得更多的學習。這就是為什麼機器學習已經出現在每一個地方,透過指數倍增、堆積如山的數據資料,推動了機器學習的迅速發展。如果機器學習是某件你在超市購買的商品,那麼商品的紙箱上一定會特別標示「運作時只需要添加數據學習資料」。
第二,機器學習可說是一把能砍殺複雜怪物的利劍。只要給予足夠的數據資料,一套只有幾百行程式碼的學習程式就可以很容易產生一套數百萬條程式碼的軟體程式,而且可以針對不同的問題,一次又一次地做到這一點。這對軟體程式設計師來說,複雜性的降低是相當驚人的。當然就像九頭魔蛇海德拉一樣,就算我們砍斷舊的頭,複雜怪物依然會立即長出新的頭,但新生成的頭剛開始比較小,而且需要一段時間成長,所以我們仍然取得了大優勢。
企業為何擁抱機器學習?
隨著公司的成長,職場員工也經歷三個階段。早期,公司處處都是用人工完成一切,一位小型家庭自營式商店老闆,會親自了解客戶,而且他們會訂購、展示,並推薦相對應的商品。這種經營型態還算不錯,但沒有規模。在第二階段,也是最不快樂的階段,公司的發展擴大到需要開始使用電腦,因此開始招聘軟體程式設計師、顧問和資料庫管理人員,編寫出數百萬行程式碼,將公司所有能被自動化的功能完全自動化。還有更多的人被服務,但卻未必服務得一樣好,決策的制定可說是基於粗糙的人口類別,而電腦程式過於生硬死板,以至於無法匹配人類無限可能的多樣性。
第三階段,企業進入起飛轉折點,由於傳統缺乏足夠的軟體程式設計師和顧問,以滿足所有的客戶需求,所以公司無可避免地轉向機器學習。亞馬遜(Amazon)為了靈活將所有客戶採購喜好媒合,編寫在電腦機器學習程式中;臉書(Facebook)也強化編寫一套機器學習程式,對每位社群會員傳遞最佳、最期待的喜好資訊。全球最大零售公司沃爾瑪(Walmart)銷售數以百萬計產品,每天提供客戶數十億種商品購買選擇。沃爾瑪的軟體程式設計師更是試著編寫一套機器學習程式,滿足所有客戶需要的功能。這些公司所做的,就是採用機器學習演算法,把堆積如山的巨量數據資料進行資料探勘分析,並讓機器學習演算法推測出客戶想要的東西。
機器學習演算法可以稱得上是最佳媒合者,它們可以媒合生產者和消費者彼此接觸,克服資訊過載的問題。如果機器學習足夠聰明的話,你就可以從兩方面蒙受其益:在大規模方面,擁有大量的選擇與低成本;在小規模方面,可以具備個人化的風格。雖然學習器仍不盡完美,而且制定決策的最後一步,通常還是需要由人類來做判斷,但學習器可以睿智地簡化選擇,讓事情能控制在一個人可以管理的範圍之內。
機器學習的五大學派
由於在機器學習領域存有許多競爭的思想學派,所以我們在大演算的尋求過程,可以說是相當複雜,但也因此變得十分有趣。這些主要的學派包括符號理論學派(Symbolists)、類神經網路學派(Connectionists)、演化論學派(Evolutionaries)、貝氏定理學派(Bayesians)和類比推理學派(Analogizers)。每個學派都有一套核心理念,以及一個它最關心的特定問題。不過它已經針對這個特定問題,基於其相關領域的科學概念,找到一個適合的解決方案,並且擁有一個主要的演算法,可以適度體現它的機器學習行為。
對於符號理論學派來說,所有的智慧可以被簡化成操縱符號,就像數學家求解方程式的過程,是透過用其他表達式來替換表達式的方法。符號理論學派明白,你不能從頭學起,你需要一些初步的知識,與數據資料相配合。符號理論學派們已經找到了如何將先前存在的知識納入學習,以及如何快速地將不同的知識進行結合,以解決新的問題。
對於類神經網路學派來說,學習就是人類大腦所做的事情,所以我們需要做的,就是對大腦進行反向工程。大腦的學習是透過調整神經元之間的連結強度,而關鍵的問題是找出哪些神經元的連接,必須對哪些錯誤負責,並依此相對應地改變它們。
演化論學派則認為,所有學習之母就是物競天擇。如果物競天擇可以造就我們,那麼它就可以造就任何事情,而我們所需要做的,就是在電腦上模擬它。演化論學派所解決的關鍵性問題就是學習的結構,不只是調整參數而已,就像倒傳遞理論演算法所做的,可以創建一種能夠讓這些調整進行微調的大腦。
貝氏定理學派最關注的課題就是不確定性。這門學派主張所有學到的知識都是不確定的,而且學習本身就是一種不確定的推理形式。那麼這個問題就變成如何處理雜訊、不完整,以及相互矛盾的資訊,而不會造成分崩離析。
對於類比推理學派而言,學習的關鍵是認識各種情況之間的相似之處,從而推斷其他情境的相似地方。如果兩位患者都有相似的症狀,也許他們患有相同的疾病,問題的關鍵是要判斷兩件事情之間是如何相似。
針對各個學派的核心問題,每個學派都有提出相對應的解決方案,這些解決方案都是相當卓越,且得來不易的進展。然而真正的大演算,是必須同時解決這五類問題,而不只是一個。例如:為了治療癌症,我們需要理解在細胞中的代謝網路,哪些基因會控制其他基因,蛋白質控制因而會產生哪些化學反應,以及添加一個新分子的組合會如何影響網路。此時,機器學習若必須試圖從頭開始學習所有的知識,忽略生物學家已經煞費苦心,累積了幾十年得來的所有知識,那麼這種機器學習必定是愚蠢的。
機器學習觸動每個人的生活,它取決於我們所有的人,自主決定我們想要用它來做什麼。憑藉著你對機器學習的新理解,你處於一個更好的位置,可以去思考類似隱私和數據資料分享、未來的工作、機器人作戰,以及人工智慧的希望和危險等問題;如果我們有越多人擁有這樣的理解,我們就越可能可以避免重蹈覆轍,並找到正確成功途徑。
當機器學習就像一項新技術一樣,逐漸普及並且改變市場遊戲規則,若仍然只將這項技術視為黑盒子,那就不是明智之舉,反而無法透明地打開潘朵拉的盒子,辨識問題本質真偽。如今亞馬遜的演算法,讓世界各地任何人都能便捷決定要閱讀什麼書籍;美國國家安全局的演算法,可以判斷你是否為潛在的恐怖攻擊分子;氣候模型(Climate models)決定什麼是二氧化碳在大氣中的安全水平;選股模型(Stock-picking models)所驅動的股市交易量,甚至遠超過大多數人所做的。基本上,因為你無法控制自己不理解的東西,所以做為公民、專業人士,以及從事幸福追尋的人們,這就是為什麼你需要了解機器學習的原因。(摘錄整理自第一章、第二章、結語。)
大演算(The Master Algorithm) 佩德羅.多明戈斯(Pedro Domingos)/著 張正苓、胡玉城/譯 三采文化出版 售價:620元 |
作者簡介
佩德羅.多明戈斯(Pedro Domingos)
電腦工程博士,現任華盛頓大學電腦工程系教授,該系是全美前十大電腦工程名校。他初試啼聲聞名圈內是兩度在資料採礦大會上獲得最佳論文,並在此後成為該領域的意見領袖。他在專業領域內獲獎無數,還包含美國國家科學職業成就奬,他也是史丹佛大學及麻省理工學院客座教授。