近來Google公布今年第二季資料中心的用電數據,他們旗下所有資料中心的耗電指標PUE值(Power Usage Effectiveness)過去12個月的平均值為1.12,這一季的PUE值更只有1.11,比平均值更低,也意味著更加省電。
根據國際機房認證組織Uptime在2014年的調查,全球資料中心的平均PUE值為1.7,但Google資料中心遠遠比全球水準,還來得省電許多,除了機房硬體設施的特殊設計之外,另一個近2年才曝光的關鍵省電作法,就是用深度學習來找出冷卻用電的優化關鍵。
日前,Google更是運用了AlphaGo開發公司DeepMind的機器學習技術,無須改變機房設計,只靠軟體動態調整,就能讓冷卻設備整體耗電減少40%的成效,Google補充,即使在不同規模的能源消耗環境,這項技術也有能有幫助。
Google過去10年一直想要找出更好的機房節能作法,靠軟體或演算法來優化維運正是其中一項研發重點。Google在2014年初花了數億美元買下DeepMind公司後,也嘗試將DeepMind的機器學習技術,引進自家資料中心管理。DeepMind在一篇部落格文章中,揭露了優化機房管理的三大挑戰和Google的對策。
在資料中心用電中,最大宗是冷卻降溫的耗電。Google一座資料中心動輒有數千臺,甚至上萬臺伺服器,會產生大量的熱能,為了讓伺服器持續運作,必須靠冷卻裝置來消除熱能,保持一定範圍的溫度,不過,這些冷卻設備大多是大型的機電設備,像是抽風機、冷水機和冷卻塔等,Deepmind表示,在資料中心這樣的高度變動環境,很難準確地操作這些機電設備來降溫。
要精細地操作這些大型設備是一件非常複雜的工作,再加上機房環境的變數和設備操作方式,並非有一套明確的關連,而是一種非線性關係,Deepmind解釋,傳統以數學函式為基礎的預測方法和人類直覺判斷,無法精準地找出設備與機房環境的對應關係。例如不只無法快速反應機房內部變化,甚至還要考慮來自外部的影響,像是多變的天氣,開發人員不可能想出所有的規則,來配合每個維運操作場景。
再者,每個資料中心都有獨特的架構和環境,傳統的管理能源模型必須因應每個資料中心,設計出不同的模型,不能通用於其他資料中心,因此,為了解決這個問題,DeepMind兩年前開始用機器學習技術,開發智慧型系統,能了解每個資料中心與環境的相互關係(Interactions),讓資料中心的運作更有效率。
在過去一年來,DeepMind研究團隊與Google資料中心的團隊合作,利用深度學習和深度學習演算法,先來建立一個可以模擬Google資料中心耗電變化的模型,作為後續優化用電效能的參考框架。
Google近來公布今年第二季資料中心的用電數據,過去12個月的衡量資料中心機房用電指標PUE值為1.12,Google在過去19季都穩定地維持這樣出色的成績,而本季的PUE則是1.11,相比去年的1.12有微幅的下降。(圖片來源/Google)
Google資料中心如何聰明管理用電
為了達到改善資料中心的能源效率的目標,DeepMind希望能建立一個可以預測PUE值(Power Usage Effectiveness)變化的深度學習模型要。PUE值是經常用來衡量資料中心節能省電的指標,計算的方式是以「資料中心的總用電量」除以「資訊中心內IT設備的總用電量」,PUE值越低,代表機房空調冷卻所需電力就會更少。
Google在一座資料中心內設置了上千個感測器,收集過去環境的歷史數據,像是溫度、能量、抽水機速度、凝固點等,DeepMind將這些資料作為訓練這個PUE預測模型的輸入資料,並以真實PUE值作為對照預測結果的標籤。
這些資料包括了19種資料中心環境資訊,例如冷卻機抽水馬達和每一臺伺服器的用電量,或像是室外環境資訊如相對濕度、風速、風向等,還有從各個環控、電力、機電設備和感測器上取得的第一手原始數據,經過彙整處理後,作為預測模型的訓練資料。
檔案的匯入和匯出、數據過濾、計算原始變數等資料前處理的工作,DeepMind都是用Python 2.7,搭配資料科學計算相關套件Numpy 1.7.0和Scipy 0.12.0,之後再用Matlab R2010a來訓練模型,以及後續的處理分析工作。
DeepMind訓練了2個不同組合的深度學習模型,來預測資料中心一小時後的溫度和壓力變化。有了這套預測系統後,就可以用來模擬,不同建議維運作法對PUE值的影響,進而找出最能降低資料中心耗電的維運操作方式。這些維運操作例如像是加快資料中心內某一批風扇的轉速,或調高特定一臺冷卻機的制冷溫度等。
透過預測模型,找出可以降低PUE值的最佳操控方式後,Google進一步建立一個可以自動控制資料中心內環控設備、冷卻設備的系統,來自動套用哪些來自預測模型找出來的推薦作法。
簡單來說,Google利用真實資料中心環控數據和伺服器運作資訊,建立了一個全資料中心的PUE值預測模型,可以準確預測到95%以上的資料中心PUE變化。接著嘗試各種不同的環控設備調整、風扇、冷卻機,甚至是伺服器內應用系統運作的調整方式,來找出哪一種調整組合,可以節省更多耗電,來優化PUE值,最後,再透過自動化程式,自動將最佳維運操作設定,套用到實際的機房環控設備上來執行。
Google也實際在旗下一座資料中心使用這套機器學習控制的維運系統,結果發現,相較於Google原本的維運管理方式,一旦開啟了這套DeepMind機器學習維運系統,可以減少40%的冷卻用電,或相當整座資料中心的整體PUE也進一步再減少了15%,比過去任何一次的PUE值都更低。
因為該套利用機器學習管理資料中心維運的系統,並非是一套專用於特定資料中心,或是只能用來調校PUE值的模型,而更是一個可以運用在不同資料中心環境和複雜維運變項的通用架構,因此,Google還計畫未來幾個月內,擴大應用到全球其他資料中心,甚至能運用到其他產業的工廠維運應用,例如改善電廠能源轉換效率(Power Plant Conversion Efficiency),減少半導體製程上的用電和用水量。
Google在旗下一座資料中心實測,啟用DeepMind機器學習模型來動態調整冷卻機制後,減少了冷卻設備的耗電多達4成,也讓整體資料中心的PUE值還能再降低近15%。(圖片來源/DeepMind)
目前的挑戰是缺乏特定環境狀況足夠的真實數據
建立深度學習需要大量的數據,若是訓練樣本的數據品質不佳,或是數量不足,建立出來的模型容易不準確,DeepMind目前面臨的挑戰即是因為有些環境情況缺乏足夠的真實數據,就無法訓練出對應的預測模型,因此,收集到足夠且正確的資料中環境數據是非常重要的。
Google表示,從智慧型手機助理、影像辨識到翻譯,機器學習技術已經幫助人類許多生活上的事,不過,機器學習技術還可以處理非常具有挑戰性的問題,就像是能源消耗。
即使能源使管理上,Google已經在去年有突破性的成果,但是Google表示,未來還是會持續研究和改進。
Google機房省電5作法
花了10年以上的時間,Google研究出如何提升資料中心的用電效率,也累積了不少管理機房的作法,其中有5項作法,也值得企業參考,就算無法全盤照作,也可以參考其中一、二項作法或精神,來優化自家機房的省電效率。
作法1 確實測量PUE值
若是沒有量測機房的PUE值,就無法準確地管理用電,因此,企業必須追蹤資料中心用電量,一般產業也常用PUE值來作為衡量用電標準。
為了要準確地測量PUE,Google建議至少1秒就測量1次,更重要的是,要整年不間斷地測量,因為氣候會隨著季節改變,而影響PUE。
由於資料中心外部的氣溫也會影響用電,越寒冷的地區,所需要冷卻的用電量越少,因此PUE值也會比較低,舉例來說,根據Google針對每個園區的個別統計TTM PUE數據,最低的是在比利時,TTM PUE為1.09,本季最低PUE也是1.09,在比利時和芬蘭。
Google計算PUE值的方式是全面地計算用電效能,所有的資料中心都一併統計,並非只計算採用最新、最好設備資料中心,且統計PUE值是續一整年不間斷地測量,不是只在較寒冷的季節統計用電。
若使用產業中常用的標準來計算,Google機房可以交出更低的PUE值成績,且採用效能最佳的資料中心來計算的話,PUE值甚至可以小於1.06,但是,為了更準確地衡量和優化資料中心的用電表現,而不是僅顧及到其中一部分,Google堅持採用更高的標準,將所有的電力消耗來源都納入計算,而非只有照綠色網格PUE測量標準(Green Grid's PUE measurement standards)來計算。Google公布的每一季報告,都是涵蓋資料中心所有用電後,才來計算資料中心的後續12個月(TTM)PUE值。
資料中心設備包含許多不同的冷卻系統基礎建設,也會因資料中心位處的環境氣候而有所不同,季節型的氣候模式也會影響PUE值,較寒冷的季節,PUE就會比較低,不過,透過這套深度學習系統,就連炎熱且濕度高夏天,Google都能將PUE值維持在較低狀態。
Google用上百個功率表來測量能源消耗,用冷卻系統和IT設備上的不同功率表來追蹤能源消耗,計算出正確的PUE。
作法2 管理機房內部氣流
空調管理在資料中心的運作中,扮演非常關鍵的角色,好的隔離機制可以將熱氣和冷空氣的混合降到最低,避免冷熱空氣混合,進而減少冷卻用電。
Google建議用擋板將伺服器機櫃上的空隙擋住,避免伺服器產生的熱氣擴散,另外,Google也計算流體動力學(Computational Fluid Dynamics,CFD)相關數據,來建置熱能模組,藉由一些分析結果,可以協助企業了解資料中心設備的氣流特徵,有效地優化設備操作。
另外也要避免資料中心的冷熱氣流混合,因此,Google建議用擋板隔離伺服器機櫃上的縫隙,防止伺服器後端的熱通道與前端的冷通道混合,確保冷通道的冷空氣不受熱氣影響,有助於減少冷卻所需的總能量。
作法3 提高自動調溫器預設溫度並分散熱源
要節省資料中心的能源,最簡單的方法之一就是,提高自動調溫器的溫度。為何一般企業多將資料中心的溫度控制在華氏70度(大約攝氏21度),Google認為,這個答案一直是個謎,因為所有設備或伺服器,都能在更高溫度下運作,因此,Google資料中心的溫控預設溫度是調整到華氏80度(約攝氏26.67度)。
另外Google會建立資料中心的熱分布模型,來標記出資料中心內部所有的可能熱點(熱源),並將熱點平均分散,來避免局部高熱,而需要耗費更多制冷的能源。甚至在設備或伺服器進駐時,就考慮到熱源集中效應,來分散擺設。
作法4 善用免費冷卻機制
Google建議可以用水來替代冷卻器,大多數的資料中心都會用冷水機或是空調來降溫,不過這樣的方式,需耗費30%~70%的能源用量,Google採用水來冷卻資料中心的溫度,可以節省不少能源的消耗。
首先,Google在伺服器機櫃上客製了一套制冷機制稱為Hot Huts,可以將熱空氣離開伺服器前先暫時留住,避免熱氣直接釋出到機房中,來影響整體機房溫度。每一個Hot Huts頂端都有多個電扇,先透過水冷卻系統來降溫,再排進資料中心的環境中,就能讓伺服器接收到冷空氣,降低機器本身的溫度,形成良性循環。
接著,Google還善用蒸發的功能,冷卻塔就跟人類的身體一樣,即便外在的溫度比體溫還要高,蒸發能讓人類保持一定的溫度範圍,熱水從資料中心流到加速蒸發的冷卻塔時,有些水就變成蒸氣,風扇則會帶走這些蒸氣,最後冷卻塔再將冷水送回資料中心。
除此之外,冷卻水並非唯一免費的冷卻方式,位於芬蘭哈米納的資料中心則是用海水來冷卻機房,當初選擇在該地設置資料中心,正是因為寒冷的氣候條件,加上鄰近海灣的地理位置,Google設計抽取海水設備的冷卻系統,透過熱能交換器將熱送到海水中,這樣的模式能夠提供一整年的冷卻需求,直到目前為止,該機房尚未裝設任何一項冷卻的機器。
作法5 優化能源分配
Google指出,一般的伺服器在從事真正的計算工作前,就已經浪費1/3的能源,伺服器通常在交流電轉直流電的電源供應器上,耗費了許多電量,之後電壓調節器又需要耗費更多電力。
因此,建置客製化的高效能伺服器,將伺服器的功率損耗降至最小,並移除不必要的能源耗損,是非常重要的,另外也要確保伺服器在等待執行指令期間,消耗最少的能源。若是企業最初因成本考量,選擇低效能傳統伺服器,長期運作下來,將產生更多用電成本。
Google則是從2001年起,就一直研究如何設計出更有效率用電系統,經過多年的研究,Google目前採用效能高電源供應器、電壓調節器等設備,確保能源真正用在電腦核心的計算工作上,根據Google估計,每年每臺伺服器大約省下超過500度(kWh)的用電量。
硬體部分,Google也只留下執行應用程式必須元件,將不必要的元件都移除,像是外部連接器或是顯卡,另外也優化伺服器風扇運行,將風扇轉速控制在足夠讓機器維持可運行的溫度即可。