Intel
針對資料中心的2路伺服器應用,英特爾今天(3月31日)正式推出v4系列的新一代Xeon E5-2600處理器(代號為Broadwell-EP),距離先前的v3系列(代號為Haswell-EP)首度發布,v4系列花了超過1年半的,比起前幾個系列之間的間隔,都要來得長久。
這次Xeon E5-2600 v4的推出,各種應用層面的效能提升,自然是重頭戲。跟v3相比,運算速度超越的幅度最高可達44%;在虛擬化應用環境當中,因為支援直接送入中斷請求(Posted Interrupts)的機制,延遲可降低到8倍之多;在網路互連的環境下,v4處理器搭配英特爾Omni-Path Architecture的網路Fabric架構,能夠比v3處理器平臺傳輸的訊息量高出24%。
對於儲存應用上,Xeon E5-2600 v4繼續強化了ISA-L程式庫(Intelligent Storage Acceleration Library)的性能。跟開始支援ISA-L的Xeon E5-2600 v3相比,效能提升了一些,但相較於不支援ISA-L的Xeon E5-2600 v2或是停用ISA-L的v4環境下,增長幅度更為明顯。例如針對密碼雜湊運算處理工作,像是SHA-256、SHA-512、MD5,啟用ISA-L的v4最高可提供8.2倍效能;對於資料保護的作業,像是RAID-5、RAID-6、Erasure Code,啟用ISA-L的v4效能是3.3倍。
擁有88個執行緒的2路伺服器
在英特爾最新發表的Xeon處理器當中,E5-2699 v4這款產品最高可提供22顆實體核心、44個執行緒,因此,若在2路伺服器搭配兩顆E5-2699 v4,理論上可獲得44顆核心、88個執行緒。而我們在英特爾舉辦的新品發表工作坊活動期間,看到他們在現場特別設置了一臺測試設備,裡面安裝Windows Server 2012 R2作業系統,我們不只親眼目睹搭配這顆處理器的2路伺服器,並且從工作管理員看到系統的確能支援88個執行緒。
採用14奈米製程,內建運算核心衝破20大關
這批處理器都導入Broadwell微架構,並使用了更為先進的14奈米製程(v3系列是22奈米),現有Xeon E5-2600 v3處理器所搭配的LGA 2011-v3插槽(或稱為Socket R3),新的v4系列處理器一樣相容,因此現有針對Xeon E5-2600 v3系列處理器所設計的伺服器,均能搭配。
除了設計製程,v4系列處理器在硬體規格與過去產品最為顯著的差異是,頂級的Xeon E5-2699 v4內含的實體核心,最大可達22顆,L3記憶體容量高達55 MB,若啟用超執行緒(Hyper-Threading)技術之後,可提供44個執行緒;若以搭配2顆2699 v4的伺服器組態而言,單臺設備就擁有44核88緒。
而在前代Xeon E5-2600 v3系列處理器當中,頂級的2699 v3最大可提供18顆實體核心、36個執行緒,L3記憶體容量為45 MB。新舊款Xeon E5-2699處理器的基礎頻率分別為2.2 GHz與2.3 GHz,有些出入,但熱設計功耗都是145瓦。
2路伺服器配1.5 TB記憶體不是夢!英特爾鬆手,Xeon E5正式支援更大量的記憶體
就搭配的系統記憶體規格而言,Xeon E5- 2600 v3和v4都是DDR4,但在支援的最高存取速度規格又更上一層樓,到達2400 MT/s(v3支援到2133 MT/s)。而對於DDR4記憶體規格的支援,Xeon E5- 2600 v3已經開始支援4通道的存取方式,而對於每條通道,可支援3支RDIMM或LRDIMM規格記憶體的配置,到了v4,又額外支援了3DS(three-dimensional stacking)LRDIMM規格的記憶體──它是近年來相當受到矚目的記憶體,相較於傳統的封裝堆疊方式,3DS LRDIMM不只提供更大的容量,能源使用效率與執行效能也較佳。
在記憶體的穩定度與可靠度確保機制上,Xeon E5- 2600 v3支援錯誤修正檢查(ECC)、巡查抹除(Patrol Scrubbing)、需求抹除(Demand Scrubbing),以及冗餘(Sparing)、鏡射(Mirroring)、連續同步模式(Lockstep Mode)、針對x4/x8記憶體的單一裝置資料修正(SDDC)。到了v4,英特爾增加針對DDR4記憶體寫入的循環冗餘校驗(CRC)容錯支援。
此外,對於新推出的v4系列處理器,英特爾終於正式放寬了2路伺服器搭配的記憶體容量,最大可達1.5TB。因為,若你使用的伺服器是v3以前的Xeon E5-2600系列處理器平臺,最大記憶體僅支援到768 GB。
有趣的是,許多廠商在先前推出的Xeon E5伺服器當中,有不少機型的記憶體規格上,已經標示最大容量可達到1TB或1.5TB,但是,相對地,在英特爾官方公布的規格裡面,始終沒有正式認可這件事。
不論過去如何,2路伺服器能搭配超過1TB的記憶體容量,終究成為定局。在更早之前,用戶必須購買支援Xeon E7系列處理器的伺服器,才能獲得如此巨大的記憶體延展性,而這類設備通常搭配的是4路或8路的處理器組態。
但現在居然在Xeon E5-2600系列處理器平臺上,利用較為平價的2路伺服器,就能支援TB等級的記憶體,對於想要大規模導入記憶體內運算(In-Memory Computing)應用的企業來說,將是一大福音,因為當企業能以價格相對低廉的2路伺服器,來支配超大量的記憶體資源使用,將可省下相當多費用。
針對虛擬化,新增直接置入中斷請求與記憶體分頁修改記錄
在Xeon處理器架構與功能推陳出新的過程中,強化伺服器虛擬化應用效能,一直是歷代伺服器平臺發展的重頭戲,最知名的研發成果,就是VT(Virtualization Technology)系列指令集。
到了Haswell微架構之後,該公司又加入了VMCS(Virtual Machine Control Shadowing),因此採用該架構的Xeon E5-2600 v3處理器平臺,對於巢狀虛擬化應用(nested virtualization,也就是在虛擬化環境當中,再建立一層虛擬化環境)更加得心應手。
因為,這麼一來,能將最外層/最底層(根)Hypervisor的權限控管,延伸到所模擬的裡層(Guest)Hypervisor上──在這裡所執行的應用程式,將會耗用最少的效能,不會嚴重影響到整體伺服器與其他虛擬機器的運作。該功能有助於雲端服務業者使用,因為IaaS租戶將因此能對本身所用的Hypervisor環境,獲得更大的主控權,而不需要業者介入協助。
而在下一代的Broadwell微架構當中,英特爾又加入新的虛擬化應用特色,例如:直接置入中斷請求(Posted Interrupts)、記憶體分頁修改記錄(Page Modification Logging,PML),以及虛擬機器進出延遲減緩(VM Enter/Exit latency Reduction)。這些新的加速機制,都在採用該架構的Xeon E5-2600 v4系列處理器開始提供。
直接置入中斷請求
以Posted Interrupts來說,是在Hypervisor存取虛擬機器時,若進入VM-exit狀態時,不需要每次都提出中斷處理請求,系統可將中斷處理視為已經寫入到記憶體上,只在必要時,才會對虛擬機器送出中斷處理。
不論是系統要指派裝置,或是在執行遷移虛擬處理器的作業,都可以更有效率地導引中斷請求。這種新的作法,還可以搭配Xeon E5-2600 v2之後,所新增的APIC虛擬化(Advanced Programmable Interrupt Controller Virtualization,APICv),改良虛擬環境下的中斷處理效能。
免除了VM-exit相關的中斷處理之後,成效有多大?根據英特爾本身的測試,對伺服器裡面執行的虛擬機器而言,平均的網路存取延遲可縮短8倍以上,而網路吞吐量最高可提升41%。
記憶體分頁修改記錄
Xeon E5-2600 v4與虛擬化應用相關的新特色當中,PML是針對兩臺虛擬化主機之間的自動容錯切換。在兩臺相互備援的伺服器虛擬環境下,處理器將會針對另一臺提供容錯機制的次要虛擬化主機(secondary host),定期進行快速檢查(Rapid Checkpointing),查核主要的虛擬化主機(primary host)的可靠度(Availability),以及網路連結(Link),確認狀態是否異常。一般而言,檢查點的資料將會傳送到備援的主機上,等到檢查點套用後,來自主站點的I/O作業就會停止,不會持續連線、佔用頻寬;一旦主要虛擬化主機發生故障,備援虛擬化主機就能透過這種方式回復、接手相關的工作。
比起純粹基於VM層級的容錯備援機制,現在能運用這種方式,將可減少許多不必要的負擔。就運作原理而言,Page Modification Logging的功能,主要是建立在Haswell架構新增的EPT A/D(Extended Paged Table Accessed/Dirty bits),透過硬體機制,提供記憶體區塊殘留位元資料(Dirty bits)的分頁記錄表,可加速虛擬化軟體執行切換這些工作負載的效率,甚至還可以提升虛擬機器的線上不停機遷移(Live Migration)效率,連帶受惠。
虛擬機器進出延遲減緩
Xeon E5-2600 v4新增的第三個虛擬化特色,則是VM enter/exit Latency Reduction,主要效果是減少VM存取狀態改變時所引發的額外負擔。
這項機制是從Haswell架構就開始發展,當虛擬機器在切換為VM-enter或VM-exit時,延遲大約需要5百個週期,而到了Broadwell架構,可減少至400個週期,因此採用該架構的Xeon E5-2600 v4的VM存取延遲,也跟著降低。
提升多種運算指令集的執行效能,強化安全性處理能力
針對安全性應用的強化,也是這次Xeon E5-2600 v4發布的重點特色。根據英特爾內部進行的測試結果,相較於v3,這一代的Xeon處理器平臺在進行金鑰加密演算法時,每核心效能的提升幅度可達到70%。
這部分的改進,主要是因為英特爾在Broadwell微架構下,新增了ADCX/ADOX的指令集,並且降低ADC、SBB、PCLMULQDQ等指令集的執行延遲度,進而能夠針對現行基於RSA、ECC、SHA等演算法的各種安全通訊初始協定,提供加速處理的效果。
以ADCX和ADOX指令集為例,主要針對的是大型整數運算,可用於公鑰的加密處理,它們是基於ADC指令集而演變出來的作法,差異在於搭配不同的旗標行為(flag behavior)——ADCX運用Carry旗標,而ADOX是運用Overflow旗標,當中也運用了在Mathmatica 這類應用軟體支援的GNU多重精度程式庫(multiprecision library),以及常見的RSA公鑰加密處理技術。
而對於ADC、SBB、PCLMULQDQ的加速處理,Xeon E5-2600 v4改善的部分是針對演算法的延遲性,而且,執行相關運算的程式碼不需重新編寫。此外,處理器執行ADC/SBB指令集時,將能在單一運算週期內完成工作;至於PCLMULQDQ的運算,也將從7個週期減至5個週期。
除了這些與演算法相關的安全性特色,Xeon E5-2600 v4也針對系統執行的架構增加了保護機制,稱為管理者模式的存取防護(Supervisor Mode Access Protection,SMAP),這是一種透過處理器的機制,來保護使用者模式下的記憶體位址空間存取。
英特爾早在Xeon E5-2600 v2時期,就提供了OS Guard(Supervisor Mode Execution Prevention,SMEP)防護技術,而SMAP也是很相似的技術,但防護面向不同。
兩者的差別在於:SMEP預防的目標,主要是透過使用者記憶體分頁來執行管理者模式的行為;而SMAP所要抵擋的,則是特別針對另一種藉由管理者模式,到使用者記憶體分頁來存取資料的可疑行為。
最後,在伺服器虛擬化應用的安全防護上,Xeon E5-2600 v4也特別新增了一個名為#VE(Processor Virtualization exception)的功能。這項技術可強化伺服器平臺偵測潛藏惡意程式的能力,並且以處理器即時判斷的機制,預防零時差的應用程式漏洞攻擊,透過這種不需完全仰賴作業系統層級以上的記憶體深度檢測機制,英特爾希望能降低相關的防護負擔。
虛擬化效能增強是Xeon E5歷代發展重點
在系統的效能強化上,每一代Xeon E5-2600系列處理器都會增添一些針對伺服器虛擬化應用環境的特色,早期是發展與擴充VT系列指令集,到了最近則是聚焦在更細緻的底層資源管理,像是v2新增的APICv,v3加入的VMCS、EPT A/D,而最新推出的v4系列,則增添了Posted Interrupts、Page Modification Logging,以及VM enter/exit Latency Reduction等特色。
Posted Interrupts演進歷程
關於伺服器虛擬化環境的中斷處理作法,可分為3個時期:最早是基於Hypervisor(VMM)的軟體APICv,來進行所有的外部中斷處理,VM-exit也會經過VMM執行的軟體APICv,對於少量的VM-exit切換還可以應付。
接下來,從Xeon E5-2600 v2開始,是能夠搭配處理器內建的硬體式APICv機制,可因應少量的VM-exit切換,但外部中斷處理仍須經由VMM的軟體APICv來遞送。
在Xeon E5-2600 v4所支援的Posted Interrupts下,可透過軟體傳送或直接進行外部中斷處理,並同時搭配上述的處理器硬體APICv的作法,如此將能支援SR-IOV的網路介面應用,以及直接穿透虛擬層的Direct I/O周邊裝置指定。
專攻虛擬化主機備援容錯的PML架構
Xeon E5-2600 v4加入了Page Modification Logging(PML),可針對工作負載的層級,提供系統容錯能力,如此能為虛擬化的企業關鍵應用系統環境,提供高可靠度的保護機制。PML主要運用了Rapid Checkpointing的作法,對於VM層級容錯機制所產生的額外負擔,可望因此降低。
Xeon E5-2600系列最近三代處理器的規格比較 資料來源:英特爾ARK網站,iThome整理,2016年4月 |
【相關報導請參考「英特爾新伺服器平臺登場」】