免费高清特黄a大片,九一h片在线免费看,a免费国产一级特黄aa大,国产精品国产主播在线观看,成人精品一区久久久久,一级特黄aa大片,俄罗斯无遮挡一级毛片

分享

英特爾至強E5

 靖勛山人 2016-04-08

ZD至頂網(wǎng)服務器頻道 04月01日 新聞消息:英特爾公司今天正式發(fā)布了已經(jīng)稍稍延后亮相的至強E5 v4服務器處理器。

這批芯片屬于2014年至強E5 v3方案的繼任者,前代產(chǎn)品使用22納米制程以及Haswell微架構(gòu)。英特爾公司將Haswell制程縮小至14納米,并添加其它一些調(diào)整設計,最終將其命名為Broadwell。

各服務器與工作站處理器早在2015年就開始將Broadwel納入發(fā)展藍圖?,F(xiàn)在Broadwell-EP至強E5 v4終于登場,且主要面向橫向擴展型服務器。

至強E5-2600 v4處理器概述

英特爾至強E5-2600 v4:一場面向編程者的處理盛宴

上圖所示為新一代至強E5 v4芯片參數(shù)概要以及與上代v3版本的對比結(jié)果。其中E5-2600可最高容納22個計算核心或者單插槽44個硬件線程,最高55 MB三級緩存,支持2400 MHz內(nèi)存以及DDR4寫入CRC。每個計算核心擁有2 KB一級緩存與32 KB指令一級緩存,外加256 KB二級緩存。

更多計算核心,小小的架構(gòu)調(diào)整再加上制程縮小使得Broadwell獲得了全面超越Haswell的能力。

英特爾至強E5-2600 v4:一場面向編程者的處理盛宴

上圖為雙插槽至強E5-2600 v4陣容,其中14C代表著14核心。圖表中還提供各款處理器的功率水平與時鐘速率,可以看到基本上在2.4 GHz上下浮動。如果大家緊跟硬件市場形勢,那么這些產(chǎn)品不久后就將開放訂購。另外,至強E5 v4能夠與E5 v3 Grantley芯片實現(xiàn)插槽兼容。

好了,現(xiàn)在概述已經(jīng)完成,接下來說點更有用的。

核心如何排布

與Haswell一樣,英特爾的Broadwell同樣采用總線對稱環(huán)狀結(jié)構(gòu)將物理CPU核心與緩存及外部加以對接。在高核心數(shù)量芯片當中,例如包含22個計算核心與72億晶體管,處理器擁有由兩套互連機制構(gòu)成的兩套獨立環(huán)狀結(jié)構(gòu)。其一負責對接QPI以及PCIe第三代接口,而兩套環(huán)還共同與自身內(nèi)存控制器通信且各擁有兩條通道。

三級緩存則被拆分為塊,每個塊被插入計算核心對應的環(huán)狀總線結(jié)構(gòu)。當某個計算核心訪問內(nèi)存時,所請求的物理地址會進行散列處理并利用結(jié)果定位環(huán)中的緩存位置以作為緩存行保存區(qū)。環(huán)內(nèi)的三級緩存片段并非被指定至其對應的核心; 相反,這些片段亦可包含來自其它核心的數(shù)據(jù)。其散列算法使得英特爾方面能夠?qū)?nèi)存請求分發(fā)至整套結(jié)構(gòu)當中。一條緩存請求所帶來的緩存尋址任務大約需要占用十幾個CPU周期,整個計算過程旨在保證以最短路徑將發(fā)出請求的核心與承載該數(shù)據(jù)的緩存位置對接起來。

英特爾公司的工程師們并沒有透露其實際使用的算法,因此大家無法調(diào)整內(nèi)核以確保各核心能夠解析與其距離最近的緩存塊。換言之,我們無法利用算法最大限度降低內(nèi)存的物理延遲。

在下圖中,我們可以看到高核心數(shù)量處理器內(nèi)的兩套環(huán)狀系統(tǒng),外加英特爾針對低核心數(shù)量處理器給出的設計方案。

英特爾至強E5-2600 v4:一場面向編程者的處理盛宴

英特爾至強E5-2600 v4:一場面向編程者的處理盛宴

微架構(gòu)調(diào)整

英特爾方面預計,Broadwell的單線程性能在每秒指令執(zhí)行能力上約較Haswell高5%。根據(jù)我們得到的消息,其利用細微調(diào)整實現(xiàn)了這一提升。

向量的浮點乘法指令MULPS與MULPD已經(jīng)將延遲周期從5個降低至3個。同樣的,各類浮點除法指令(DIVSS、DIVSD、DIVPS以及DIVPD)亦實際了延遲削減。舉例來說,256位單精度向量計算由Haswell的20個周期降低至16個周期,而雙精度計算則由34個周期降低至22個周期。純量計算將被一分為二且并行執(zhí)行。

ADC、CMOV以及PCLMULQDQ指令(后者用于AES加密)現(xiàn)在亦得到細微調(diào)整,從而加快執(zhí)行速度。翻譯緩沖器(簡稱TLB)也已經(jīng)將STLB數(shù)量由1000項增加至1500項,同時分支地址預測與返回亦得到改進,這一切都稍稍提升了執(zhí)行效率。Boradwell當中包含大量此類小型調(diào)整,從而更為順暢地完成代碼執(zhí)行任務。

運行混合運算時提升能源利用效率

英特爾利用向量數(shù)學手段調(diào)整AVX指令,從而幫助處理器降低時鐘頻率以節(jié)約功耗。在此之前,當英特爾處理器核心運行AVX代碼時,封裝內(nèi)的全部核心都會進行頻率降低。但在Broadwell上,未運行AVX代碼的核心不會被拖慢,這意味著其將獨立正常運行。換言之,Broadwell能夠在互不干擾的前提下實現(xiàn)AVX與非AVX軟件的混合處理。

英特爾至強E5-2600 v4:一場面向編程者的處理盛宴

在某一核心在一定時間周期內(nèi)未運行任何AVX指令時——具體約為1毫秒——其會重新恢復時鐘頻率。如果大家的服務器應用中包含大量高強度浮點運算任務,那么新一代處理器將解決此前困擾著各位的AVX性能縮水難題。

加密加速

英特爾公司指出,其已經(jīng)能夠加快AES加密外加ECDSA、RSA以及DSA簽名與驗證速度,這要歸功于Broadwell芯片將PCLMULQDQ指令從7個周期降低至5個周期,同時引入了新的加密算法指令。此次引入的兩條新指令分別為ADOX(使用溢出標記輸入/輸出的無符號整數(shù))以及ADCX(使用進位標記輸入/輸出的無符號整數(shù))。采用新芯片及其新增指令的服務器將能夠更快完成加密、解密以及個人數(shù)據(jù)驗證任務。

英特爾至強E5-2600 v4:一場面向編程者的處理盛宴

上圖所示為8核心Broadwell至強D(2 x 8 GB內(nèi)存)對18核心Haswell至強E5-2699 v3(4 x 32 GB內(nèi)存)之性能比較,二者皆在Linux環(huán)境下利用OpenSSL-1.0.2-beta3進行加密測試。舉例來說,Boradwell至強在利用2048位密鑰執(zhí)行RSA驗證時,速度可達Haswell的1.5倍。

另外值得一提的還有RDSEED,其負責利用隨機值實現(xiàn)偽隨機數(shù)生成器(簡稱PRNG),這一機制在強加密方案中非常關(guān)鍵。

Broadwell還引入了管理模式訪問保護(簡稱SMAP)機制。其允許內(nèi)核在控制寄存器(CR4)中設置一個標記以阻止內(nèi)核模式代碼訪問用戶模式內(nèi)存。如此一來,應用程序中的受信底層代碼就不會受到意外篡改——無論是有意還是無意。內(nèi)核可以暫時取消該標記以禁用這項檢查,從而幫助用戶應對確實需要訪問進程內(nèi)陸址空間的情況——例如在維護系統(tǒng)調(diào)用的同時對應用程序數(shù)據(jù)進行拷入/拷出。

順帶一提,曾曝出問題的事務性同步擴展(簡稱TSX)在Broadwell中重新回歸——包括至強E5 v4。

英特爾至強E5-2600 v4:一場面向編程者的處理盛宴

TSX允許程序員標記出代碼中臨界區(qū)的起始與結(jié)束點,并在執(zhí)行內(nèi)存特定區(qū)域訪問時對其進行監(jiān)控。指向內(nèi)存的寫入與讀取將被重新定向至硬件緩沖區(qū),而且在臨界區(qū)的結(jié)尾,數(shù)據(jù)將被自動提交至內(nèi)存當中。

如果有兩個線程試圖在同一時間對特定部分內(nèi)的同一數(shù)據(jù)進行修改,該緩沖區(qū)將被棄用,而線程則回滾至臨界區(qū)的起始處。接下來,處理器會利用傳統(tǒng)的鎖機制掛起其中一個線程,并允許另一線程首先運行。

因此,如果兩個線程正在使用同一數(shù)據(jù)結(jié)構(gòu)中的不同部分,那么二者將互不干擾也無需使用鎖機制:處理器會將每個線程視為一個原子性事務。開發(fā)人員可利用受限事務內(nèi)存(簡稱RTM)或者硬件鎖省略(簡稱HLE)以標記臨界區(qū)。

通過避免使用鎖并采取優(yōu)化執(zhí)行機制,軟件能夠更為順暢地完成數(shù)據(jù)處理:數(shù)據(jù)庫能夠更快處理事務,應用則無需浪費太多時間與資源??紤]到其復雜性,我們非常理解英特爾為什么要用兩代處理器才能將其實現(xiàn)。

緩存無處不在

英特爾公司推出一套名為資源管理技術(shù)(Resource Director Technology)的功能集,其核心作用在于幫助操作系統(tǒng)監(jiān)控軟件對緩存資源的使用方式。操作系統(tǒng)能夠為線程、進程或者整個虛擬機分配一個資源監(jiān)控ID(簡稱RMID)。當某一線程按規(guī)劃運行時,其內(nèi)核會獲得獨特的RMID,同時將其寫入至一套特殊的每核心CPU寄存器(IA32_PQR_ASSOC,即PQR)。在線程的執(zhí)行過程中,其訪問的任何內(nèi)存都會利用RMID被記錄在PQR當中。

在此之后,該內(nèi)核將由CPU利用其RMID進行遙測,從而允許其讀出三級緩存占用等信息。Boradwell微架構(gòu)服務器芯片所能支持的RMID數(shù)量為Haswell的兩倍,另外其亦可監(jiān)控內(nèi)存帶寬使用情況。

英特爾至強E5-2600 v4:一場面向編程者的處理盛宴

另一大緩存機制為服務分類(簡稱CLOS)。內(nèi)核可利用一組服務質(zhì)量(簡稱QoS)分類進行處理器進行編程,其中每種分類擁有對應的緩存占用水平定義。在每次背景切換時,該內(nèi)核會同樣利用PQR寄存器為接下來需要運行的線程、進程或者虛擬機分配一個分類ID。當該線程訪問內(nèi)存時,處理器會提取其分類ID并提供與該分類對應的緩存容量。如此一來,線程或者進程就不會出現(xiàn)緩存資源沖突,例如三級緩存副本循環(huán)或者預期外的數(shù)據(jù)覆蓋。

最后沖刺:虛擬化更新

至強E5 v4提供公示中斷機制,而英特爾也為此宣傳了相當長一段時間。具體來講,虛擬機管理程序能夠直接將硬件中斷路由至虛擬機當中。一般來講,當中斷被觸發(fā)時,當前運行中的訪客虛擬機會被迫停止并由虛擬機管理程序負責處理硬件請求——這一虛擬機退出過程往往需要占用大量時間以及成百上千個CUP周期。在此之后,虛擬機管理程序需要繼續(xù)對自身進行中斷或者調(diào)度一套虛擬機處理這項任務。

而公示中斷允許虛擬機管理程序?qū)PU進行編程,從而確保中斷操作直接指向訪客并能夠在虛擬機之內(nèi)進行處理——無需退出當前虛擬機管理程序。公示中斷還能夠進行分段,這樣當前正在運行的虛擬機能夠繼續(xù)完成自身的高優(yōu)先級任務,而被分配為執(zhí)行最新中斷操作的訪客則被排在其后。這意味著虛擬機管理程序能夠避免在每次中斷操作時于各虛擬機間往來切換,而相關(guān)延遲自然也將不復存在。

英特爾至強E5-2600 v4:一場面向編程者的處理盛宴

這種作法的優(yōu)勢非常明顯:這意味著虛擬機能夠更快反映硬件事件,同時提升延遲敏感性任務的性能表現(xiàn)。英特爾方面將公示中斷機制視為網(wǎng)絡功能虛擬化(簡稱NFV)系統(tǒng)中的必要組成部分——順帶一提,這類系統(tǒng)旨在將計算機網(wǎng)絡負載由硬件移交給軟件負責實現(xiàn)。負責處理軟件包交換任務的虛擬機必須能夠?qū)崟r反映輸入中斷,而虛擬機管理程序則不再需要對其進行停止、中斷處理以及調(diào)度。在公示中斷機制的幫助下,無需退出虛擬機即可實現(xiàn)來自硬件的通知提醒。

在使用公示中斷機制將以太網(wǎng)卡中斷直接發(fā)送至運行有netperf基準測試的虛擬機時,英特爾表示256比特數(shù)據(jù)包的每秒傳輸數(shù)據(jù)僅相當于原有系統(tǒng)的59%,而1 KB數(shù)據(jù)包的傳輸性能亦增強了19%。

英特爾至強E5-2600 v4:一場面向編程者的處理盛宴

另一項虛擬化增強為頁面修改記錄(Page-Modification Logging)。當軟件對內(nèi)存頁面進行修改時,處理器將在系統(tǒng)的頁面表結(jié)構(gòu)當中為該頁面入口設置一個“dirty”位。這項機制擁有多種用途,其一在于了解哪些頁面會在內(nèi)容被寫入磁盤時遭到清除,其二則是了解哪些頁面將運行中的應用程序由一臺設備遷移到了另一臺。

舉例來說,如果我們在服務器A上運行一款程序,而后希望將其遷移至服務器B,且服務器B的內(nèi)存中已經(jīng)承載了該程序的只讀可執(zhí)行文件與初始狀態(tài)信息,那么大家肯定只希望遷移內(nèi)容有所區(qū)別的其余部分。

對頁面表中的全部“dirty”位進行檢查顯然是件苦差事,特別是在實時遷移場景之下。因此,英特爾方面的頁面修改日志(簡稱PML)在內(nèi)存中保留這樣一份日志,其grok速度要遠超實際頁面結(jié)構(gòu)。

英特爾至強E5-2600 v4:一場面向編程者的處理盛宴

英特爾方面熱衷于開發(fā)其實時遷移技術(shù),因為這也正是網(wǎng)絡功能虛擬化的關(guān)鍵性部分。軟件定義網(wǎng)絡的一大核心賣點就是根據(jù)實際需要遷移及向外擴展工作負載的能力。如果遷移過程耗時太長,那么電信客戶將無法忍受由此帶來的服務中斷。

其它新消息

還有哪些新消息?此次至強E5 v4將采用硬件控制型功耗管理(簡稱HWPM)機制,其能夠幫助處理器更好地在不涉及操作系統(tǒng)的前提下實現(xiàn)功耗管理。這一新選項可隨意配置及關(guān)閉,而操作系統(tǒng)則可提供提示以幫助用戶了解CPU該如何在功耗與性能之間取得平衡點?;旧希琀WPM意味著處理器能夠自行實現(xiàn)更理想的P-狀態(tài)。

最后,英特爾還提供新的處理器追蹤功能以實現(xiàn)深層調(diào)試:其能夠向內(nèi)存中寫入數(shù)據(jù)包以描述軟件相關(guān)分支與事件,同時通過控制寄存器CR3內(nèi)的指針及其處于用戶還是內(nèi)核模式等指標進行執(zhí)行追蹤過濾,外加其它多種面向底層開發(fā)者的硬核選項。

面對供應商發(fā)布的基準測試結(jié)果,我們當然應該保持審慎的態(tài)度。不過下圖所示為至強E5 v4家族之內(nèi)的比較結(jié)果——即全新E5-2699 v4與E5-2699 v3間的內(nèi)戰(zhàn)——應該還是比較可信的。

英特爾至強E5-2600 v4:一場面向編程者的處理盛宴

可以看到,從v3 Haswell到v4 Broadwell的基準測試性能提升到約1.2倍,而且后者比前者還要多出4個計算核心。以上提到的不少指標都是首次出現(xiàn)。E5-2600 v4基本上屬于在微架構(gòu)層面做出改進,且主要面向向外擴展服務器——即用于構(gòu)建云及軟件定義網(wǎng)絡的硬件設備。

這是新一輪E5-2600家庭聚會,而至強的特色也依然鮮明。我們將其插進設備,而后接入互聯(lián)網(wǎng),就這么簡單。這不僅給了需要升級硬件的IT部門一個有力的更新理由,同時也讓開發(fā)者們能夠更好地享受由公示中斷、TSX以及新型加密指令所帶來的便利。一年一次的升級能夠做到這樣已經(jīng)足夠了,而英特爾的至強系列也憑借著這樣的堅實腳步在數(shù)據(jù)中心計算機市場上獲得了99%份額占比。

    本站是提供個人知識管理的網(wǎng)絡存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多