嵌入式
返回首頁

英特爾發布重大技術架構的改變和創新,面向CPU、GPU和IPU

2021-08-20 來源:EEWORLD

英特爾驅動數據中心、邊緣和客戶端邁入下一個計算時代,直面未來工作負載和計算挑戰


2021年8月19日——在2021年英特爾架構日上,英特爾公司高級副總裁兼加速計算系統和圖形事業部總經理Raja Koduri攜手多位英特爾架構師,全面介紹了兩種全新x86內核架構的詳情;英特爾首個性能混合架構,代號“Alder Lake”,以及智能的英特爾?硬件線程調度器;專為數據中心設計的下一代英特爾?至強?可擴展處理器Sapphire Rapids;基礎設施處理器(IPU);即將推出的顯卡架構,包括Xe HPG微架構和Xe HPC微架構,以及Alchemist SoC, Ponte Vecchio SoC。


這些新架構將為即將推出的高性能產品注入動力,并為英特爾的下一個創新時代奠定基礎,以滿足世界對高計算能力日益增長的需求。


Raja Koduri強調了架構提升對于滿足這一需求的重要性:“架構是硬件和軟件的‘煉金術’。它將特定計算引擎所需的先進的晶體管結合在一起,通過領先的封裝技術將它們連接,集成高帶寬和低功耗緩存,并在封裝中為混合計算集群配備高容量、高帶寬內存和低時延、可擴展互連,同時確保所有軟件無縫加速。隨著桌面到數據中心的工作負載變得前所未有的密集、復雜、且多樣,今年公布的這些新突破也展示了架構將如何滿足對于更高計算性能的迫切需求。”


x86內核能效核


全新的英特爾能效核微架構,曾用代號“Gracemont”,旨在面對當今多任務場景,提高吞吐量效率并提供可擴展多線程性能。此高能效x86微架構在有限的硅片空間實現多核任務負載,并具備寬泛的頻率范圍。該架構致力通過低電壓能效核降低整體功率消耗,為更高頻率運行提供功率熱空間。這也讓能效核提升性能,以滿足更多動態任務負載。


能效核可以利用各種技術進步,在不耗費處理器功率的情況下對工作負載進行優先級排序,并通過每周期指令數(IPC)改進功能直接提高性能,這些功能包括:


?擁有5000個條目的分支目標緩存區,實現更準確的分支預測

?64KB指令緩存,在不耗費內存子系統功率的情況下保存可用指令

?英特爾的首款按需指令長度解碼器,可生成預解碼信息

?英特爾的簇亂序執行解碼器,可在保持能效的同時,每周期解碼多達6條指令

?后端寬度(Wide Back End)具備5組寬度分配(Five-wide allocation)和8組寬度  引退、256個亂序窗口入口和17個執行端口

?支持英特爾?控制流強制技術和英特爾?虛擬化技術重定向保護等功能

?實現了AVX指令集以及支持整數人工智能操作的新擴展


相比英特爾最多產的CPU內核Skylake,在單線程性能下,能效核能夠在相同功耗下實現40%的性能提升,或在功耗不到40%的情況下提供同等性能1。與運行四個線程的兩個Skylake內核相比,四個能效核所提供的吞吐量性能,能夠在功耗更低的情況下同時帶來80%的性能提升,而在提供相同吞吐量性能時,功耗減少80%。


性能核


英特爾全新性能核微架構,曾用代號 “Golden Cove”, 旨在提高速度,突破低時延和單線程應用程序性能的限制。工作負載的代碼體積正在不斷增長,需要更強的執行能力。數據集也隨著數據帶寬的需求提升而大幅增加。英特爾全新性能核微架構帶來了顯著增速同時更好地支持代碼體積較大的應用程序。


性能核擁有更寬、更深、更智能的架構:


?更寬:解碼器由4個增至6個,6μop 緩存增至8μop,分配由5路增至6路,執行端口由10個增至12個


?更深:更大的物理寄存器文件(physical register files),擁有512條目的重排序緩沖區


?更智能:提高了分支預測準確度,降低了有效的一級時延,優化了二級的全寫入預測帶寬


性能核是英特爾有史以來構建的性能最高的CPU內核,并通過以下功能突破了低時延和單線程應用程序性能的極限:


?相比目前的第11代英特爾? 酷睿? 處理器架構(Cypress Cove),在通用性能的ISO頻率下,針對大范圍的工作負載實現了平均約19%的改進


?呈現出更高的并行性和執行并行性的增加


?搭載英特爾?高級矩形擴展(AMX),內置下一代AI加速提升技術,用于學習推理和訓練。AMX包括專用硬件和新指令集架構,以明顯提高矩陣乘法運算


?減少時延,對大型數據和代碼體積較大的應用程序提供更好的支持


客戶端


Alder Lake客戶端SoC


代號為“Alder Lake”的英特爾下一代客戶端架構是英特爾的首款性能混合架構,它首次集成了兩種內核類型:性能核和能效核,以帶來跨越所有工作負載類型的顯著性能提升。Alder Lake基于 Intel 7制程工藝打造而成,支持最新內存和最快I/O。


Alder Lake將提供驚人的性能,支持從超便攜式筆記本,到發燒級,到商用臺式機的所有客戶端設備,它采用了單一、高度可擴展的SoC架構,提供三類產品設計形態:


?高性能、雙芯片、插座式的臺式機處理器 ,具有領先性能和能效。支持高規格的內存和I/O


?高性能筆記本處理器,采用BGA 封裝,并加入圖像單元,更大的 Xe 顯卡和Thunderbolt 4 連接


?輕薄、低功耗的筆記本處理器,采用高密度的封裝,配置優化的I/O和電能傳輸

構建如此高度可擴展架構的挑戰,我們需要在不影響功率的情況下滿足計算和 I/O 代理對帶寬超乎尋常的需求。為了解決這一挑戰,我們設計了三種獨立的內部總線,每一種都采用基于需求的實時啟發式后處理方式。


?計算內部總線可支持高達1000GBps——即每個內核或每集群100GBps,通過最后一級緩存將內核和顯卡連接到內存


o具有高動態頻率范圍,并且能夠動態選擇數據路徑,根據實際總線結構負載而進行時延和帶寬優化


o根據利用率動態調整最后一級緩存策略——也就是“包含”或“不包含”


?I/O內部總線支持可高達64 GBps,連接不同類型的I/O和內部設備,能在不干擾設備正常運行的情況下無縫改變速度,選擇內部總線速度來匹配所需的數據傳輸量


?內存結構可提供高達204 GBps的數據,并動態擴展其總線寬度和速度,以支持高帶寬、低時延或低功耗的多個操作點


英特爾硬件線程調度器


為使性能核和能效核與操作系統無縫協作,英特爾開發了一種改進的調度技術,稱之為“英特爾硬件線程調度器”。硬件線程調度器直接內置于硬件中,可提供對內核狀態和線程指令混合比的低級遙測,讓操作系統能夠在恰當的時間將合適的線程放置在合適的內核上。硬件線程調度器具有動態性和自適應性——它會根據實時的計算需求調整調度決策——而非一種簡單的、基于規則的靜態方法。


傳統意義上,操作系統會根據有限的可用數據做出決策,如前臺和后臺任務。硬件線程調度器可通過以下方式增加新維度:


?使用硬件遙測工具將需要更高性能的線程引導到當時適合的性能核上


?更精細地監控指令組合、每內核當前狀態以及相關的微架構遙測,從而幫助操作系統做出更智能的調度決策


?通過與微軟合作,優化英特爾硬件線程調度器在Windows11上的極佳性能


?擴展PowerThrottling API,使得開發人員能夠為其線程明確指定服務質量屬性


?應用全新EcoQoS分類,該分類可讓調度程序獲悉線程是否更傾向于能效(此類線程會被調度到能效核)


Xe HPG微架構和Alchemist SoC


Xe HPG是一款全新的獨立顯卡微架構,專為游戲和創作工作負載提供發燒級的高性能。Xe HPG微架構為Alchemist系列SoC提供動力,首批相關產品將于2022年第一季度上市,并采用新的品牌名——英特爾銳炫?(Intel?Arc?)。 Xe HPG微架構采用全新的Xe內核,是一款聚焦計算、可編程且可擴展的元件。


客戶端顯卡路線圖包括 Alchemist(此前稱之為DG2)、Battlemage、Celestial和Druid SoC。在演講中,英特爾展示了微架構細節,并分享了在試產階段的Alchemist SoC上運行的演示視頻,包括真實游戲展示,虛幻引擎5測試良好,全新的基于神經網絡的超取樣技術XeSS等。


基于Xe HPG微架構的Alchemist SoC能夠提供出色的可擴展性和計算效率,并擁有以下關鍵架構特征:


?多達8個具有固定功能的渲染切片,專為DirectX 12 Ultimate設計

?全新Xe內核,擁有16個矢量引擎和16個矩陣引擎(被稱為XMX,即Xe Matrix eXtension)、高速緩存和共享內部顯存

?支持DirectX Raytracing(DXR)和Vulkan Ray Tracing的新光線追蹤單元

?通過架構、邏輯設計、電路設計、制程工藝技術和軟件優化,相比Xe LP微架構實現1.5倍的頻率提升和1.5倍的每瓦性能提升1

?使用臺積電的N6制程節點上進行制造

英特爾顯卡設計的核心是軟件優先:

?我們正與開發人員密切合作進行Xe微架構的設計,力求與行業標準保持一致

?通過在一個統一的代碼庫中涵蓋集成和獨立顯卡產品的驅動設計,英特爾的第一款高性能游戲顯卡將性能和質量放在首位

?英特爾已完成了內核顯卡驅動程序組件的重新架構,特別是內存管理器和編譯器,從而使計算密集型游戲的吞吐量提高了15% (至多80%),游戲加載時間縮短了25%


XeSS


XeSS 利用Alchemist的內置XMX AI加速,帶來了一種可實現高性能和高保真視覺的全新升頻技術。其使用深度學習來合成非常接近原生高分辨率渲染質量的圖像。憑借XeSS ,那些只能在低畫質設置或低分辨率下玩的游戲也能在更高畫質設置和分辨率下順利運行。

?XeSS的工作原理是通過從相鄰像素,以及對前一幀進行運動補償,來重建子像素細節

?重構由經過訓練的神經網絡執行,可提供高性能和高畫質,同時性能提升高達兩倍1

?XeSS憑借DP4a指令,在包括集成顯卡在內的各種硬件上提供基于AI的超級采樣

?多家早期的游戲開發商已開始使用XeSS, 本月將向獨立軟件供應商(ISV)提供XMX初始版本的SDK,DP4a版本將于今年晚些時候推出


數據中心


下一代英特爾至強可擴展處理器(代號為“Sapphire Rapids”)


Sapphire Rapids代表了業界在數據中心平臺上的一大進步。該處理器可在不斷變化且要求日益增高的數據中心使用中提供可觀的計算性能,并對工作負載進行優化,以在云、微服務和AI等彈性計算模型上提供高性能。


Sapphire Rapids的核心是一個分區塊、模塊化的SoC架構,采用英特爾的嵌入式多芯片互連橋接(EMIB)封裝技術,在保持單晶片CPU接口優勢的同時,具有顯著的可擴展性。Sapphire Rapids提供了一個單一、平衡的統一內存訪問架構,每個線程均可完全訪問緩存、內存和I/O等所有單元上的全部資源,由此實現整個SoC具有一致的低時延和高橫向帶寬。


Sapphire Rapids基于Intel 7制程工藝技術,采用英特爾全新的性能核微架構,該架構旨在提高速度,突破低時延和單線程應用性能的極限。


Sapphire Rapids提供業界廣泛的數據中心相關加速器,包括新的指令集架構和集成IP,以在各種客戶工作負載和使用中提升性能。新的內置加速器引擎包括:


?英特爾?加速器接口架構指令集(AIA)——支持對加速器和設備的有效調度、同步和信號傳遞


?英特爾?高級矩陣擴展(AMX)——Sapphire Rapids中引入的新加速引擎,可為深度學習算法核心的Tensor處理提供大幅加速。其可以在每個周期內進行2000次 INT8運算和1000次 BFP16運算,實現計算能力的大幅提升。使用早期的Sapphire Rapids 芯片,與使用英特爾 AVX-512 VNNI 指令的相同微基準測試版本相比,使用新的英特爾AMX 指令集擴展優化的內部矩陣乘法微基準測試的運行速度提高了 7 倍以上,為 AI 工作負載中的訓練和推理上提供了顯著的性能提升


?英特爾?數據流加速器(DSA)——旨在卸載最常見的數據移動任務,這些任務會導致數據中心規模部署中的開銷。英特爾DSA改進了對這些開銷任務的處理,以提供更高的整體工作負載性能,并可以在CPU、內存和緩存以及所有附加的內存、存儲和網絡設備之間移動數據


這些架構上的改進使Sapphire Rapids能夠為云、數據中心、網絡和智能邊緣中廣泛的工作負載和部署模式提供開箱即用的性能。該處理器旨在通過先進的內存和下一代I/O,包括PCIe 5.0、CXL 1.1、DDR5和HBM技術,來推動行業技術轉型。


基礎設施處理器(IPU)


IPU是一種可編程的網絡設備,旨在使云和通信服務提供商減少在中央處理器(CPU)方面的開銷,并充分釋放性能價值。


英特爾基于IPU的架構有以下主要優勢:


?基礎設施功能和客戶工作負載的強分離使客戶能夠完全控制CPU


?云運營商可以將基礎設施任務卸載到IPU上,更大化實現CPU利用率和收益


?IPU可以管理存儲流量,減少時延,同時通過無磁盤服務器架構有效利用存儲容量。借助IPU,客戶可以通過一個安全、可編程、穩定的解決方案更好地利用資源,使其能夠平衡處理與存儲


英特爾認識到“單一產品無法滿足所有需求”,因此對其IPU架構進行了更深入的研究,并推出了以下IPU家族的新成員——均為應對多樣化數據中心的復雜性而設計。


Mount Evans是英特爾的首個ASIC IPU。Mount Evans是與一家一流云服務提供商共同設計和開發的,它融合了多代FPGA SmartNIC的經驗。


?超大規模就緒,提供高性能網絡和存儲虛擬化卸載,同時保持高度控制


?提供業界一流的可編程數據包處理引擎,支持防火墻和虛擬路由等用例


?使用硬件加速的NVMe存儲接口,該接口擴展自英特爾傲騰技術,以模擬NVMe設備

?采用英特爾?高性能Quick Assist技術,部署高級加密和壓縮加速


?可使用現有普遍部署的DPDK、SPDK等軟件環境進行編程,并且可以采用英特爾Barefoot Switch部門開創的P4編程語言來配置管線


Oak Springs Canyon是一個IPU參考平臺,基于英特爾?至強 D 處理器(Intel? Xeon-D)和擁有業界領先的功率、效率、性能的英特爾? Agilex? FPGA構建:


?卸載Open Virtual Switch(OVS)等網絡虛擬化功能以及NVMe over Fabric和 RoCE v2等存儲功能,并提供硬化的加密模塊,提供更安全、高速的2x 100Gb以太網網絡接口


?讓英特爾的合作伙伴和客戶能夠使用英特爾?開放式FPGA開發堆棧(英特爾?OFS)定制其解決方案,這是一款可擴展、開源軟件和硬件基礎設施


?使用現有普遍部署的軟件環境進行編程,包括已在x86上優化的DPDK和SPDK

英特爾N6000加速開發平臺,代號為“Arrow Creek”,是專為搭載至強服務器設計的SmartNIC。其特性包括:


?在功耗、效率和性能方面處于行業領先地位的英特爾Agilex FPGA。用于高性能的100GB網絡加速的英特爾以太網800系列控制器


?支持多種基礎設施工作負載,使通信服務提供商(CoSP)能夠提供靈活的加速工作負載,如Juniper Contrail、OVS和SRv6,它以英特爾PAC-N3000的成功為基礎,該產品已在部分業界一流的CoSP中部署。


Xe HPC和Ponte Vecchio


Ponte Vecchio基于Xe HPC微架構,提供業界領先的每秒浮點運算次數(FLOPs)和計算密度,以加速AI、HPC和高級分析工作負載。英特爾公布了Xe HPC微架構的IP模塊信息;包括每個Xe核的8個矢量和矩陣引擎(稱為XMX Xe Matrix eXtensions);切片和堆棧信息;以及包括計算、基礎和Xe Link單元的處理節點的單元信息。在架構日上,英特爾表示,早期的 Ponte Vecchio 芯片展示了領先的性能,在流行的 AI 基準測試中創造了推理和訓練吞吐量的行業記錄。1英特爾A0芯片性能提供了高于45 TFLOPS的FP32吞吐量,高于5 TBps的內存結構帶寬,以及高于2 TBps的連接帶寬。同時,英特爾分享了一段演示視頻,展示了ResNet推理性能超過43,000張圖像/秒和超過每秒3400張圖像/秒的ResNet訓練,并且這兩項性能都有望實現行業領先。


Ponte Vecchio由多個復雜的設計組成,這些設計以單元形式呈現,然后通過嵌入式多芯片互連橋接(EMIB)單元進行組裝,實現單元之間的低功耗、高速連接。這些設計均被集成于Foveros封裝中,為提高功率和互連密度形成有源芯片的3D堆疊。高速MDFI互連允許1到2個堆棧的擴展。


計算單元是一個密集的多個Xe內核,是Ponte Vecchio的核心。


?一塊單元有8個Xe內核,總共有4MB一級緩存,是提供高效計算的關鍵


?基于臺積電先進的N5制程工藝技術


?英特爾已通過設計基礎設施設置和工具流程以及方法,為測試和驗證該節點的單元鋪平了道路


?該單元具有極其緊湊的36微米凸點間距,可與Foveros進行3D堆疊


基礎單元是Ponte Vecchio的連接組織。它是基于Intel 7制程工藝的大型芯片,針對Foveros技術進行了優化。


?基礎單元是所有復雜的 I/O 和高帶寬組件與 SoC 基礎設施——PCIe Gen5、HBM2e 內存、連接不同單元MDFI鏈路和 EMIB橋接


?采用高2D互連的超高帶寬3D連接時延很低,使其成為一臺無限連接的機器


?英特爾技術開發團隊致力于滿足帶寬、凸點間距和信號完整性方面的要求

Xe 鏈路單元提供了GPU之間的連接,支持每單元8個鏈路。


?對HPC和AI計算的擴展至關重要


?旨在實現支持高達90G的更高速SerDes


?該單元已被添加到“極光”(Aurora)百億億次級超級計算機的擴展解決方案中

Ponte Vecchio已走下生產線進行上電驗證,并已開始向客戶提供限量樣品。Ponte Vecchio預計將于2022年面向HPC和AI市場發布。


oneAPI


oneAPI提供了一個開放、規范、跨架構和跨廠商的統一軟件棧,讓開發者能夠擺脫專有語言和編程模型的束縛。目前,NVIDIA GPU、AMD GPU和Arm CPU均有Data Parallel C++(DPC++)和oneAPI庫。oneAPI正在被獨立軟件提供商、操作系統供應商、終端用戶和學術界廣泛采用。行業領導者正在協助發展該規范,以支持更多的用例和架構。同時,英特爾還提供了商業產品,包括基本的oneAPI基礎工具包,它在規范語言和庫之外增加了編譯器、分析器、調試器和移植工具。


oneAPI提供跨架構的兼容性,提高了開發人員的生產力和創新能力:


?英特爾的oneAPI工具包擁有超過20萬次單獨安裝


?市場上部署的300多個應用程序采用了 oneAPI的統一編程模型


?超過80個HPC和AI應用程序使用英特爾oneAPI工具包在Xe HPC微架構上運行


?5月份發布的1.1版臨時規范為深度學習工作負載和高級光線追蹤庫添加了新的圖形接口,預計將在年底完成


前瞻性聲明


性能因使用、配置和其他因素而異。 基于測試的性能結果基于配置中顯示的日期,可能無法反映所有公開的更新信息。有關配置的詳細信息,任何產品或組件都不是絕對安全的。

所有產品和服務計劃、路線圖和性能數據如有更改,恕不另行通知。基于試產系統和組件得出的結果以及所有使用英特爾參考平臺(英特爾內部實例新平臺)、內部英特爾分析或架構仿真或建模進行預估或模擬得出的結果均僅供參考。未來任何系統、組件、規格或配置的更改均可能導致結果發生變化。英特爾技術可能需要啟用硬件、軟件或激活服務。

英特爾所使用的代號表示正在開發和沒有公開上市的產品、技術或服務。這些代號不是“商用”名稱,并不用作商標。


本文中涉及未來規劃和預期的陳述,均為前瞻性陳述,包含許多風險和不確定性。諸如“預期”、“期望”、“意圖”、“目標”、“計劃”、“相信”、“尋求”、“估計”、“持續”、“可能”、“將”、“應”之類的語句或與之類似的表述均代表前瞻性陳述。提及或基于估測、預測、推算、不確定事件或假設的陳述也為前瞻性陳述,包括有關未來產品和技術以及此類產品和技術的預期可用性和效益、市場機會以及我們業務或相關市場的預期趨勢。此類聲明基于管理層當前預期,涉及若干風險和不確定性,可能會導致實際結果與這些前瞻性陳述出現根本性不同。英特爾提交給美國證券交易委員會的文件中說明了可能導致實際結果與公司預期出現極大差異的重大因素,包括公司最近的 10-Q 和 10-K 報告。


英特爾不控制或審核第三方數據。您應該咨詢其他來源以評估準確性。


進入嵌入式查看更多內容>>
相關視頻
  • 嵌入式系統高級C語言編程(東南大學凌明)

  • From 0 to 1: Raspberry Pi and the Internet of Things

  • 清華大學Altera FPGA工程師成長手冊

  • 四旋翼公開課

  • 黑金ZYNQ fpga視頻教程

  • MDK的編譯過程及文件類型全解

    相關電子頭條文章
萝卜大香蕉