今年4月份,英特尔执行副总裁兼数据中心和AI事业部总经理Sandra Rivera曾在数据中心网络研讨会上表示,英特尔的至强产品路线图正在走向正轨,而从近日Hot Chips上英特尔披露的相关信息来看,至强产品不仅“走向了正轨”,而且有着非常大的性能突破。
众所周知,现如今数据中心所面临的工作负载大致上可以分为以下几类,一类是以AI为代表的计算密集型工作负载,一类是通用工作负载,另一类则是高密度的横向扩展型工作负载,这些工作负载对数据中心的处理器提出的要求也各不相同,包括更高的性能、更高的密度、更高的带宽及内存,以及更高的能效等等。
因此,针对一直在变化的数据中心需求,英特尔也基于异构架构做出了一次大胆的尝试,将数据中心芯片分为两类,一类是E-Core产品Sierra Forest,具备更高的能效,针对高密度和横向扩展工作负载进行了优化。另一类则是P-Core产品Granite Rapids,具备更高的性能、内核密度、内存和I/O创新,同时也有更高的能耗,针对计算密集型和 AI工作负载进行了优化。
值得一提的是,在架构设计方面,Sierra Forest和Granite Rapids全都采用了模块化的设计方式,通过fabric技术把模块化的die互连,以此来实现更加灵活的架构。如此一来,可以将独立的计算和I/O的Chiplet实现更灵活的组合,并借助EmiB封装技术实现高带宽和低延迟。换句话说,Sierra Forest和Granite Rapids是可以共享通用的I/O chiplet的。基于该架构的模块化 SoC包含通用 IP、固件、操作系统、平台组件等组件。
扩展性方面,下一代至强可扩展平台支持1S-8S规格的 P 核以及1S-2S规格的E核。
兼容性方面,Sierra Forest和Granite Rapids与Birch Stream平台兼容(插槽、内存、固件和 I/O 兼容),提供了简化的硬件验证流程。它们还可以与相同的软件堆栈互操作。
从制程上看,P-Core和E-Core均采用了最新的Intel 3制程工艺,但也有所区别。
具体来说,P-Core采用了经验证的至强架构,优化了每核性能并提高了能效。软件功能方面,高级矩阵扩展AMX支持用于AI/ML的FP16,长度256位的内存加密秘钥、Code SW预取和取指分支提示、单线高速缓存分配技术/代码和数据优先级(CAT/CDP)。
同时微架构也对P-Core的性能实现了优化,包括64KB大小的16路指令高速缓存,改进分支预测和错误恢复,3-cycle FP乘法,以及更突出的内存请求和预取能力。
整体上看,Granite Rapids可将AI工作负载性能提升2-3 倍,实现2.8倍的更高内存带宽,内存模组MCR DIMM带宽可提高30-40%;而Sierra Forest可在机架级别将机架密度提高250%,将每瓦性能提高240%,对此,英特尔信心满满地表示下一代至强处理器会是 人工智能的最佳 CPU。
此外与Sapphire Rapids相比,Sierra Forest面向云计算可将机架密度提高250%,将每瓦性能提高240%,能够说是分分钟吊打的级别了。
现如今,为互联网提供算力基础的数据中心正面临着越来越复杂的需求,一方面,庞大的数据量需要更加充沛的算力,另一方面,绿色数据中心的概念也推动着数据中心采用更高能效比的芯片设计,而近几年AI的火热,更是将高密度算力需求提升到了一个新的高度,纯靠堆砌核心数量的时代基本已逝去,不仅需要兼顾到计算单元、I/O 单元、内存的扩展性,还应该要考虑高速的互连网络和没瓦性能,从Sierra Forest和Granite Rapids已经披露出的信息来看,英特尔正在进行一次大胆且有效的尝试。