据介绍,这个基于Neoverse的系统支持Armv9,可以把两个CPU与Nvidia新品牌的NVLink-C2C互连技术融合在一起。Nvidia声称GraceCPUSuperchip在SPEC基准测试中提供的性能比其自己的DGXA100服务器中的两个上一代64核AMDEPYC处理器高出1.5倍,并且是当今领先服务器芯片的两倍。
总体而言,Nvidia表示,GraceCPUSuperchip将于2023年初出货,将成为市场上最快的处理器,适用于超大规模计算、数据分析和科学计算等广泛的应用。
鉴于我们对Arm路线图的了解,HopperCPUSuperchip基于N2Perseus平台,这是第一个支持Armv9的平台。该平台采用5nm设计,支持所有最新的连接技术,如、DDR5、HBM3、和,比V1平台提供高达40%的性能。
此外,Nvidia还分享了有关GraceHopperSuperchip的新细节,这是其之前发布的CPU+GPU芯片.Nvidia还宣布了其新的NVLink芯片到芯片(C2C)接口,这是一种支持内存一致性的芯片到芯片和芯片到芯片互连。NVLink-C2C可提供高达25倍的能效,比Nvidia目前使用的的面积效率高90倍,支持高达900GB/s或更高的吞吐量。该接口支持CXL和Arm的AMBACHI等行业标准协议,并支持从基于PCB的互连到硅中介层和晶圆级实现的各种连接。
令人惊讶的是,Nvidia现在允许其他供应商将该设计用于他们自己的小芯片。此外,Nvidia宣布将支持新的UCIe规范。让我们深入了解细节。
在我们了解新的GraceCPUSuperchip之前,您需要快速回顾一下它的第一次实例化。Nvidia去年首次宣布了最初称为GraceCPU的产品,但该公司没有分享太多细粒度的细节。Nvidia现在已将第一次尝试的名称更改为GraceHopperSuperchip。
GraceHopperSuperchip在一个载板上有两个不同的芯片,一个CPU和一个GPU。我们现在知道CPU有72个内核,使用基于Neoverse的设计,支持Armv9,并与HopperGPU配对。这两个单元通过900GBpsNVLink-C2C连接进行通信,提供CPU和GPU之间的内存一致性,从而允许两个单元同时访问LPDDR5XECC内存池,据称带宽比标准系统提高了30倍。
Nvidia最初没有公布设计中使用的LPDDR5X数量,但在这里我们可以看到该公司现在声称拥有“600GB内存GPU”,其中肯定包括LPDDR5X内存池。我们知道LPDDR5X每个封装的最高容量为64GB,这意味着CPU配备了高达512GB的LPDDR5X。同时,HopperGPU通常具有80GB的HBM3容量,使我们接近Nvidia的600GB数字。让GPU访问该数量的内存容量可能会对某些工作负载产生变革性影响,尤其是对于经过适当优化的应用程序。
今天的公告涵盖了GraceCPUSuperchip,它基于GraceHopperCPU+GPU设计,但使用第二个CPU封装而不是HopperGPU。这两个72核芯片也通过NVLink-C2C连接进行连接,提供一致的900GB/s连接,将它们融合为一个144核单元。此外,基于Armv9Neoverse的芯片支持Arm的ScalableVectorExtensions(SVE),这是一种性能提升的SIMD指令,其功能类似于AVX。
GraceCPUSuperchip使用Armv9,它告诉我们该芯片使用NeoverseN2设计.NeoverseN2平台是Arm首个支持新发布的Armv9扩展(如SVE2和内存标记)的IP,其性能比V1平台高出40%。N2Perseus平台采用5nm设计,支持、DDR5、HBM3、和。Perseus设计针对每功率性能(瓦特)和每面积性能进行了优化。
考虑到GraceCPUSuperchip的两个CPU和板载内存都消耗500W的峰值功率,这很有意义。这与其他领先的CPU具有竞争力,例如AMD的EPYC(霄龙),每个芯片的最高功率为280W(这不包括内存功耗)。Nvidia声称GraceCPU在市场上的效率将是竞争CPU的两倍。
每个CPU都可以访问自己的8个LPDDR5X封装,因此这两个芯片仍然会受到近远内存的标准NUMA类趋势的影响。尽管如此,两个芯片之间增加的带宽也应该有助于减少由于竞争减少而导致的延迟,从而实现非常有效的多芯片实现。该设备还配备了396MB的片上缓存,但尚不清楚这是用于单个芯片还是两者兼有。
GraceCPUSuperchip内存子系统提供高达1TB/s的带宽,Nvidia称这是CPU的首创,是支持DDR5内存的其他数据中心处理器的两倍多。LPDDR5X共有16个封装,可提供1TB容量。此外,Nvidia指出,Grace使用了LPDDR5X的第一个ECC实现。
两个GraceCPU通过Nvidia新的NVLink芯片到芯片(C2C)接口进行通信。这种芯片到芯片和芯片到芯片的互连支持低延迟内存一致性,允许连接的设备同时在同一个内存池上工作。Nvidia使用其SERDES和LINK设计技术制作了界面,重点是能源和面积效率。
Nvidia表示,与Nvidia目前使用的相比,NVLink-C2C可以提供高达25倍的能效和90倍的面积效率,支持高达900GB/s或更高的吞吐量。此外,该接口还支持CXL和Arm的AMBA相干集线器接口(CHI)等行业标准协议。它还支持多种类型的连接,从基于PCB的互连到硅中介层和晶圆级实现。
对AMBACHI的支持很重要,因为它支持Arm的相干网状网络(CMN-700),将NeoverseN2设计与智能高带宽低延迟接口与其他平台添加剂(如DDR、HBM和各种加速器技术,使用行业标准协议的组合,如CCIX、CXL和PCIe。这种新的网格设计是基于单芯片和多芯片设计的下一代Arm处理器的支柱。您可以在此处阅读有关该协议的更多信息。
Nvidia还宣布将支持新的UCIe小芯片互连标准,该标注已经得到如英特尔、AMD、Arm、台积电和三星等其他行业巨头的支持。这种标准化的芯片到芯片互连旨在通过开源设计提供小芯片之间的通信,从而降低成本并培育更广泛的经过验证的小芯片生态系统。最后,UCIe标准旨在与其他连接标准(如USB、PCIe和NVMe)一样普遍和普遍,同时为小芯片连接提供卓越的功率和性能指标。英伟达对这一新举措的支持意味着我们理论上可以看到英伟达CPU芯片与未来的竞争芯片设计放在同一个封装中。
NVLink-C2C现在将覆盖Nvidia的所有芯片,包括GPU、CPU、SOC、NIC和DPU。Nvidia还表示,它正在开放规范以允许其他公司在其小芯片设计中使用NVLink。这为客户提供了使用UCIe接口或NVLink的选项,尽管Nvidia声称NVLink-C2C已针对比UCIe更低的延迟、更高的带宽和更高的能效进行了优化。
如上图所示,GraceHopperSuperchip和GraceCPUSuperchip系统还可以与多达8个HopperGPU组合成多种不同的配置。这些设计使用Nvidia的ConnectX-7SmartNIC(CX7),通过其内置的交换机实现NVLink通信,从而支持更广泛的系统到系统应用程序。
Nvidia正在通过GraceCPUSuperchip扩展其目标市场,现在涵盖超大规模计算、云、数据分析、HPC和AI工作负载,有效地瞄准了通用服务器市场。GraceCPUSuperchip支持Nvidia的整个CUDA堆栈,并将运行Nvidia的所有应用程序,包括NvidiaRTX、NvidiaAI、HPC和Omniverse。这些芯片将于2023年上半年开始出货。
800亿晶体管,英伟达发布新一代GPU
过去两年,尽管COVID-19在肆虐全球,但技术却从未停歇。尤其是对NVIIDA来说。该公司在两年前的GTC2020上推出了AmpereGPU架构,并且在此期间销售了比以往任何时候都更多的芯片。迈入到2022年,他们又推出了下一代的新架构——Hopper架构,它将支撑下一代NVIDIA服务器GPU。
正如大家所看到的一样,两年前推出的Ampere是NVIDIA迄今为止最成功的服务器GPU架构,仅在去年,数据中心销售额就超过了100亿美元。然而,英伟达缺不可以满足于现状,因为服务器加速器市场的增长和盈利能力意味着竞争者比以往任何时候都多,他们的目标都是在英伟达把持的市场上分一杯羹。为此,NVIDIA已经准备好(并且渴望)来谈论他们的下一代架构,以及将实现它的第一批产品。
将NVIDIA带入下一代服务器GPU的是Hopper架构。Hopper架构以计算机科学先驱GraceHopper的名字命名,对公司正在进行的GPU架构系列来说,这是一个非常重要但也是非常NVIDIA式的更新。因为公司的努力,他们现在将其产品线分为服务器和消费者GPU配置,Hopper正在NVIDIA将公司做得好的一切都加倍,然后将其构建得比以往任何时候都更大。
毫不夸张地说,在过去几年中,NVIDIA为服务器GPU行业制定了一套非常可靠的手册。在硬件方面,本质上归结为正确识别当前和未来趋势以及客户对高性能加速器的需求,投资于高速处理这些工作负载所需的硬件,然后优化所有这些.对于英伟达来说,最后一步很可能是最重要的一点:英伟达投入了大量工作来释放客户的工作负载。
反过来,这是NVIDIAHopper架构的前沿和中心。虽然NVIDIA已全面投资以从内存带宽和I/O到机器学习和机密计算等方面提高性能,但Hopper最大的性能提升是在NVIDIA想出如何减少工作量、使其处理器的每个领域都都更快。
Hopper的第一代产品是H100——NVIDIA的旗舰服务器加速器。基于GH100GPU的GH100是传统的NVIDIA服务器先行产品,该公司从高端起步,为其最大、资金最雄厚的服务器和企业客户开发加速卡。
首先也是最重要的一点,NVIDIA再次为其旗舰GPU打造了大型产品。GH100GPU由800亿个晶体管组成,并建立在NVIDIA所称的台积电4N工艺节点的“定制”版本之上,这是台积电N5技术的更新版本,可提供更好的功率/性能特性和非常适度的密度改进.因此,即使在Ampere之后仅两年,NVIDIA也在进行全节点跳跃,带来GH100。目前NVIDIA并未透露裸片尺寸,因此我们没有确切的数据可以分享。但鉴于台积电工艺节点的已知密度改进,GH100的尺寸应该接近826mm2的GA100。事实上,它是814mm2。
与NVIDIA之前的服务器加速器一样,H100卡并未配备完全启用的GPU。因此,NVIDIA提供的数据基于实现的H100,但启用了许多功能单元(和内存堆栈)
在性能方面,NVIDIA并未提前引用任何标准矢量性能数据。然而,他们引用了张量性能,具体取决于格式。数据显示,它比A100加速器快3倍或6倍。我们将看到这在时钟速度增加与更大或更多张量核心之间是如何分解的,但显然NVIDIA再次以张量性能投入更多硬件,到目前为止,这一策略对他们来说效果很好。
从官方层面,NVIDIA喜欢引用启用稀疏性的数字,但出于我们规格表的目的,我使用非稀疏数字与以前的NVIDIA硬件以及竞争硬件进行更多的比较。启用稀疏性后,TF32的性能可以翻倍。
内存带宽也比上一代显著的提高,H100提供了3TB/秒的带宽。这次带宽的增加得益于HBM3的使用,NVIDIA成为第一个使用最新一代高带宽内存版本的加速器供应商。H100将配备6个16GB内存堆栈,其中1个堆栈被禁用。最终结果是80GB的HBM3以4.8Gbps/pin的数据速率运行,并连接到5120位内存总线。
NVIDIA将提供两种通常的H100规格:用于高性能服务器的SXMmezzanine和用于更主流服务器的PCIe卡。与上一代相比,这两种外形尺寸的功率要求都显著提高。NVIDIA为SXM版本的显卡提供了令人瞠目结舌的700瓦TDP,比A100官方的400WTDP高出75%。不管是好是坏,NVIDIA在这里没有任何阻碍,尽管晶体管功率扩展的持续下降也没有给NVIDIA带来任何好处。
同时,H100PCie卡的TDP将从今天的300W提高到350W。鉴于300W是PCIe卡的传统限制,看看NVIDIA及其合作伙伴如何让这些卡保持低温将会很有趣。否则,由于只有SXM卡的一半TDP,我们预计PCIe版本的时钟/配置会明显变慢,以降低卡的功耗。
Hopper张量核心:现在使用TransformerEngines
继续讨论Hopper架构的重要架构特性,我们从NVIDIA的Transformer引擎开始。Transformer引擎名副其实,是一种新型的、高度专业化的张量核心,旨在进一步加速TransformerML模型。
但与此同时,对Transformer的处理要求也阻碍了更好模型的开发。简而言之,更好的模型需要越来越多的参数,仅GPT-3就有超过1750亿个参数,即使在大型GPU集群上,transformer的训练时间也变得难以处理。
为此,NVIDIA开发了一种张量核心的变体,专门用于加速Transformer训练和推理,他们将其称为TransformerEngine。NVIDIA已经优化了这个新单元,将其剥离为仅处理大多数转换器(FP16)使用的低精度数据格式,然后通过引入FP8格式进一步缩小。简而言之,新单元的目标是使用每一步所需的最低精度来训练Transformer而不损失精度。换句话说,避免做不必要的工作。
话虽如此,与始终以固定精度训练的更传统的神经网络模型不同,NVIDIA最新的Transformer是改变精度,因为FP8不能在整个模型中使用。因此,Hopper的转换器引擎可以在FP16和FP8训练之间逐层交换,利用NVIDIA提供的启发式算法来选择所需的最低精度。净收益是可以在FP8上处理的每一层的处理速度都可以提高一倍,因为变压器引擎可以以两倍于FP16的速度pack和处理FP8数据。
结合H100上的额外内存和更快的NVLink4I/O,NVIDIA声称大型GPU集群可以将Transformer训练速度提高9倍,这将把当今最大模型的训练时间缩短到一个更合理的时期时间,并使更大的模型更实用。
同时,在推理方面,Hopper还可以立即使用自己的FP8训练模型进行推理。这是Hopper的一个重要区别,因为它允许客户跳过将训练有素的Transformer模型转换和优化到INT8的过程。NVIDIA并未声称坚持使用FP8而不是INT8带来的任何特定性能优势,但这意味着开发人员可以享受与在INT8模型上运行推理相同的性能和内存使用优势,而无需先前所需的转换步骤。
DPX指令:GPU的动态编程
NVIDIA对Hopper架构的另一项重大智能改进来自动态编程领域。对于他们最新一代的技术,NVIDIA正在通过添加一组仅用于动态编程的新指令来增加对编程模型的支持。该公司正在调用这些DPX说明。
简而言之,动态编程是一种将复杂问题以递归方式分解为更小、更简单的问题,然后首先解决这些更小问题的方法。动态规划的关键特征是,如果其中一些子问题相同,则可以识别并消除这些冗余——这意味着子问题可以解决一次,并将其结果保存以供将来在更大的问题中使用。
所有这一切都意味着,与Sparsity和TransformerEngines一样,NVIDIA正在实施动态编程,以允许他们的GPU摆脱更多的工作。通过消除可以根据动态编程规则分解的工作负载的冗余部分,NVIDIA的GPU需要做的工作要少得多,而且它们可以更快地产生结果。
尽管与Transformer引擎不同,通过DPX指令添加动态编程支持与其说是加速GPU上的现有工作负载,不如说是在GPU上启用新的工作负载。Hopper是第一个支持动态编程的NVIDIA架构,因此可以通过动态编程解决的工作负载通常在CPU和FPGA上运行。在这方面,这是NVIDIA发现了他们可以从CPU窃取并在GPU上运行的更多工作负载。
总体而言,NVIDIA声称单个H100上的动态编程算法性能与A100上的幼稚执行相比提高了7倍。
至于DPX指令对现实世界的影响,NVIDIA将路线规划、数据科学、机器人技术和生物学列为新技术的潜在受益者。这些领域已经使用了几种著名的动态规划算法,例如Smith-Waterman和Flyod-Warshall,它们对基因序列对齐进行评分并分别找到目的地对之间的最短距离。
总体而言,动态编程是高性能工作负载中比较小众的领域之一。但NVIDIA认为,一旦有合适的硬件支持,它就可以很好地适用于GPU。
机密计算:保护GPU数据免遭窥探
远离以性能为中心的功能,NVIDIA对Hopper架构的另一项重大推动是在安全方面。随着云计算环境(尤其是共享VM环境)中GPU使用的扩展,该公司正在将新的重点放在相关的安全问题上,以及如何保护共享系统的安全。
这些努力的最终结果是,Hopper正在为可信执行环境引入硬件支持。具体来说,Hopper支持创建NVIDIA所谓的机密虚拟机,其中VM环境中的所有数据都是安全的,并且所有进入(和离开)环境的数据都是加密的。
NVIDIA在我们的预先简报中没有详细介绍支持其新安全功能的太多技术细节,但据该公司称,它是新硬件和软件功能组合的产物。特别值得注意的是,进出GPU时的数据加密/解密速度足以以PCIe线速(64GB/秒)完成,这意味着在使用此安全性时,实际主机到GPU带宽不会减慢特征。
反过来,这种受信任的执行环境旨在抵抗所有形式的篡改。GPU本身的内存内容由NVIDIA所谓的“硬件防火墙”保护,它可以防止外部进程接触它们,同样的保护也扩展到SM中的传输中数据。据说,受信任的环境也可以防止操作系统或管理程序从上面访问GPU的内容,将访问权限限制为仅VM的所有者。也就是说,即使对GPU进行物理访问,也不应该能够访问hopper上的安全VM中的数据。
归根结底,NVIDIA的目标似乎是让他们的客户在使用GPU处理敏感数据时感到舒适,方法是让他们在安全模式下工作时有很多硬件可以闯入。反过来,这不仅是为了保护传统的敏感数据,例如医疗数据,也是为了保护NVIDIA的一些客户现在正在创建的高价值AI模型。考虑到创建和训练模型所需的所有工作,客户不希望他们的模型被复制,无论是在共享云环境中还是从物理上不安全的边缘设备中退出。
多实例GPUv2:现在具有隔离性
作为NVIDIA在机密计算方面的安全工作的延伸,该公司还将这些保护扩展到其多实例GPU(MIG)环境。MIG实例现在可以完全隔离,实例和主机之间的I/O也完全虚拟化和安全,基本上授予MIG实例与H100整体相同的安全功能。总体而言,这使MIG更接近CPU虚拟化环境,其中各种VM假定彼此不信任并保持隔离。
NVLink4:将芯片I/O带宽扩展至900GB/秒
Hopper架构还带来了NVIDIA的NVLink高带宽互连的新版本,用于将GPU(很快会扩展到CPU)连接在一起,以便在可以扩展到多个GPU的工作负载中获得更好的性能。NVIDIA在其每一代旗舰GPU上都在NVLink上进行了迭代,这次也不例外,他们推出了NVLink4。
在等待NVIDIA全面披露技术规格的同时,该公司已确认NVLink单芯片带宽已从A100的600GB/秒增加到H100的900GB/秒。请注意,这是NVLink支持的所有单个链路上的所有上行和下行带宽的总和,因此将这些数字减半以获得特定的传输/接收速率。
900GB/秒表示H100的I/O带宽增加了50%。这并不像H100的总处理吞吐量那么大,但考虑到实现更快的网络速率的复杂性不断升级,这是一个现实的改进。
同样值得注意的是,NVIDIA正在通过Hopper添加支持。由于PCIe仍用于主机到GPU的通信(至少在Grace准备好之前),这意味着NVIDIA已经将其CPU-GPU带宽翻了一番,让他们能够更好地保持H100的供电。尽管充分利用需要一个支持的主机CPU,但AMD或Intel还没有提供这种支持。据推测,到NVIDIA在第三季度发布H100时,会有人准备好硬件并发货,尤其是因为NVIDIA喜欢对其DGX预构建服务器进行同质化。
最后,随着H100/NVLink4的推出,NVIDIA也利用这段时间宣布了一款新的外置NVLink交换机。这种外部开关超越了NVIDIA当前的板载NVSwitch功能,该功能用于帮助在单个节点内构建更复杂的GPU拓扑,并允许H100GPU跨多个节点直接相互通信。从本质上讲,它可以替代NVIDIAGPU通过Infiniband网络进行跨节点通信。
外部NVLInk开关允许在单个域内将多达256个GPU连接在一起,这适用于32个8路GPU节点。据NVIDIA称,该交换机提供的总带宽为70.4TB/秒。
然而,值得注意的是,NVLinkSwitch并不是Infiniband的批发替代品——当然,NVIDIA也通过其网络硬件部门进行销售。其他类型的通信(例如CPU到CPU)仍然需要节点之间的Infiniband连接,因此外部NVLink网络是对Infiniband的补充,允许H100GPU在它们之间直接聊天。
HGXForH100
最后但并非最不重要的一点是,NVIDIA已确认他们也在为H100更新其HGX主板生态系统。HGX主板是NVIDIA多GPU设计的主要部分,因为他们首次开始使用SXM外形尺寸的GPU,HGX主板是NVIDIA生产的GPU主板,供系统构建者用于设计完整的多GPU系统。HGX板为NVIDIA的SXM外形GPU提供了完整的连接和安装环境,然后服务器供应商可以将电源和PCIe数据(除其他外)从其主板路由到HGX主板。对于当前的A100一代,NVIDIA一直在销售4路、8路和16路设计。
相对于GPU本身,HGX是相当乏味的。但它是NVIDIA生态系统的重要组成部分。服务器合作伙伴可以选择HGX板和GPU,然后快速将其集成到服务器设计中,而不必从头开始设计自己的服务器。在H100的情况下,这意味着现状将(在很大程度上)占主导地位,并且NVIDIA的服务器合作伙伴将能够以与以前相同的方式组装系统。
HopperH100加速器:2022年第三季度发货
总结一下,NVIDIA计划在今年第三季度推出配备H100的系统。这将包括NVIDIA的全套自建系统,包括DGX和DGXSuperPod服务器,以及来自OEM合作伙伴使用HGX基板和PCIe卡的服务器。尽管以典型的方式,英伟达并未公布单独的H100定价,理由是他们通过服务器合作伙伴销售此硬件。一旦NVIDIA宣布他们自己的DGX系统的价格,我们就会有更多的了解,但我只想说,不要指望H100卡会便宜。
★英伟达要“甩开”CPU
★围攻索尼!
★二维材料的机遇与挑战
晶圆|集成电路|设备|汽车芯片|存储|台积电|AI|封装