5月29日周一,英伟达CEO黄仁勋在COMPUTEX大会上抛出多个重磅信息,包括新的机器人设计、游戏功能、广告服务和网络技术。其中最为引人瞩目的是,搭载256颗GH200 Grace Hopper超级芯片的新型DGX GH200人工智能超级计算机,堪称“算力杀器”。
谷歌云、Meta和微软是首批预计将获得DGX GH200访问权的客户,以探索其在生成型AI工作负载方面的能力。值得注意的是,算力的突破,将使得AI应用再次获得巨大提升,AI赛道有望向下一个节点迈进。在周一的演讲中,黄仁勋认为科技行业的传统架构的改进速度已不足以跟上复杂的计算任务。 为了充分发挥AI 的潜力,客户越来越多地转向加速计算和英伟达制造的GPU。
【资料图】
黄仁勋说:
我们已到达生成式AI引爆点。从此,全世界的每个角落,都会有算力需求。
有评论认为,一连串的发布凸显了英伟达正在从一家GPU制造商转变为一家处于AI热潮中心的公司。
上周,由于对处理AI任务的数据中心芯片的强烈需求,英伟达大幅提高了对本季度的业绩指引,比分析师的估计高出近40亿美元。业绩指引的提高使该股创下历史新高,并使英伟达的估值接近1万亿美元,这还是芯片业中首次有公司市值达到这一高度。
在周一的会议上,黄仁勋发布的主要内容包括:
英伟达面向游戏玩家的GForce RTX 4080 Ti GPU现已全面投产,并已经开始量产。 黄仁勋宣布推出适用于游戏的英伟达Avatar Cloud Engine(ACE),这是一种可定制的AI模型代工服务,为游戏开发人员提供预训练模型。它将通过AI支持的语言交互赋予非玩家角色更多个性。 英伟达Cuda计算模型现在服务于400万开发者和超过3000个应用程序。Cuda的下载量达到了4000万次,其中仅去年一年就达到了2500万次。 GPU服务器HGX H100的全面量产已经开始,他补充说,这是世界上第一台装有变压器引擎的计算机。 黄仁勋将英伟达2019年以69亿美元收购超级计算机芯片制造商Mellanox称为其有史以来做出的“最伟大的战略决策之一”。 下一代 Hopper GPU的生产将于2024年8月开始,也就是第一代开始生产两年后。 英伟达的GH200 Grace Hopper现已全面投产。超级芯片提升了4 PetaFIOPS TE、72个通过芯片到芯片链路连接的Arm CPU、96GB HBM3和576 GPU内存。黄仁勋将其描述为世界上第一个具有巨大内存的加速计算处理器:“这是一台计算机,而不是芯片。” 它专为高弹性数据中心应用而设计。 如果Grace Hopper的内存不够用,英伟达有解决方案——DGX GH200。 它是通过首先将8个Grace Hoppers与3个NVLINK交换机以900GB传输速度的Pod连接在一起,再将32个这样的组件连接在一起,再加上一层开关,连接总共256个Grace Hopper芯片。 由此产生的 ExaFLOPS Transformer Engine具有144 TB的GPU内存,可用作巨型GPU。黄仁勋说Grace Hopper速度非常快,可以在软件中运行5G堆栈。 谷歌云、Meta和微软将是第一批获得DGX GH200 访问权限的公司,并将对其功能进行研究。 英伟达和软银已建立合作伙伴关系,将Grace Hopper超级芯片引入软银在日本的新分布式数据中心。这些将能够在多租户通用服务器平台中托管生成式人工智能和无线应用程序,从而降低成本和能源。 软银和英伟达的合作伙伴关系将基于英伟达MGX参考架构,该架构目前正在与一些公司合作使用。它为系统制造商提供了一个模块化的参考架构,帮助他们构建100多个用于AI、加速计算和全方位用途的服务器变体。合作的公司包括ASRock Rack、Asus、Gigabyte、Pegatron、QCT和Supermicro。 黄仁勋发布了Spectrum-X加速网络平台,以提高基于以太网的云的速度。它包括Spectrum 4交换机,它有128个端口,每秒400GB和每秒51.2TB的传输速度。黄仁勋说,该交换机旨在实现新型以太网,并设计为端到端以进行自适应路由、隔离性能和进行结构内计算。它还包括Bluefield 3 Smart Nic,它连接到Spectrum 4交换机以执行拥塞控制。 世界上最大的广告公司WPP已与英伟达Nvidia 合作开发基于 Nvidia Omniverse 的内容引擎。 它将能够制作用于广告的照片和视频内容。 机器人平台英伟达Isaac ARM现在可供任何想要构建机器人的人使用,并且是全栈的,从芯片到传感器。Isaac ARM从名为 Nova Orin 的芯片开始,是第一个机器人全参考堆栈,Huang 说。在发布会上,黄仁勋还展示了生成式AI以文字形式输入然后以其他媒体输出内容的能力。他要求播放与清晨心情相配的音乐,而在另一篇文章中,他列出了一些歌词,然后使用AI将这个想法转化为一首活泼的流行歌曲:
现在每个人都是创作者。
值得注意的是,本次大会上,黄仁勋向传统CPU服务器集群发起“挑战”。他直言,认为在人工智能和加速计算这一未来方向上,GPU服务器有着更为强大的优势。
黄仁勋解释称,传统上电脑或服务器最重要的 CPU,这个市场主要参与者包括英特尔和AMD。但随着需要大量计算能力的AI应用出现,GPU将成为主角,英伟达主导了当前全球AI GPU 市场。
黄仁勋在演讲上展示的范例,训练一个LLM大语言模型,将需要960个CPU组成的服务器集群,这将耗费大约1000万美元,并消耗11千兆瓦时的电力。相比之下,同样以1000万美元的成本去组建GPU服务器集群,将以仅3.2千兆瓦时的电力消耗,训练44个LLM大模型。
如果同样消耗11千兆瓦时的电量,那么GPU服务器集群能够实现150倍的加速,训练150个LLM大模型,且占地面积更小。而当用户仅仅想训练一个LLM大模型时,则只需要一个40万美元左右,消耗0.13千兆瓦时电力的GPU服务器即可。
换言之,相比CPU服务器,GPU服务器能够以4%的成本和1.2%的电力消耗来训练一个LLM,这将带来巨大的成本节省。
根据Trend Force的数据,2022年搭载GP GPU的AI服务器年出货量占全部服务器的比重接近1%,2023年在ChatGPT等人工智能应用加持下,AI服务器出货量有望同比增长8%,2022~2026年出货量CAGR有望达10.8%,以AI服务器用GPU,主要以公司H100、A100、A800(主要出货中国)以及AMD MI250、MI250X系列为主,而英伟达与AMD的占比约8:2。
基于IDC预测2026年全球服务器出货量1877万台、AI服务器的占比逐年提升1%,同时AI服务器中GPU的搭载数量逐年提升0.5个百分点、随着GPU产品迭代,GPU单价逐年提升2000美元,国金证券基于上述基础预测,2026年全球数据中心GPU市场规模有望达224亿美元。
关键词: