中国互联网大厂订购50亿美元英伟达芯片,全球GPU短缺暂难缓解

随着生成式人工智能爆火,英伟达的GPU因为能为开发大型语言模型提供算力,已成为全球科技行业最热门的商品。

A100和H100的性能对比。图片来源:GPU Utils

英伟达GPU的供应路径。图片来源:GPU Utils

·多位熟知内情的消息人士透露,百度、字节跳动、腾讯和阿里巴巴已向英伟达共订购了价值10亿美元的A800处理器,将于今年交付,还购买了价值40亿美元的GPU,将于2024年交付。

·“我被告知,对于需要100或1000块(英伟达GPU)H100的公司来说,Azure(微软云服务)和GCP(谷歌云服务)实际上已经没有容量了,亚马逊也接近没有容量了。”

随着生成式人工智能爆火,英伟达的GPU因为能为开发大型语言模型提供算力,已成为全球科技行业最热门的商品。

硬件短缺真的会拖累人工智能革命吗?在OpenAI首席执行官山姆·奥特曼和特斯拉首席执行官埃隆·马斯克抱怨GPU(图形处理器)不够用之后,这个事实越来越明显。

中国多家互联网巨头正在抢购对构建生成式人工智能系统至关重要的高性能英伟达(Nvidia)芯片,订单价值总计约50亿美元。

知名科技博客GPU Utils最近对GPU短缺问题进行了一项深入调查,证实了科技巨头的担忧。通过与国外各大云服务和GPU提供商高管的对话,博客主克雷·帕斯卡尔(Clay Pascal)写道:“我被告知,对于需要100或1000块(英伟达GPU)H100的公司来说,Azure(微软云服务)和GCP(谷歌云服务)实际上已经没有容量了,亚马逊也接近没有容量了。”

将于今年或明年交付

据《金融时报》8月10日报道,多位熟知内情的消息人士透露,百度、字节跳动、腾讯和阿里巴巴已向英伟达共订购价值10亿美元的A800处理器,将于今年交付。两位与英伟达关系密切的人士说,这些中国企业还购买了价值40亿美元的GPU,将于2024年交付。

随着生成式人工智能爆火,英伟达的GPU因为能为开发大型语言模型提供算力,已成为全球科技行业最热门的商品。一位英伟达经销商此前表示,经销商们手中的A800价格上涨了50%以上。

A800是英伟达用于数据中心的尖端A100 GPU的弱化版本。由于美国去年实施的出口限制,中国的科技公司只能购买数据传输速率低于A100的A800。

据两位接近字节跳动的人士透露,字节跳动有许多小团队正在开发各种生成式人工智能产品,其中包括一个代号为Grace的人工智能聊天机器人,目前正在进行内部测试。

今年早些时候,字节跳动为其社交媒体应用TikTok测试了一个生成式人工智能功能,名为TikTok Tako,授权使用OpenAI的ChatGPT。

两位直接了解情况的员工表示,字节跳动已经储备了至少1万块英伟达GPU,还订购了近7万块A800芯片,将于明年交付,价值约7亿美元。

目前,字节跳动利用储备的英伟达A800和A100提供云计算设备。6月,该公司发布大模型服务平台“火山方舟”,供企业试用不同的大语言模型服务。

腾讯云在4月发布了专为大模型训练设计的新一代HCC高性能计算集群,供他人租用计算能力,采用了英伟达H800 GPU,这是英伟达最新的H100型号在中国的改良版,可以为大型语言模型训练、自动驾驶和科学计算提供动力。

据两位接近阿里巴巴的人士透露,阿里巴巴云也从英伟达收到了数千枚H800芯片,许多客户已经联系该公司,寻求由这些芯片驱动的云服务。

针对《金融时报》的这一报道,英伟达、百度、字节跳动、腾讯和阿里巴巴拒绝发表评论。

稀缺性加剧稀缺性?

在国外,大多数大型人工智能开发者都通过亚马逊和微软等科技公司的云服务获得顶级处理器。但根据GPU Utils的深度调查,现在,这些开发者基本上无法再获取服务,一位匿名员工告诉帕斯卡尔,现在的情况“就像20世纪70年代的大学主机一样”。人工智能公司甚至用GPU作为抵押来担保他们的债务。

调查称,目前最被需要的GPU是英伟达的H100,因为它对于大模型的推理和训练来说都是速度最快的,通常也是推理方面性价比最高的。匿名人士称:“我的分析是,(H100)做同样的工作也更便宜。如果你能找到V100,那它就很划算了,但你却找不到。”

对于大模型训练来说,内存带宽、浮点运算次数、缓存和缓存延迟、互连速度等是重要的因素。H100比A100更受青睐,部分原因是缓存延迟较低和具有FP8计算功能等。

A100和H100的性能对比。图片来源:GPU Utils

除了英伟达,芯片巨头AMD也在生产GPU,但一位私有云公司的高管表示:“理论上,一家公司可以购买一堆AMD的GPU,但要让一切正常运转需要时间。开发时间(即使只有两个月)可能意味着比竞争对手更晚进入市场。所以CUDA现在是英伟达的护城河。”CUDA是英伟达推出的只能用于自家GPU的并行计算框架。

调查称,目前谷歌云拥有大约2.5万块H100,微软云服务Azure可能有1万-4万块H100,甲骨文的情况应该类似。Azure的大部分容量都将流向OpenAI。对于H100的需求,OpenAI可能需要5万块,Meta可能需要2.5万块,大型云厂商可能每家都需要3万块,加上其他一些初创企业,可能总共需要大约43.2万块H100。以每块约3.5万美元计算,所需GPU的价值约为150亿美元。这还不包括像字节跳动(TikTok)、百度和腾讯这样需要大量H800的中国公司。

“因此,供应短缺可能需要一段时间才能消失。但我的所有估计都可能被严重夸大了,其中许多公司今天不会立即购买H100,他们会随着时间的推移进行升级。此外,英伟达正在积极提高产能。”帕斯卡尔写道。

但帕斯卡尔也指出,芯片巨头台积电还无法生产足够多的高端GPU。目前,台积电是H100的唯一生产商。英伟达未来也可能和芯片制造商英特尔与三星合作,但在短期内不会解决供应紧张。

英伟达GPU的供应路径。图片来源:GPU Utils

一位退休的半导体行业专业人士认为,台积电的瓶颈不是晶圆开工,而是CoWoS(3D堆叠)封装。

此外,影响内存带宽的HBM(高带宽内存)也是生产难点,HBM主要由韩国厂商生产。当地时间8月8日,英伟达宣布推出世界上第一个配备HBM3e内存的GPU芯片——下一代版本的GH200 Grace Hopper超级芯片,将于2024年二季度上市。HBM3e内存比当前一代GH200中的HBM3技术快50%。

英伟达表示今年下半年将会有更多供应,但除此之外没有透露更多信息,也没有提供任何定量信息。与此同时,一位私有云公司的高管认为,稀缺性导致GPU容量被视为护城河,从而导致更多的GPU囤积,又加剧稀缺性。

这份调查报告预计,至少到2023年底,H100的部署将出现大量短缺。届时情况将会更加清晰,但目前看来,短缺情况可能还会持续到2024年的部分时间。

参考资料:https://gpus.llm-utils.org/nvidia-h100-gpus-supply-and-demand/