网站首页

产品中心

智能终端处理器 智能云服务器 软件开发环境

新闻中心

关于PG电子

公司概况 核心优势 核心团队 发展历程

联系PG电子

官方微信 官方微博
主页 > 新闻中心

英伟达再推「中国版」AI 芯片:人工智能竞争中的猫鼠游戏

发布时间:2023-11-30 03:00浏览次数: 来源于:网络

  在中美人工智能的激烈竞争中,英伟达成为了游弋在政治和商业中寻找利益最大化的「鲨鱼」。

  美国商务部产业与安全局(BIS)1017新规已经在11月16日生效,英伟达针对中国市场推出的「版」A800和H800芯片遭到出口合规限制,无法向中国客户出售。

  然而,11月9日有消息透露,英伟达将推出三款针对中国市场的AI芯片,包括H20、L20和L2三款,并列出了详细规格。

  随后,英伟达在业绩会上确认,将努力争取高性能产品在中国市场的销售许可,也会研发更多合规的数据中心产品组合。「我们正在努力扩展我们的数据中心产品组合,以提供不需要许可证的新法规合规解决方案,这些产品可能会在未来几个月内上市。」

  11月24日,据路透社报道,两位消息人士透露,英伟达已告知中国客户,H20发布时间将推迟到明年第一季度。L20芯片不会延期,并将按照原定计划推出。消息人士无法分享有关L2状态的信息。

  1017新规是BIS推出的第二个版本的限制措施,这一版本比第一个版本更加严格,根据芯片的总处理性能(TPP)和性能密度划出限制条件,符合任一条件即认为处于管制范围。

  根据Semianalysis透露的规格参数,H20、L20和L2三款芯片的性能被大幅压缩。

  以H20为例,这款芯片的峰值算力最大理论值仅为296 TFLOPs,数字上还不如消费级的游戏显卡。作为比较,热门的H100芯片的这一数值为1979 TFLOPs,消费级的RTX 4090显卡为661 TFLOPs。

  这样的压缩显然是为了限制总处理性能和性能密度,以避开精心设计的封锁条件:

  - H20的总处理性能为2368,性能密度仅为2.9,小于3.2的管制许可值;

  - L20的总处理性能为1912,但性能密度为3.1,小于3.2的管制许可值;

  - L2的性能密度为5.2,但总处理性能仅为1544,小于1600的管制许可值。

  H20有比H100更高的缓存和带宽,支持英伟达第四代NVLink连接,连接速度保留了900 GB/s满速。这保证了多卡增强效果的实现,在实际多卡互联环境中,H20组合性能接近H100的50%。

  不过,H20的侧重点在模型推理环节,不需要承担H100那样的预训练任务。由于采用了与英伟达下一代GPU相似的核心,Semianalysis推算,H20在大模型推理运算中比H100还要快20%,这将极大提高大模型产品在应用端的表现。比如,运行Meta 700亿参数的LLAMA模型需要两个H100,但只需要一个H20。

  此前国内有RTX 4090显卡DIY工厂被曝出,买家大量囤积RTX 4090,通过拆解出GPU核心,再外置鼓风机风冷的方式,让多卡组合适配AI服务器工作。

  考虑到国内客户的DIY能力,且由于L20在生产中不涉及产能受限的CoWoS封装环节,因此能够短时间内推向市场,缓解很多买家的算力慌。

  联想集团董事长兼CEO杨元庆曾表示,目前大多数大模型都在算力较强的公有云上训练。未来,大模型的计算负载将逐渐由云端向边缘侧和端侧下沉。越来越多的人工智能的推理任务将会在边缘和设备端进行。

  英伟达的第一代「版」芯片A800和H800有11个月的出口窗口期,平台公司利用这一窗口期大量采购。市场上有消息称,百度、字节跳动、腾讯和阿里已向英伟达订购了价值10亿美元的共约10万张A800芯片,将于年内交付,另外价值40亿美元的芯片将于2024年交付。腾讯曾发布公开声明称,储备了大量的A800和H800芯片,足够支持好几套AI大模型的训练。

  可以预见,第一代「版」将成为公有云算力的重要来源,承担大模型的预训练任务。第二代「版」把重点放在了大模型推理运算环节上,这一环节更靠近应用端,对算力要求相对于模型预训练更低,更多的要求是在短时间内处理大量的输入数据。

  AI大模型训练涉及到众多环节,从OpenAI到创业公司,普遍面临缺少训练数据的情况,特别是垂直领域当中与业务有关的数据。

  电厂记者从业内人士那里了解到,很多行业在上一轮数字化转型当中没能做好,导致在AI落地方面缺少数据。低数据量会造成应用端表现差,直接影响前端的表现,进而无法沉淀更多数据出来。

  因此,中小企业和个体创业者急需大模型落地,用相对不高的算力启动,用时间把数据跑出来。这次的三款版芯片,也针对这一趋势,面向更多「边缘」客户。

  英伟达此前就有布局,为了帮助更多没有拿到足够算力的中小企业和个体创业者。英伟达在10月份针对Windows平台推出了TensorRT-LLM,这个模型可以帮助运行在Windows设备的大模型更好地利用RTX显卡和GPU的性能。根据英伟达的说法,这样的设备超过1亿台。

  美国商务部1017新规的生效时间是11月16日,正是传言中H20的发布日期。H20「原计划」将在11月16日发布,在12月量产,但后来推迟到明年一季度。

  黄仁勋在业绩会上也提到,「我们将确保与美国政府充分讨论我们在这些产品上的意图。」很显然,英伟达要留出时间窗口,等待监管方的反应。那么,H20首先是一枚烟雾弹。

  从BIS 1017新规中表现出的「哪里漏了补哪里」的特点来看,英伟达在与BIS的这场猫鼠游戏中占有主动权,有更丰富的技术储备和应对思路。一旦H20进入安全通道,更多「版」也会陆续到来。

  英伟达H100还在消化订单,H200排队到明年二季度,整个供应瓶颈卡在台积电的CoWoS封装环节。H20同样使用台积电的CoWoS封装,这意味着H20即便绕过监管,交付时间也可能比传闻更长。

  由于出口限制措施,英伟达没有在算力上实现突破,但H20在中国市场仍然是一款一鱼多吃的产品。H20买家将更依赖NVLink技术,英伟达也能借此巩固自己CUDA软件平台的护城河。相应的,H20买家在后续考虑国产替代时,就要承担额外的迁移成本。

下一篇:赋能产业 智引鼓楼 2023中国(徐州)第七届人工智能大会开幕
上一篇:人工智能最新研究:朝人类-AI互动开放式文化演变迈出第一步

咨询我们

输入您的疑问及需求发送邮箱给我们