当地时间周四美股收盘,英伟达股价创历史新高,市值超2.3万亿美元,3月8日盘前又涨超3%,直逼苹果。近段时间,背靠生成式AI对GPU算力的大量需求,英伟达股价几乎一路飙涨,多次创历史新高。但水面之下,对英伟达的挑战从来不止,一些变化正在发生。
被视为OpenAI最大竞争对手的Anthropic近日发布Craude3模型,其最高版本在多项基准测试中性能超过GPT-4。鲜少目光会注意到,Anthropic背后站着亚马逊,获亚马逊投资后Anthropic用了其自研AI芯片Trainium和Inferentia训练和部署。谷歌等巨头也在发力自研AI芯片。
引起波澜的另一个事件是,不久前AI芯片初创公司Groq宣称其LPU(语言处理器)推理性能是英伟达GPU的10倍,成本仅为其十分之一。一名AI创业者试用Groq开放的产品后向记者感叹“每秒520个token(文本单元),非常惊艳”。该芯片采用存算一体(近存计算)架构,不完全等同于传统GPU的冯·诺依曼架构。受该芯片推出影响,一名近期获得融资的国内存算一体企业负责人也告诉记者,业界对这种针对AI的新架构芯片关注度明显上升了。
芯片架构创新和AI巨头自研的动力,构成挑战英伟达的两股暗流。谈及颠覆或许为时尚早,但多股利益纠缠下,挑战不会停止。
Groq的架构“革命”
2016年,英伟达CEO黄仁勋将第一台DGX-1超级计算机交给OpenAI,这台超级计算机集成了8块P100芯片,将OpenAI一年的训练时间压缩到一个月。这是GPU推动大模型成型的绝佳案例。此前大模型猛然涌现时,布局高性能计算并搭建CUDA软件生态多年的英伟达伸手接住风口,凭通用性和完善软件生态成为AI芯片最大赢家。
但谈及其芯片架构是否最适合AI运算,答案或许并不是。以英伟达为代表的主流GPU依赖高制程带来性能提升,但可见的是,摩尔定律逼近极限,制造更高制程芯片的成本上升,计算、存储分离的冯·诺依曼架构芯片还面临内存墙和功耗墙,存储器单元和处理单元之间需要数据传输,存储带宽制约了计算系统有效带宽。记者此前参加的行业会议上,有从业者统计了20年间存储器和处理器性能增长情况发现,两者的鸿沟以每年50%的速率扩大,比起算力增长,数据搬运能力增长速度慢更制约大模型发展。业界已在探讨如何避开冯·诺伊曼架构弊端。
既然存储和处理单元数据传输存在损耗,那就缩短两者之间的距离,英伟达的方法是采用DRAM(动态随机存取存储器)堆叠而成的HBM(高带宽内存)并与GPU一起封装,使存储和计算单元更近,增加存储密度的同时减少传输损耗,提升带宽,这正是SK海力士等存储巨头的着力方向,但这种方案还受HBM供应紧缺限制且依赖台积电等先进封装。
要解决内存墙还有一种方法,即改变冯·诺依曼架构,转而采用存算一体架构,将计算单元和存储单元合二为一,这种新架构可用于GPU、LPU等多类芯片。Groq的LPU推理芯片是向存算一体架构靠近的方案,它还改变了芯片产品模式,采用SRAM(静态随机存取存储器)而不用HBM,放大SRAM高存取速度的优势,在芯片制程14nm的情况下,使大模型生成速度近500token/秒,超过GPU驱动的GPT-3.5的40token/秒。
“以英伟达H100为例,里面也有一个SRAM,从HBM进来的数据还要到SRAM里走一趟,带宽大概3.25Tb/秒。Groq这款芯片相当于不再单独接一个HBM,内部带宽可以达80Tb/秒,相比GPU HBM放大了近30倍。”千芯科技董事长陈巍告诉第一财经记者,Groq团队从谷歌TPU(张量处理单元)团队出来,结合了原来的TPU架构思路、近存计算和数据流架构,在集群计算中表现出比较好的性价比。
这款芯片推出后,以前阿里技术副总裁贾扬清为代表的部分人士根据Groq LPU较低的内存容量与英伟达H100对比,认为同等吞吐量情况下Groq LPU的硬件成本和能耗高于H100。陈巍聚焦平均计算成本,量化计算后则发现Groq LPU服务器每token/s、每TOPS BOM模组/计算卡成本均低于英伟达H100,这还是在Groq LPU制程远不及5nm英伟达H100的情况下。陈巍告诉记者,Groq LPU采用的已是近存计算中较成熟的架构,北美在2019年、2020年就陆续有可替代GPGPU的新架构出来的消息,Groq这颗芯片推出基本在预期内。一般而言,认为存算一体架构算力可领先同等工艺逻辑芯片或GPU 4代,12nm或16nm存算一体芯片大约可达7nm或5nm传统架构GPU的算力。未来存算一体与现有GPU技术融合是一个发展方向,或对现有传统GPU形成替代。
国内针对AI需求也在布局存算一体架构,记者了解到,千芯科技相关芯片通过互联网公司内测并在跑大模型,相关企业还包括亿铸科技、阿里达摩院、知存科技、苹芯科技、后摩智能等,这些企业聚焦云端、车端或其他边缘场景。在Groq采用的SRAM外,业界也在探索ReRAM等密度更高的存储介质方案。
一些海外巨头则尝试入场布局存算一体。去年9月,美国AI芯片初创公司D-Matrix获1.1亿美元B轮融资,微软和三星出现在投资方名单中,微软还承诺D-Matrix今年推出芯片时评估该芯片供自身使用。另一家在开发数字存内计算芯片的AI创业企业Rain AI此前被OpenAI CEO萨姆·阿尔特曼(Sam Altman)投资100万美元,2019年,OpenAI便与其签署意向书,计划斥资5100万美元购买Rain AI的AI芯片。
硅谷巨头发力
“受益于英伟达,也受制于英伟达”可能是硅谷巨头们过去一年追逐大模型时的写照。在AI芯片市场处于领先地位的同时,英伟达可用于大模型训练推理的GPU产能一度受限且并不便宜。
Meta创始人扎克伯格今年初提到,到今年年底,公司计算基础设施将包括35万张H100显卡。Raymond James分析师此前表示,英伟达H100售价2.5万~3万美元。若按每张H100售价2.5万美元计算,Meta这批显卡价格将达数十亿美元。萨姆·阿尔特曼则多次提及AI芯片供需问题,近期表示全球需要的人工智能基础设施包括晶圆厂产能、能源等比目前人们规划的更多。
英伟达之外,其他厂商近期传出更多造芯消息。今年2月回应OpenAI7万亿美元造芯计划传闻时,萨姆·阿尔特曼称“我们认为世界将需要更多AI芯片。AI芯片需全球大量投入,超出我们想象”。有消息也称软银集团创始人孙正义正计划筹集1000亿美元资金来资助一家芯片企业。
硅谷科技巨头更早起步。英伟达老对手AMD在GPU领域追赶。亚马逊有用于AI训练的定制芯片Trainium和AI推理芯片Inferentia,去年Meta发布了第一代AI推理定制芯片MTIA v1,谷歌则于2017年就推出了TPU,在此基础上构建AI产品。有消息称,谷歌90%以上AI训练工作都使用TPU,Meta也有计划在数据中心部署自己的AI芯片,减少对英伟达芯片的依赖。
英伟达基于GPU构建的CUDA软件生态是其护城河,但单论一些硬件性能,英伟达GPU并非不可能超越,多家硅谷巨头厂商绕开GPU领域后已在探索不同路径。上海交通大学计算机科学与工程系教授梁晓峣在一场行业论坛中提到,奠定了英伟达AI时代算力基座的V100采用了Tensor Core单元,通过4×4矩阵块运算,而有厂商用了更大矩阵块运算达到更高效率和算力,谷歌TPU和特斯拉FSD芯片则用了脉动阵列,使芯片更高效。
谷歌TPU、Meta的MTIA v1和Groq LPU均属于ASIC(专用集成电路)。据记者了解,GPU作为处理器通用性和灵活性较强,但硬件可编程性较弱,ASIC则将算法固定在硬件上,灵活性较差但理论上能耗表现和性能可高于GPU。除以近存计算克服内存带宽瓶颈,Groq官网还提到,其LPU还旨在克服计算密度的瓶颈,对大语言模型而言,LPU计算能力大于GPU和CPU。
这些ASIC实际表现如何?PyTorch是可利用英伟达CUDA加速GPU计算的深度学习框架。一名使用谷歌TPU和英伟达GPU的研究人员告诉记者,TPU使用的则是JAX框架, JAX本身的软件开源生态还是比PyTorch差,一些PyTorch已实现的功能在JAX上还要实现一遍。当正常运算时,机器规模不大的情况下,英伟达GPU与谷歌TPU的效果差别不太大,但在机器规模增大后,TPU的优势凸显,更简洁高效,不需额外做太多工程优化。
面对有先发优势的英伟达,迁移也是其他AI芯片厂商面临的挑战。大模型在其GPU上跑后,若要迁移至其他AI芯片上需要迁移成本,但其他厂商也并非毫无办法。以上研究人员表示,用Pythorch写的只适用于CUDA的代码,此前难以迁移,但PyThorch1.3开始提供支持,通过Pythorch XLA编译器能较快适配到TPU。这意味着,在英伟达GPU上跑的大模型若要迁移至TPU,不需重写所有代码。但目前限制是,经迁移的代码在大规模集群训练时可能出现一些问题。
在打破英伟达软件优势、让更多AI芯片厂商入场竞争的路上,OpenAI也在努力。OpenAI于2021就发布了开源的Triton1.0,其类似Python,旨在让没有CUDA经验的研究人员能高效编写GPU代码。去年年底AMD发布会上,OpenAI宣布Triton从接下来的3.0版本开始支持MI300等AMD生态。
股价飙升一定程度上说明市场对英伟达仍旧看好,但竞争不会停止,望向未来,AI芯片仍具有很多可能性。
值班编辑:格蕾丝