存储“卡住”GPU(图形处理单元)的脖子,这并不夸张。
过去一年间,大模型带来的算力需求爆发,使英伟达GPU愈加依赖HBM(高带宽存储器)的高带宽。这颗由多个DRAM(动态随机存储器)堆叠而成的芯片,旨在解决传统冯·诺依曼架构中处理器与内存之间的数据传输问题,在大算力场景几乎无可替代。
这也意味着,AI需求也在带动存储芯片行情回暖。经历疫情扰动下长达两年的下行周期,DRAM被HBM率先带动复苏,DRAM “三巨头”SK海力士、三星、美光进入新一轮HBM竞赛。
第一财经记者了解到,AI对存储芯片市场的影响不止于此。DRAM解决的主要是计算时数据传输的问题,巨量数据保存则需依靠NAND Flash(一种非易失性存储介质)制成的SSD(固态硬盘)、嵌入式存储等。两种存储介质共同占据90%以上存储芯片市场,NAND Flash近期也闻风而动。
“数据集巨量增长,呈指数级态势,GPT-4上万亿参数,大模型使用的很多还是爬虫数据库,这种语料库3、4个星期更新一次。”近日闪存市场峰会上,SSD厂商Solidigm亚太区销售副总裁倪锦峰提及数据存储对AI的重要性时表示。一些原厂前期锁住产能情况下,大为创芯销售总监徐志文向第一财经记者表示,他对AI伺服器和AI相关的内存条、企业级SSD需求较为看好,现在整个市场有些产品已经供不应求。
记者从多名存储业内人士了解到,NAND Flash适配AI需求的方式,包括增大容量和降低功耗。业内普遍认为AI还会继续提拉DRAM和NAND Flash的需求,但AI还在走向普惠的过程,业内对AI的提拉速度和力度有不同看法。
此外,针对AI大模型训练推理的需求,云厂商近期也在云存储产品层面着力。
AI催化几何?
在最新发布的Blackwell芯片上,英伟达便采用HBM方案,其HBM3e芯片由SK海力士提供。HBM是多颗DRAM 3D堆叠并与GPU一起封装的存储芯片,主要用于缓解处理器和主存间的通信瓶颈,应对大算力场景下的“内存墙”问题。虽然业内早已有厂商探索HBM,但直到AI需求爆发,HBM才成为备受瞩目的技术。
近期美光透露,今年其HBM产能销售一空,明年绝大多数产能已被预订,SK海力士也透露,2024年其HBM生产配额已经售罄。
AI对HBM的需求可见一斑,即便这颗芯片价格高昂。据市场调查机构Yole数据,HBM今年以来平均售价是普通DRAM的5倍。此前有GPU业内人士向媒体介绍HBM成本“差不多1GB要20美元”。若以1GB HBM 20美元计算,参考美国金融机构Raymond James去年预估的英伟达H100成本3320美元,H100的80GB HBM大约需要1600美元,占该AI芯片成本近半。
AI对HBM的需求,正在改变存储芯片产业结构。据市场调研机构集邦咨询统计,去年HBM占DRAM产业营收8.4%,今年将达20.1%。
为抢占这一增量市场,三大DRAM厂商SK海力士、三星、美光开启了技术竞赛。据集邦咨询分析,三家目前仅SK海力士有HBM3e产品量产,预计三星HBM3e今年第二季度正式出货,三星正逐步挤进英伟达供应链,预计今年SK海力士和三星的HBM市占率均为47%~49%,美光则是3%~5%。价格方面,AI需求带动下,今年第一季度DRAM合约价季增约20%。
“HBM占据极大利润空间,也是原厂必争之地,据各原厂规划,今年将正式进入HBM3e量产。” 深圳市闪存市场资讯有限公司总经理邰炜表示,AI服务器中搭载高容量HBM,对DDR5容量需求也达普通服务器的2~4倍。今年DRAM预计达2370GB单量,同比增长15%,未来5年AI服务器预计驱动DRAM需求大增。
近日第一财经记者与多名存储芯片行业人士交流了解到,即便不是HBM,业界预判其他DRAM产品也有望受益于AI对其容量要求提升。徐志文向记者表示,PC内置生成式AI要求运算速度快,使AI PC对内存和固态硬盘的容量要求提升,后续AI PC内存条容量将在6GB甚至32GB以上,高容量颗粒后续将成为主流。邰炜则预计,生成式AI带动下今年手机平均容量将超200G,DRAM则超7G,16G DRAM将是AI手机最低标配。
此外,多名业界人士认为AI也将影响NAND Flash需求,原因是AI训练和推理需要大量数据,这些数据需存在NAND Flash制成的SSD或嵌入式存储里。相比DRAM与AI算力相关,NAND Flash更与AI所需数据的存力相关。
“AI相关服务器中,NAND和DRAM共同被使用,因GPU高速运算对应的数据高速传输主要是DRAM在支撑,DRAM更瞩目。但整体市场看,AI对IT行业形成推动,相关的不同应用需求会进一步增加,也会带动NAND需求。” NAND Flash厂商铠侠相关负责人告诉记者,企业级市场及数据中心服务器需求预计2024年下半年市场有回暖迹象。从终端销售量看,数码产品或数字电子消费品没有特别大的成长,但单机搭载存储容量有明显增长,对铠侠这样的NAND厂商而言是成长机会。
邰炜也预计,今年NAND Flash总产量将超8000亿GB单量,同比提升20%。
复苏降至?
虽然AI今年有望助力DRAM和NAND Flash总产量提升,但经历了前一轮疫情扰动下的半导体下行周期,如今存储芯片价格从谷底回升的力度是否强劲,业内看法不一,一些从业者认为AI催化下存储芯片行情复苏将是渐进的。
集邦咨询近日表示,虽然DRAM供应商库存已降低,但尚未回到健康水位,DRAM第二季度合约价涨幅将收敛至3%~8%。前期减产控价背景下,第一季度NAND Flash原厂除铠侠和西部数据,其他供应商大致维持低投产策略,NAND Flash合约价季增涨幅将从第一季度的23%~28%收敛至第二季度的13%~18%。
“生成式AI需求一定会增长,但现今问题是不仅生成式AI在预训练的AI模型运算算力成本很高,落地应用的AI模型运算成本也不低,很多公司、组织机构、教学单位想要导入生成式AI助理,但苦于无合适的解决方案。除非有足够平民化的GenAI运算方案出现才会快速提拉需求。”群联电子执行长潘健告诉记者。
综合NAND整体市场需求,潘健认为NAND Flash价格若一直上涨将会出现泡沫,预计价格不会持续涨到明年。
对于存储芯片行情回升的动能,一名做DRAM和NAND Flash产品的厂商技术负责人则向第一财经记者表示,如果没有如今AI带来的新应用和内存容量增高趋势,今年存储行情估计起不来。
也有SSD厂商负责人告诉记者,AI服务器的建设对GPU投入非常大,但SSD相较整个服务器整体价值而言并不高,他认为AI为SSD带来的机遇相对还不够清晰。
存储如何适应AI?
算力和存力紧密相关,特别是在数据、算力、算法驱动的大模型训练过程中。这一轮AI算力需求提升也在改变存储产品形态:除了DRAM厂商开启HBM竞赛外,NAND Flash或SSD厂商也开始在容量和功耗上适应AI训练和推理的需求。
“现在GPU很贵,要怎么通过数据存储层面(做优化)来提高GPU利用率,变得越来越重要。有时候花了钱也得不到更好的GPU,所以不希望因数据等待存储响应,导致GPU出现问题。”倪锦峰表示,服务器中的存储占到功耗的35%左右,需要采用高密度存储或其他方案降低存储功耗。据他介绍,近段时间,北美客户在关注32TB、64TB乃至128TB SSD需求时,已表现出了功耗等方面的担忧。
“我们要不断扩展存储吞吐量和容量,以跟上不断增加的数据数量,此外,需要有效扩展容量和吞吐量,最大限度去提升GPU的利用率,减少计算成本开支。SSD可以帮助AI集群在训练中保持GPU高度运转。” 倪锦峰表示。
铠侠相关负责人告诉记者,AI应用最大功耗还是来自GPU、CPU和HBM三大件,它们也是产生热量的地方,作为SSD,长期而言铠侠在推进大容量的同时也会发力低功耗、省电。针对各应用中AI的功能,比如AI加速、推理对NAND的具体应用,铠侠也已投入研发,此前曾推出针对图像分类系统的AI加速技术。
“做存储第一要务是数据安全。此外,AI对能源的消耗太厉害了,存储产品满足性能需求前提下,功耗能省一点是一点,不仅是省电,也是省散热的预算。少一点热量,GPU就能多一些功率去做计算,更快计算出结果。同时,还要把密度做上去,密度越高产品就可以越小,用户就越有空间去部署GPU,我们还会配合客户做性能优化,比如数据直接从SSD到达GPU,而不经过CPU内存。” 关于AI时代要如何做好存储,企业级SSD厂商忆恒创源CEO张泰乐告诉记者。
SK海力士执行副总裁、NAND-Solution开发部负责人安炫则表示,SK海力士在发力CXL接口技术将会回应海量的AI数据需求等,相关方案能通过计算型存储减少数据往来于GPU间的移动,其计算型内存解决方案CXL2.0在特定工作负载环境下能节省20%工作能耗。
记者了解到,作为非易失性存储,NAND Flash制成的SSD等存储产品,还承担了及时保存大模型运算内容的任务,这要求SSD存入大量数据的速度足够快。铠侠相关负责人告诉记者,因AI服务器中的GPU、DRAM需要处理大量数据,而它们在掉电后无法存储,所以AI服务器需要非常高速的SSD,在掉电前以更快的速度将数据保存下来。铠侠目前在关注最高速的接口方案PCIe 5.0,以及存储密度更大的QLC SSD。
硬件之外,软件层面的存储基础架构也在适应AI时代的要求。不少大模型训练和数据存储在云服务器上进行,云存储厂商的对象存储、文件存储等技术正在针对AI训练进行调整,同样解决大模型训练效率和宕机保存问题。
记者从腾讯云获悉,数据存储约占大模型训练整体工程量的20%~30%。在大模型数据清洗阶段,模型数据量可达PB乃至EB级,对存储提出多协议支持、高性能、大带宽需求。大模型训练阶段则涉及训练成果保存,需要降低存储耗时。
“模型训练阶段短则数周,长则数月,任何一个GPU阶段掉线都会导致训练前功尽弃,需要容错措施,即每2~4小时暂停GPU训练、保存每个GPU Checkpoint(检查点)。” 腾讯云存储总经理马文霜告诉记者,Checkpoint时间要非常短,否则GPU训练效率会被拉低,存储因此需要有高写入带宽。为此,腾讯云将并行文件存储CFS Turbo读写速度从100GB提升至1TB,减少Checkpoint写入耗时,并在数据清洗阶段通过升级数据加速器GooseFS减少单次清洗任务耗时。
腾讯云存储总经理陈峥告诉记者,从文生文、文生图到文生视频,数据爆发式增长,这个过程对存储解决方案的要求越来越高,云存储团队对各业务场景已在预研未来2~3年的存储底座。马文霜认为,AI应用爆发式增长,但还没到繁荣的阶段,当下存储需要解决高性能、高性价比、高速的问题,后续应用于数据审核、数据治理的智能存储也将是一个重要方向。
(实习生郝梓竹对此文亦有贡献)