AI时代存储需要更优解。
作者|王博
“中国的数字化应用进程发展是很快的,但在数字基础设施这一块的创新是欠缺的,存、算、网要协同发展。”
在华为全联接大会2024期间,华为公司副总裁、数据存储产品线总裁周跃峰在一场媒体群访结束后,特意对现场的媒体人说了这样一句话。
计算和存储都是数字基础设施中的重要组成部分,计算会像“机器印刷文字”一样生成大量token(词元),而存储就是“纸张”。大模型时代,越来越大规模的算力要求数据存储提供更高性能的数据访问,这和“印刷机速度更快了,纸张的质量和供应速度也要跟上”是一个道理。
国家互联网信息办公室在今年9月8日发布的《国家信息化发展报告(2023年)》显示,我国算力基础设施综合水平稳居全球第二,截至2023年底,提供算力服务的在用机架数达810万标准机架,算力总规模超230EFLOPS。
但是,单纯的数据算力无法单方面支撑整个数据中心的运营,还需要相匹配的数据存储容量。
在数字基础设施领域有一个 “通用计算存算比”的概念,通过计算数据存储容量和数据算力体量之比,来评估数据中心建设的平衡性,避免因为存力的短缺造成算力的浪费而影响数据处理中的效率。
各国通用计算存算比,图片来源:《先进数据存力白皮书》
对比各国通用计算存算比可以看到,中国的存算比并不靠前,这意味着中国在数据存力方面,还有很大进步空间。
如何破局?
1.算力等待数据
9月20日,华为联合罗兰贝格在华为全联接大会2024上发布了《先进数据存力白皮书》(以下简称“《白皮书》”)。《白皮书》中预测,全球通用计算总量将在2030年达到3.3ZFLOPS,相比2020年增长十倍,这意味着全球年均算力将在这十年间呈25%的年复合增长率。中国作为算力全球第二,且将人工智能产业作为核心未来产业且AI产业应用潜力最大的国家之一,其对算力(通用算力+AI算力)的需求增量会远高于25%。
但是《白皮书》同时指出,中国在2021—2023年算力年复合增长率约为25%,同期存力年复合增长率仅为11.5%,存力有进一步增长的空间。
而在实际大模型训练中,宏观数据的差异会表现得更加具体。
“训练两个小时需要半个小时保存数据,整个AI集群利用率很难上去。”这是国内一位大模型工程师在训练千亿参数模型时的真实反馈。
伴随AI大模型算力集群规模不断增长,算力等待数据所产生的算力空载问题日渐突出,亟需加速数据访问效率以提升算力利用率。与此同时,智能化升级也在加速数字化转型,进而产生更多的业务数据,增加了数字化基础设施处理数据的复杂度和压力。
更大规模的算力要求数据存储提供更高性能的数据访问。
而在大模型业务全流程中,与存储有强关联的流程主要有3个: 第一,海量数据处理;第二,模型训练与微调;第三,推理部署与RAG。
不同的流程对数据存储的需求也有一定差异,大容量、高吞吐、高并发、高效率等需求,对数据存储提出了更高的要求。
大模型业务全流程对存储的需求,图片来源:Zomi酱
在大模型训练中,Checkpoint是一个非常关键的概念。它指的是在训练过程中定期保存模型当前状态的快照,这通常包括模型的权重、优化器的状态,以及其他一些训练相关的参数。
每次训练前,需要将海量的训练数据集加载到GPU内存中,过程中需要周期性地将Checkpoint文件保存到存储中,故障时又需要从存储中快速地加载Checkpoint进行恢复。
这就类似于游戏中的自动存档,但游戏中存档保存和读取慢点儿只会略影响游戏体验,大模型训练中Checkpoint保存和读取慢了就意味着算力的浪费。
Dell存储CTO团队技术人员John Cardente在SNIA(全球存储网络工业协会)2024峰会上就列举一组有关Checkpoint的数据。以175B参数模型为例,如果在每两个小时的训练中,允许有5%的时间(360秒)用于保存Checkpoint,它所需要的存储写入带宽就是6.8GB/s,因为在保存Checkpoint时大模型训练任务需要暂停,所以在这360秒里GPU算力就相当于闲置了。
如果存储写入带宽更高,达到34.0GB/s,那么保存Checkpoint的时间就会缩短到72秒。如果存储写入带宽降低到3.4GB/s,那么保存Checkpoint的时间就会增加到720秒。当然,数据保存的时间与模型大小和存储调度优化方案有关,其他因素也会影响时长。
Checkpoint累积写入带宽需求取决于模型大小和允许的最大时间,图片来源:SNIA
除了保存速度,Checkpoint读取速度会对训练产生影响。
以Llama 3 405B为期54天的预训练为例,Meta一共动用了1.6万块GPU集群,该训练过程中遭遇了419次意外组件故障导致的训练中断,平均每3小时发生一次,频繁的故障严重影响了AI模型的训练效率和稳定性。
训练意外中断的原因分类,图片来源:《The Llama 3 Herd of Models》
在这样的大规模训练中,故障在所难免,因此每次故障后如何快速读取数据并尽快重新恢复训练就显得尤为重要。
周跃峰表示,大模型对数据存储提出了更高的要求,“过去对存储来说,快速的性能不是最重要的需求,但是现在我们要面对以往几十倍的吞吐和带宽需求,否则GPU或者NPU就一直等着训练数据进去,就一直在耗电。”
今年年初,埃隆·马斯克(Elon Musk)就表示,自己在一年多前就预测到了芯片短缺,接下来短缺的会是降压变压器(step-down transformer),而明年将没有足够的电力来运行所有的芯片。
“人们需要transformer(指:变压器)来运行transformer(指:transformer模型)。”马斯克说, “这些transformer正在耗尽transformer。”
“有人说了今天我们缺芯片,明天缺电,如果存储做不好就更缺电了。”周跃峰说。
2.寻找存储更优解
在数据存储领域,不同的存储介质有着不同的特性。
存储介质的组织层次,图片来源:Zomi酱
简单对比一下,内存(RAM)是易失性的,意味着断电后数据会丢失;闪存(Flash)是非易失性的,可以在断电后保持数据。另外,内存可提供快速的读写能力,不过容量相对较小,适合高速运算和数据处理;而闪存中与AI系统更相关的NAND Flash主要用在大容量存储场合,比如固态硬盘(SSD),也具备优秀的读写性能、较大的存储容量和性价比,因此在大容量存储领域得到了广泛的应用。
成本的对比则更为直观,华为闪存存储领域总裁黄涛给出的数据是: 内存、SSD这两种介质的价格比是20:1。
而相比传统数据中心中使用较多的机械硬盘(HDD),SSD的随机读写速度远超HDD,这有助于加速机器学习模型的训练和推理过程;SSD可以提供更大的存储容量,并且扩展性更强,这对于管理不断增长的数据集尤为重要;尽管SSD成本比HDD要高,但是SSD产生的热量较少,有助于减少数据中心的冷却需求,进一步降低运营成本。
一位来自中国电信的解决方案专家表示:“万卡时代来临,AI大模型是实践存算分离架构应用潜力最大的核心系统之一,万亿级参数使得服务器外挂硬盘的模式不再适用,集约化全闪SSD存储资源池成为刚需。”
《迈向智能世界白皮书2024》数据存储篇指出,不论是面向关系型数据库的集中式架构,还是面向海量非结构化数据的分布式架构,都可以利用 闪存的高性能、大容量、低功耗,在有限空间内提供惊人的性能密度和容量密度,从而满足大规模算力对数据的高速访问,支撑大规模算力发挥出其应有的作用。同时,创新的数据访问语义(内存语义、向量语义等)可以缩短算力和数据之间的路径,加速算力对数据的访问。
全闪存存储可缩短数据读取和写入的时间,能提供更高的IOPS(每秒进行读写操作的次数)和更低的响应时延,提升现代数据中心的性能,从而满足企业对实时数据处理和分析的极致要求,显著提高数据处理的效率。
3.时代呼唤Storage for AI
「甲子光年」注意到,一些SSD已经开始集成AI功能,如使用AI来管理NAND Flash、进行恶意软件筛查和数据预处理,这些功能可以提高企业的数据管理效率和安全性。
“存储的创新是由应用驱动的,上层的应用变化了,存储一定要变化。 如果上层的应用变化了,下面还是用老的存储变来变去,这一定不是一个负责任的存储厂商。”周跃峰说。
面向AI时代企业生产核心业务的数据存储诉求,华为就做了一次存储上的改变。
在华为全联接2024大会上,华为董事、ICT产品与解决方案总裁杨超斌发表主题演讲,并发布新一代OceanStor Dorado全闪存存储。
华为董事、ICT产品与解决方案总裁杨超斌,图片来源:华为
在性能方面:新一代全闪存软硬件全面升级,智能DPU(数据处理单元)网卡提供数据流和控制流分离能力,打破处理器性能瓶颈,以专用硬件功能卡卸载CPU算力,开启增值特性功能后性能无损。软硬件深度协同释放性能,全新升级的FLASHLINK智能盘控卡协同算法,达成存储系统亿级IOPS、0.03毫秒低时延,相较上一代全闪存存储产品提升性能3倍。
在韧性方面:新一代SmartMatrix全局互联架构,容忍引擎、硬盘框、机柜多层故障,单设备可靠性达99.99999%,极端场景下支持8个引擎7个故障时业务仍恒稳在线。此外,新一代OceanStor Dorado支持SAN和NAS全域防勒索,勒索病毒检测率最高达99.99%。通过智能快照关联分析及智能合成技术,保障数据恢复100%可用。
在AI方面:新一代OceanStor Dorado全闪存存储采用原生块、文件、对象统一存储架构,支持数据库、文件、容器等多样化应用,广泛承载AI时代多样化生产核心数据存储需求,可以说是AI-Ready。通过DME数据管理引擎实现对话式运维,并利用大模型技术主动发现异常,运维效率提升5倍。
新一代OceanStor Dorado全闪存存储全面采用AI技术,图片来源:华为
周跃峰进一步介绍, OceanStor A800作为业界首款提供长记忆能力的存储,采用多级KV缓存机制,将AI大模型思考的结果持久化保存并高效使用,让大模型推理具备长记忆能力,减少在Prefill阶段的重复计算,客户推理时延降低78%,单个xPU卡的吞吐量提升67%,大幅提升推理体验的同时降低成本。通过专业AI存储,可长期保存Long context及海量中间推理Token,最大程度提升大模型的逻辑思考和推理能力,尤其是慢思考能力。
“人区别于机器,就是我们有大量的慢思考。”周跃峰说,“推理过程中是需要把过去的推理过程记下来的,这时候存储就要发挥作用。否则你都在内存里面记,第一不是永久记忆,第二太贵了。 我的每一次思考过程以及相关的结果都会记下来,未来我有相同的问题的时候我不需要再算了,我直接从里面取就行了,以查代算、以存代算,这样让整个系统更便宜、更快。”
《先进数据存力白皮书》指出,闪存是业内升级演进的重要趋势,通过计算各个国家当年数据存力总投资额中闪存相关产品的投资占比可以进一步分析不同国家对于敏捷高效生产力的使用情况, 占比越高代表该国家进行快速的数据调取和挖掘时,闪存能够提供强大的底层支撑能力,存力敏捷性更强。
各国闪存占比,图片来源:《先进数据存力白皮书》
从表格中可以看出,中国的排名比较偏后。《白皮书》分析,领先国家闪存率高的核心原因,主要在于更高自动化程度的应用系统对SSD全闪化方案提出的刚性需求,以及在选项数据存储方案时对方案级TCO(总体拥有成本)的重视。
人工智能是一个技术创新总集,如果只看重算力,而忽视数据存储的发展,那么在AI应用落地过程中,就会发现训练和推理都会面临问题。只有不断寻找存储更优解,数据到GPU的这“最后一公里”才会更加通畅。
*参考资料:
《先进数据存力白皮书》,华为、罗兰贝格
《迈向智能世界白皮书2024》数据存储篇,华为
《AI系统:原理与架构》,Zomi酱、苏统华
《大模型系列——AI集群(数据存储)》系列视频,Zomi酱
《The Llama 3 Herd of Models》,Llama team
(封面图来源:「甲子光年」使用AI工具生成)
END.