今天分享的是:浙江大学(陈文智):驱动未来:面向大模型的智算网络
报告共计:10页
《驱动未来:面向大模型的智算网络》探讨了AI大模型与数据中心网络的发展,以及推理和领域模型应用对网络的需求与演进方案。
AI大模型与数据中心网络发展历程
- 大模型发展:参数规模从千亿到万亿,从单模态到多模态。
- 数据中心网络发展:经历标准数据中心网络、超大数据中心网络,到大模型智算中心网络,规模和应用场景不断扩展。
AI大模型算力对网络的需求
包括多节点、大带宽、低长尾时延。万卡训练可缩短训练时间,但通信耗时占比高,长尾时延会造成网络带宽衰减。
AI大模型当前网络实现
包括Scale - out网络和Front - end网络(通算网络),以及Scale - Up互连。不同网络结构在数据传输和GPU服务器内外部计算结果同步上有不同作用机制。
推理和领域模型对网络的需求及演进方案
- 需求:异构算力按需分配,数据高效互通。不同类型算力在不同计算资源上运行,需要高性能网络传输中间结果和输入输出数据。
- 演进方案
- 网络融合:Scale - out网络与Front - end网络融合,实现超大规模、超大带宽、低时延、高可靠,支持训推一体和算力并池,采用一张网设计。
- 高性能协议:采用如RDMA等高性能协议支持数据高效传输,对比TCP - X在原理、适用场景、性能和普适性上各有特点。
下一代智算网络方案
技术分层构建,包括芯片层、传输协议层、虚拟网络层、物理网卡层和物理网络层。通过统一网络空间,支持各类协议栈接入,实现数据在不同算力间高效流转,并解耦/虚拟网络解耦。
以下为报告节选内容