今天分享的是:字节跳动:2025年GPU Scale-up 互联技术白皮书
报告共计:24页
《字节跳动:2025年GPU Scale-up互联技术白皮书》聚焦AI发展下GPU集群互联技术,详细阐述了GPU架构、互联方案及字节跳动的创新成果。
1. AI发展推动GPU集群网络升级:机器学习和人工智能的发展,使AI模型对GPU集群数据处理能力需求攀升,需要扩大Scale-up网络规模。以太网技术在GPU集群互联中有优势,多个行业组织基于此开发相关网络技术,字节跳动也推出了满足AI应用需求的网络方案。
2. GPU架构与互联方案剖析:主流GPU架构支持Load-Store语义,计算引擎处理数据,LSU负责传输。新型GPU增加如TMA的传输模块优化数据传输。GPU互联有Scale-up和Scale Out网络,前者带宽高、时延小,基于Load/Store语义;后者带宽低、时延高,基于RDMA语义。
3. 下一代Scale-up互联方案需求与架构:下一代Scale-up网络需承接Load/Store和RDMA语义,满足不同数据传输需求,同时要实现远端Global Memory与本地Shared Memory的数据传输,简化RDMA接口等。其系统架构支持GPU通过两种语义执行不同操作,分别适用于时延敏感和带宽大、时延不敏感的场景。
4. EthLink网络方案优势与特性:EthLink是字节跳动自研的Scale-up网络协议,基于以太网构建,能承载Load/Store和RDMA语义。其协议栈分为Scale-Up语义层和Scale-up网络层,支持多种GPU操作,并通过优化链路层报文头降低开销。EthLink采用特定网络拓扑,支持端口负载均衡。在网络接口方面,设计了优化的报文头部提升负载率,选择低延迟FEC,支持链路层可靠传输,还建立了交换机与GPU间的状态反馈机制。
字节跳动的研究成果为GPU集群互联提供了创新思路和可行方案,有助于推动AI领域的进一步发展。
以下为报告节选内容