字节跳动：2025年GPU Scale-up 互联技术白皮书_科技动态

字节跳动：2025年GPU Scale-up 互联技术白皮书

创始人

2025-05-05 15:00:28

0次

今天分享的是：字节跳动：2025年GPU Scale-up 互联技术白皮书

报告共计：24页

《字节跳动：2025年GPU Scale-up互联技术白皮书》聚焦AI发展下GPU集群互联技术，详细阐述了GPU架构、互联方案及字节跳动的创新成果。

1. AI发展推动GPU集群网络升级：机器学习和人工智能的发展，使AI模型对GPU集群数据处理能力需求攀升，需要扩大Scale-up网络规模。以太网技术在GPU集群互联中有优势，多个行业组织基于此开发相关网络技术，字节跳动也推出了满足AI应用需求的网络方案。

2. GPU架构与互联方案剖析：主流GPU架构支持Load-Store语义，计算引擎处理数据，LSU负责传输。新型GPU增加如TMA的传输模块优化数据传输。GPU互联有Scale-up和Scale Out网络，前者带宽高、时延小，基于Load/Store语义；后者带宽低、时延高，基于RDMA语义。

3. 下一代Scale-up互联方案需求与架构：下一代Scale-up网络需承接Load/Store和RDMA语义，满足不同数据传输需求，同时要实现远端Global Memory与本地Shared Memory的数据传输，简化RDMA接口等。其系统架构支持GPU通过两种语义执行不同操作，分别适用于时延敏感和带宽大、时延不敏感的场景。

4. EthLink网络方案优势与特性：EthLink是字节跳动自研的Scale-up网络协议，基于以太网构建，能承载Load/Store和RDMA语义。其协议栈分为Scale-Up语义层和Scale-up网络层，支持多种GPU操作，并通过优化链路层报文头降低开销。EthLink采用特定网络拓扑，支持端口负载均衡。在网络接口方面，设计了优化的报文头部提升负载率，选择低延迟FEC，支持链路层可靠传输，还建立了交换机与GPU间的状态反馈机制。

字节跳动的研究成果为GPU集群互联提供了创新思路和可行方案，有助于推动AI领域的进一步发展。

以下为报告节选内容

上一篇：正泰电气申请电流互感器等专利，便于操作人员目视避免磕碰摩擦

下一篇：度小满科技申请文本过滤模型相关专利，降低人工成本

字节跳动：2025年GPU Scale-up 互联技术白皮书

相关内容

热门资讯