随着AI使用规模的持续扩大,一种独特的应用流量正在对网络产生影响。问题不在于训练,而在于推理。
训练在可预测的时间表上运行于集中式集群中。而推理是分布式的,对延迟敏感,并受制于功耗可用性、数据主权和成本等实时约束。路由这些流量的网络架构正日益成为瓶颈,传统的硬件定义网络并非为处理这种情况而构建。
这正是Arrcus要解决的问题。这家位于圣何塞的网络软件公司花费了十年时间构建ArcOS,这是一个旨在将路由和交换工作负载与专有硬件解耦的网络操作系统。该公司向数据中心、电信和企业市场销售产品,在全球数千个网络节点中投入生产运行。本周,Arrcus报告称2025年的订单增长了三倍,并宣布推出Arrcus推理网络架构(AINF),这是一款专门构建用于在分布式基础设施中动态引导AI推理流量的产品。
Arrcus董事长兼首席执行官Shekar Ayyar告诉Network World:"为了通过改善响应时间来促进智能体AI的采用,网络需要变得具有AI感知能力。"
理解ArcOS的实际作用
要理解Arrcus在AINF方面的工作,需要了解ArcOS到底是什么,以及它相对于SONiC或VMware的NSX等其他网络技术的定位。
SONiC是一个专注于交换的操作环境,适合希望通过直接的数据包转发来扩展数据中心容量的运营商。NSX在虚拟化层作为计算环境的网络覆盖层运行。ArcOS在第3层工作,专为策略丰富的路由使用案例而设计:运营商的5G网络切片、数据中心互连,以及可编程流量引导重要的环境。软银部署Arrcus进行SRv6移动用户平面是一个公开披露的例子。
Ayyar解释说:"交换本质上是一个更简单的操作。你只是发送一个数据包或者不发送。路由是一个更复杂的操作。你告诉数据包去哪里以及做什么。在路由方面,你拥有更多的丰富性和策略。"
这种策略丰富的路由基础正是Arrcus现在应用于AI推理的核心。
应对分布式推理的挑战
随着AI工作负载从集中式训练转向分布式推理,网络面临着不同类别的需求。
推理节点在地理上分散分布,必须同时满足延迟、吞吐量、功耗容量、数据驻留和成本等约束条件。这些约束因位置而异,并实时变化,而传统的硬件定义网络并非设计用于动态处理这些约束。
Ayyar说:"这些推理节点现在将变得极其重要,需要准确理解这些推理点的确切约束是什么。你是否有功耗约束?是否有延迟约束?是否有吞吐量约束?如果有,你将如何引导和操控你的流量?"
AINF通过在基于Kubernetes的编排和底层硅片之间引入策略抽象层来解决这个问题。模型通过API接口公开其需求,披露所需参数。这些需求流向路由层,相应地引导流量。
Ayyar说:"可以把我们想象成加速所有这些需求找到通往路由器路径的过程,然后指导位于这个庞大网络节点网中适当位置的路由节点做正确的事情,以满足推理策略。"
运营商定义包括延迟目标、数据主权边界、模型偏好和功耗约束在内的业务策略。AINF实时评估这些条件,并将推理流量引导到最优节点或缓存。组件包括基于查询的推理路由与策略管理、互连路由器和边缘网络。该系统与vLLM、SGLang和Triton推理框架集成。前缀感知用于优化KV缓存使用,帮助推理应用程序满足吞吐量、延迟、数据主权、功耗和成本的服务级目标。
面临的挑战与前景
Ayyar指出了采用的两个近期障碍。首先是认知度。他注意到许多潜在客户一直在设计推理架构时没有将策略感知架构作为一个选项来考虑。其次是现有厂商的锁定,思科和Juniper的用户需要确保AINF能够与现有基础设施干净地互操作。Ayyar表示,Arrcus在互操作性测试方面进行了大量投资来解决这个问题。
Arrcus预计在2026年的订单将超过1亿美元,这个目标是在AINF做出任何贡献之前设定的。该公司计划在巴塞罗那移动世界大会和圣何塞的Nvidia GTC上展示该产品。
Ayyar说:"我们看到的关于AI和AI相关基础设施的所有讨论大多只是冰山一角。人们还没有意识到的是水下的东西,我们相信效率提升和有效性提升就隐藏在水下。一旦这些浮现出来,就像在上面投射X光透视,让人看到,瞧,这就是世界的发展方向。现在就开始吧。"
Q&A
Q1:Arrcus推理网络架构AINF是什么?它能解决什么问题?
A:AINF是Arrcus开发的一款专门用于动态引导AI推理流量的网络产品。它通过在Kubernetes编排和底层硬件之间引入策略抽象层,能够根据延迟、功耗、数据主权等实时约束条件,智能地将推理流量引导到最优的节点或缓存,解决分布式AI推理中的网络瓶颈问题。
Q2:ArcOS与SONiC、VMware NSX有什么区别?
A:SONiC专注于交换操作,适合需要扩展数据中心容量的简单数据包转发;VMware NSX在虚拟化层作为计算环境的网络覆盖层;而ArcOS工作在第3层,专为策略丰富的路由使用案例设计,如5G网络切片、数据中心互连等需要可编程流量引导的复杂环境。
Q3:为什么AI推理比训练对网络要求更高?
A:AI训练在可预测时间表上运行于集中式集群,而推理是分布式的、对延迟敏感的。推理节点地理分散,必须同时满足延迟、吞吐量、功耗、数据驻留和成本等多种约束,这些约束因位置而异且实时变化,传统网络无法动态处理这些复杂需求。