商汤大装置与华为昇腾 384 超节点全面适配
创始人
2025-09-07 11:42:42
0

IT之家 9 月 6 日消息,据商汤科技官方消息,近日,商汤大装置 SenseCore 与昇腾 384 超节点率先完成全面适配,在功能、性能验证上达到预期目标。

据官方介绍,超节点(SuperPod)是一种通过高速互联技术,将多个 GPU / NPU 整合为统一计算单元的新型架构,解决 AI 大模型训练中的算力协同与通信效率问题。

昇腾 384 超节点(Atlas 900 A3 SuperPoD)是华为推出的业界最大规模超节点方案,凭借创新的“全对等架构”,实现高速互联总线的关键突破 —— 把总线从服务器内部扩展到整机柜、甚至跨机柜,最终将 CPU、NPU、DPU、存储和内存等资源全部互联和池化,形成一台“超级计算机”,实现更大的算力密度和互联带宽。

基于商汤大装置 SenseCore 与昇腾 384 超节点的特点,双方团队联合攻关,在调度优化、系统稳定性以及故障恢复等方面提出多项行业创新:

  • 调度优化:在调度能力上,除了支持 POD 内单机和多机调度、跨 POD 多机调度、亲和性调度等基础能力,SenseCore 平台配合模型并行策略实现了逻辑超节点自动划分,使 EP / TP 等大通信策略可以充分利用灵衢网络,提升模型训练效率。
  • 跨 POD 训练稳定性:另外 SenseCore 团队提交了多个 MR 修复多 POD 场景下 master / work 任务 rank 乱序问题,从根本上解决了跨 POD 训练任务概率性失败的问题。
  • 多维度故障检测与恢复:在故障检测能力上覆盖了从服务器硬件、高速互联总线、RoCE 网络到任务、进程软硬件多维度检测,结合检测能力实现 Job / Pod / 进程多级恢复机制,全面提升昇腾 384 超节点在训练场景下的可靠性与容错性。

IT之家从官方新闻稿获悉,未来,双方还将探索更多应用场景,包括大模型推理加速、智能体应用部署、面向垂直行业的大模型训练与推理优化等,进一步加速基于 SenseCore 的昇腾 384 超节点在各行各业的应用落地。

相关内容

热门资讯

原创 苹... 有不少朋友疑惑苹果iPhone 16 Pro和16 Pro Max有什么区别?该选择哪一款更好?各自...
2025年值得入手的2款智能手... 在科技飞速发展的今天,智能手表已成为我们生活中不可或缺的伙伴。无论是健康监测、信息提醒,还是时尚搭配...
第五轮学科评估对比:西安交大突... 在之前的文章中,我们已经提及西安交通大学第五轮学科评估的表现可圈可点,新晋的3个A+学科:机械工程、...
原创 2... 从去年华为用上了麒麟芯片开始,华为的市场份额就蹭蹭的往上涨,当时抢购的人特别多,一时间还买不到现货,...
解决FaceTime无法使用的... FaceTime是苹果公司推出的一款视频通话应用,广泛应用于iPhone、iPad和Mac等设备上。...
steam官网无法访问?这个办... 对于广大游戏爱好者而言,Steam平台无疑是获取最新游戏资讯、购买游戏、与全球玩家互动的重要阵地。然...
vivo手机5g开关在哪里打开 vivo手机5G开关的打开方式可能因手机型号、系统版本及运营商网络支持情况的不同而有所差异。但总体来...
2024年OPPO手机全攻略:... 手机已不仅仅是通讯工具,它更是我们记录生活、享受娱乐、提升工作效率的重要伙伴。随着科技的飞速发展,O...
原创 麒... 为了普及原生鸿蒙(鸿蒙5.0),抢占更多的中端手机市场份额,华为nova系列今年开始计划一年两更,n...
原创 最... 近日,有关华为nova 13系列手机的消息开始多了起来,之前透露的消息暴露,华为nova 13 Pr...