曦智科技联合北京大学、阶跃星辰为下一代万亿参数大模型训练的基础设施建设提出全新解决方案。
随着大模型参数规模的扩大,分布式训练成为人工智能发展的核心途径。分布式训练可以将模型数据分配给多个计算节点,进行并行计算和数据管理,从而显著加速模型训练的过程,而高带宽域(High Bandwidht Domain, HBD)的设计对提升模型算力利用率至关重要。
然而,现有的HBD架构在可扩展性、成本和容错能力等方面存在根本性限制:
以交换机为中心的HBD(如NVIDIA NVL72)成本高昂、不易扩展规模。
以以AI 加速器(包括GPU 与专用ASIC)为中心的HBD(如Google TPUv3和Tesla Dojo)存在严重的故障传播问题。
2022 年Google发布TPU v4 集群,首次采用光交换方案(Optical Circuit Switch,以下简称“OCS”),这种交换机-GPU混合的HBD在互连成本与系统扩展性之间采取了折中方案,但仍存在故障爆炸半径问题,其成本和容错能力仍不甚理想。
在此背景下,曦智科技联手北京大学、阶跃星辰的研究团队提出了一种以光交换(OCS)模组为中心的高带宽域架构InfiniteHBD,通过在光电转换模组中集成OCS能力,InfiniteHBD实现了动态可重构的单点对多点连接,具备节点级故障隔离和低资源碎片化的能力。
InfiniteHBD在可扩展性和成本上全面优于现有方案:InfiniteHBD的单位成本仅为NVL72的31%,GPU冗余率比NVL72和TPUv4低一个数量级,且与NVIDIA DGX(单机8卡)相比,模型算力利用率最高提升3.37 倍。
该方案以论文形式被国际通信网络领域顶级会议SIGCOMM 2025[1]接收。
曦智科技在集成硅光领域拥有十余年的产业经验,在InfiniteHBD 方案中,创新性的开发了基于硅光子技术的分布式光交换dOCS(distributed Optical Circuit Switch),将基于马赫曾德(MZI,Mach-Zehnder Interferometer)交换矩阵的光交换芯片集成到商用QSFP-DD 800Gbps光电转换模组中,大幅简化了器件结构的同时,有效提升了器件集成度,从而降低了成本和功耗,显著提升了InfiniteHBD 的性价比和系统可扩展性。
分布式光交换方案对于建设超大规模训练集群具有以下收益:
dOCS自带光电转换,提供交换能力的同时可形成跨机超节点;
光交换芯片采用成熟制程,降低了对于先进制程电交换芯片的依赖;
光交换芯片对协议不敏感,适用于当前GPU连接协议碎片化的现状
InfiniteHBD为高带宽域架构的高效扩展提供了新的解决方案,为下一代万亿参数大模型训练的基础设施建设带来了重要启示。 注释: [1]SIGCOMM,Special Interest Group on Data Communication,即数据通信专业组,是ACM(美国计算机协会)组织在通信网络领域的旗舰会议。今年的SIGCOMM 将于9 月8日-11日在葡萄牙科英布拉举行。
关于曦智科技
曦智科技是全球领先的光电混合算力提供商。公司凭借在集成光子领域的开创性技术和全球顶尖的集成电路技术研发团队,致力于在计算需求爆发的时代,为客户提供一系列算力跃迁解决方案,与客户共建更智能、更可持续的世界。曦智科技从光子矩阵计算(oMAC)、片上光网络(oNOC)和片间光网络(oNET)三大核心技术出发,打造光子计算和光子网络两大产品线,与大数据、云计算、金融、自动驾驶、生物医药、材料研究等领域客户开展紧密合作,持续为客户提供更具创造性的高效算力支撑。
- 随机文章
- 热门文章
- 热评文章
- 多圈绝对值编码器:工业精度的“隐形守护者”
- 芯资讯|WT2801:⼀颗蓝⽛语⾳芯⽚IC的⾎糖守护之旅
- 高密度ARM服务器的散热设计
- ups电源—UPS电源蜂鸣不停这样搞定
- 智能化环网柜局放监测方案:构建配电网的智慧之眼
- 安徽京准:北斗卫星授时系统解锁精准时刻及应用场景
- PLC远程控制网关在轴承状态实时监测中的关键应用
- 2025低空技术与工程大会在京开幕
- 政策红利下的电力运维新选择:AcrelCloud-1000 如何适配泛在电力物联网?
- 1工业通信“搭桥匠”!Ethernet IP转ModbusTCP网关助保护测控器畅通“数据动脉”
- 2普源信号发生器DG5072的模拟调制与数字调制对比
- 3普源DHO4404示波器USB信号测试
- 4无刷电机详解及其应用
- 5工业级稳定互联!profient转ethercat网关赋能安川伺服器跨平台精准协同
- 6Aigtek宽带功率放大器的技术原理和应用场景实验介绍
- 7信号发生器AFG31052在多载波信号生成中的应用
- 8喷涂黑科技!Ethernet IP转ModbusTCP网关,让机器人喷涂“指哪打哪”
- 9解析PROFIENT-DEVICENET网关如何搜索到AB模块准确的通讯参数!
- 1can转Profinet网关转换:S7-1200PLC与施耐德变频器间的通信实现
- 2MOS管在电源控制中的应用:正负极驱动原理与设计要点
- 3面壁小钢炮模型MiniCPM4.0发布,端侧智能更进一步
- 4开疆智能Ethernet/IP转Modbus网关连接质量流量计配置案例
- 5开疆智能Ethernet/IP转Modbus网关连接西门子BW500积算仪配置案例
- 6热泵与空调全面跨入SiC碳化硅功率半导体时代:能效革命与产业升级
- 7国产RTC芯片加速迭代:±2ppm超高精度、更低功耗
- 8高通斥资数亿美元收购Autotalks公司,推进车联网部署
- 9芯资讯|唯创电子WTU201F2 B004 红外接近模块:开启卫生间冲水箱智能洁净新时代