随着人工智能(AI)和机器学习(ML)的日益普及,对数据中心网络的需求也在增长。
本白皮书分析了AI网络的新要求、独特的AI流量模式,以及如何利用现存技术使以太网网络适应运行高性能AI工作负载。此外,还讨论了Keysight解决方案如何帮助优化AI网络。
支持AI和ML的网络在要求和流量模式上与传统数据中心网络存在非常明显差异。在传统数据中心和AI数据中心之间,数据的类型、数量和流量模型都有很大的不同。大型AI集群的硬件投资高达数亿美元,通过优化可以显著减少模型训练所需的时间。
在传统数据中心网络中,常见的工作负载包括单个查询或定时作业,如夜间作业。这些工作负载变化很大,流量分布在不同的会话上。整个网络负载在单个链路上均匀分布,随着用户数量的增加而成比例增长。通常,延迟或丢失的数据包不会造成重大问题。例如,银行后端系统处理单个账户余额的网页请求或计算利息的夜间作业。
相比之下,数据中心中的AI集群需要表现得像超级计算机,配备成千上万的图形处理单元(GPU)和数百个CPU及交换机。在AI集群中,所有GPU都致力于解决同一个问题。构建大型语言模型(LLM)在大多数情况下要数天或数周时间。通过最快的网络链路相互连接,这些GPU需要移动大量数据,不能在任何链路上丢失数据包或遇到拥堵。因为所有GPU都在处理同一个问题,所以当最后一个GPU完成处理时,任务就完成了。一旦构建完成,LLM可以迁移到较小的GPU或基于CPU的前端计算机系统。然后,用户都能够使用模型,看看它在训练期间学到的信息应用得如何。这个过程被称为推理。本文仅讨论后端LLM训练。
扩展传统数据中心时,优化主要取决于比较查询响应的服务级别(SLA)与实际结果。例如,检索支票账户余额的响应可能在毫秒级,而大型夜间作业可能需要数小时。若结果未达预期时效,运维人员可以调整服务器数量和网络速度。
然而,扩展AI集群需要优化构建模型的时间。新模型构建可能需数周或数月。即使缩短几天,也能释放AI数据中心价值数百万美元的GPU,用于下一工作。增加GPU成本高昂,且数量有限。因此,首要优化目标是降低GPU的空闲时间,并在增加容量前消除网络拥塞。
在AI集群中,GPU共同学习以训练模型。任何影响一个GPU的数据包延迟或丢失都可能显著延长任务完成时间,因为其他GPU将处于空闲状态。尽管需要高速网络链路,但这还不够。关键在于配置AI网络,利用现代以太网网络的多种技术避免拥塞。
AI数据中心的网络流量模式与传统数据中心不同。工作负载分布在数百或数千个GPU之间,涉及大量数据的发送和接收。与大小不定的互联网流量不同,AI数据大小具有有限的随机性。AI集群在GPU计算和GPU间共享计算结果之间经历快速、高频率的转换。GPU在发送或等待信息时处于空闲状态。流量可能突发,呈现特定模式,如多个GPU相互发送数据,导致内部拥堵。
AI网络性能衡量的是完成时间最长的流量,而非平均带宽。这些长尾显著影响任务完成时间,进而影响GPU利用率。例如,若平均流量完成时间为150毫秒,但一个GPU的最长完成时间为190毫秒,则所有GPU的实际总体完成时间为190毫秒。详情见图1。
在此例中,某些GPU获取数据速度远快于其他GPU。优化的目标并非将数据尽可能快地移动至特定GPU,而是平衡网络,确保所有GPU几乎同时接收到数据,避免空闲。实际上,这涉及加快慢速流程,减慢快速流程。GPU一旦从彼此处接收到数据,即可启动下一计算周期。这种优化网络能最大化GPU利用率。
类比来说,就像100颗大理石悬挂在网上,网孔仅比大理石略大。若将所有大理石投入网中,部分会迅速落下,但许多会聚在一起,最后一个落下需时较长。若通过某种通道引导大理石入孔,即使第一个大理石通过时间较长,所有大理石整体通过速度将更快。这里的网孔代表网络链路,大理石则代表GPU的流量。
相较之下,传统数据中心流量包含许多不同时间发生的大小不一的流量,连接众多客户端。平衡此类流量网络链路相对简单,有时甚至能自我平衡。然而,AI流量涉及始终向所有节点发送大量流量,平衡难度更大。
在传统数据中心,当链路利用率接近50%时,便会考虑升级。而在AI数据中心,链路利用率可高达90%。即使所有链路速度奇迹般地加倍,链路利用率依然会保持在较高水平。
以太网网络在现今数据中心中占据主导地位,公司可以对其进行优化和配置,以支持AI网络。构建、部署、管理和排查这些网络所需的技能,通常可通过内部资源或外部承包商和顾问获得。公司可以利用这些现有技能,为AI配置以太网网络,避免拥塞影响GPU利用率。
现代以太网协议通过优先级流量控制(PFC)、显式拥塞通知(ECN)、数据中心量化拥塞通知(DCQCN)和分组喷溅等技术,管理数据中心网络的流量和拥塞。让我们简要了解这些技术。
PFC允许交换机在其缓冲区达到特定阈值时,向上游设备发送暂停帧,停止该队列的流量。这种方法虽可防止数据包丢失,但单独使用并非最佳解决方案。网络可能会运行缓慢,队列频繁启停。
ECN则在设备间提供拥塞通知,使发送设备降低流量速率。DCQCN协调ECN和PFC的工作。
DCQCN是一种算法,通过在拥塞开始时降低传输速率,使ECN能够管理流量控制,从而减少PFC的持续时间。调整DCQCN较为复杂,还有其他改善AI网络配置的途径。
在传统的数据中心中,等价多路径(ECMP)是一种常用的路由策略,它通过平衡网络流量来实现网络优化。然而,在AI网络中,由于单个AI流量可能会占满整个链路,这种策略就会面临挑战。对于AI网络来说,更有效的方法是在数据包级别进行网络平衡。例如,数据包喷溅以及其他形式的负载均衡技术,如动态负载均衡、基于小单元的路由和确定性路由,可以将数据包分散到可用的网络链路上。与AI集合通信中的流量相比,这些数据包体积小,可以显著提高链路利用率。
在硬件层面,远程直接内存访问(RDMA)技术允许两个服务器之间的应用程序直接交换数据,无需经过处理器、操作系统、缓存或网络内核。这意味着应用程序可以直接在远程服务器的内存上进行读写操作,无需使用任何服务器的处理器,从而实现更快的数据传输和更低的延迟。基于融合以太网的RDMA(RoCE)在以太网网络中提供了这种机制。
通过结合上述技术和为每种技术设置适当的参数,构建一个无损以太网网络是可行的。无损以太网网络的协议已经存在,同时也有工具来提供基准测试,所需的管理应用程序,以及网络工程师和架构师的知识体系都已完备。
行业专家们正在为AI开发新的以太网能力和创新技术。比如,超以太网联盟正在致力于标准化高性能以太网能力,并简化配置和管理,作为其AI网络增长路线图的一部分。挑战在于如何在部署前验证设计和目标。
为了提供AI网络的测试基准,需要模拟AI训练的流量模式,并通过能够模拟GPU和RDMA网络接口卡(NIC)的网络流量发生器发送这些数据。GPU支持RDMA NIC,这使得GPU之间的数据访问变得更快捷。
系统应能够可重复地创建由AI集群中集合通信产生的不同数据模式和大小的场景。这些流量包括模拟队列对(Q-pair)连接和流,生成拥塞通知,执行基于DCQCN的动态速率控制,并提供测试吞吐量、缓存管理以及ECMP哈希的灵活性。
工程团队能够正常的使用支持RoCE v2 / RDMA的网络流量发生器,在实验室或灰度环境中根据性能测量结果对设计进行改进,而不依赖于GPU加速卡。一个有效的AI网络优化解决方案应具备定义AI系统配置以模拟工作负载的灵活性,包括GPU的数量、NIC的数量、拥塞控制设置(如PFC和DCQCN)、数据大小、Q-pair特性以及模拟NIC的配置,灵活的配置可以使基准测试更高效和可重复。进行不同数据大小的基准测试,提供完成时间、算法和总线带宽等关键性能指标的结果是优化AI网络的重要步骤,了解单个RoCEv2 Q-pair的统计指标细节对于排错和定位也很关键。
AI数据中心网络的要求和流量模式与传统数据中心网络有显著差异。优化AI网络的范式不同,人们期望网络能够以接近满载和无损的方式运行。一个关键策略是优化网络以提升GPU利用率。虽然有许多传统以太网的调优方法,但效果并不直观、复杂程度高。
Keysight的工具用于提供基准测试和优化AI网络,工具充分利用了现有的数据中心工程技能、知识体系和测试方法学,可以避免手动、耗时的操作。有了这些工具,网络架构师能够正常的使用Keysight AI(KAI)数据中心构建器来模拟网络负载和GPU行为,结合硬件仪表方案,主动识别瓶颈并调整网络配置,调优网络性能。从而最终明显提升GPU利用率——最小化资源浪费并大幅度降低网络GPU的开支。