加入星计划,您可以享受以下权益:

  • 创作内容快速变现
  • 行业影响力扩散
  • 作品版权保护
  • 300W+ 专业用户
  • 1.5W+ 优质创作者
  • 5000+ 长期合作伙伴
立即加入
  • 正文
  • 相关推荐
申请入驻 产业图谱

热点技术名词 -“全调度以太网GSE”

5小时前
264
加入交流群
扫码加入
获取工程师必备礼包
参与热点资讯讨论

今日和文档君一起学习技术名词:

全调度以太网技术(Global Scheduling Ethernet,GSE)——基于报文容器PKTC转发和负载均衡,并实现全局调度。

Q:什么是全调度以太网GSE?

A:GSE(Global Scheduling Ethernet),即全调度以太网技术。GSE是由中国移动联合产业合作伙伴共同提出的一种以太网技术架构,是在现有以太网的基础上进行了优化和创新,以满足智算中心高性能网络技术,旨在突破传统以太网的技术瓶颈,打造无阻塞、高带宽、低时延的新型智算中心网络。

Q:为什么需要GSE?

A:AI训练中,我们常用RDMA协议来高速传输数据。但RDMA对丢包非常敏感,哪怕只丢了一点点数据包,网络的有效传输速度就会大幅下降。

AI大模型训练需要多个计算设备一起工作,它们之间需要频繁通信和同步,这对网络的要求就特别高。现在AI模型越来越大,智算中心的网络性能就得更强才行,需要无阻塞、“0”丢包、低延迟。

传统的以太网在大规模、高速度的数据传输时,容易出现网络拥塞等问题。这就像是一条高速公路,车一多就容易堵。

智算中心的网络中数据流虽然不多,但每个流的数据量都很大,传统的负载均衡方式就容易出问题,导致数据包丢失,动态时延增大等问题,从而影响AI训练的效率。

GSE技术就像是给去往某个目的地的多条高速公路装上了智能导航系统,它能主动控制车流选择最优路径,避免堵车,更高效地转发数据包。这样一来,丢包就少了,网络延迟也低了,整体传输速度就更高了,AI训练效率也就提升了。

Q:GSE技术特点

A:1. 从“流”分发转变为“报文”分发。传统ECMP 负载均衡会导致链路负载不均以及哈希极化,可能引起拥塞和丢包。

GSE设备会将数据包进行逻辑分组,组装成长度较长的“定长”容器,并基于报文容器转发和动态负载均衡,实现单条流在多路径上均匀地负载分担,提升有效带宽。

如果把报文当作货物,报文容器就好像载货能力一样的货车,每辆货车拉着同样重量的货物(数量可以不一样),大量货车被均匀地调度到去往同个目的地的多条高速路上,可以最大程度利用道路资源。

2. 从被动拥塞控制到主动流控,引入“授权请求”和“全局调度机制”,通过构建基于全局动态调度队列(DGSQ)的拥塞控制机制,本设备发送流量速率由最终的设备出口、途经的设备统一进行全网端到端授权,确保了流量负载不超过网络的承载能力,有效避免了网络拥塞而丢包。

这就好像货车在出发前先询问了目的地的库房是否具备接收能力,根据目的地的收货能力以及沿途路况来决定发出多少货物,确保货物能准确送达并接收。

由于AI大模型训练时任意一轮计算的结束均依赖最后一个结果的返回,降低网络长尾时延可有效提升训练完成时间。

交换网络整体转发时延和转发路径上中间节点的拥塞情况正相关,消除中间节点的拥塞就可消除长尾时延。GSE技术实现了精细化调度和和高负载均衡,可有效降低长尾时延,提升训练效率。

GSE支持GSE-N2N和GSE-E2E两大技术场景,GSE-N2N通过网络设备实现全部GSE功能,支持计算与网络设备的解耦;GSE-E2E将部分GSE能力延伸至服务器网卡,借助端网协同实现高性能集群互联。

Q:GSE vs RoCEv2 vs InfiniBand

A:

GSE RoCEv2 InfiniBand
网络设备 GSE交换机 以太交换机 IB交换机
性能 组网性能相较传统RoCEv2可提升40%已上 经过调优可接近IB
兼容性 优,基于以太网改造,有开放标准 优,增强以太网 封闭,不兼容以太网
产业生态 中国移动携手国内智算生态企业共同发布产品及标准。 多种芯片方案,大量网络设备厂家 Nvidia为主等少量海外厂商
易用性 无需复杂的网络参数配置 需要调节各种网络参数,较复杂,自动化部署正在完善中 集中式管理机制,由子网管理器负责整个网络转发表的计算与分发等工作
成熟度 新技术,持续完善中 成熟,还在持续演进完善 成熟

注:RoCEv2(RDMA over Converged Ethernet,融合以太网承载RDMA)

Q:GSE有哪些应用场景?

AGSE主要面向无损、高带宽、低时延等高性能网络需求业务场景,如AI大模型训练的智算中心网络。

Q:GSE业界应用进展

A:在2023年9月的中国网络大会上,中国移动研究院携手合作伙伴发布业界首款“全调度以太网(GSE)”样机。在2023年11月21日的开放数据中心委员会(ODCC)冬季全会会议上,正式成立全调度以太网(GSE)技术特设组并召开第一次工作组会议。在2024年9月27日的中国算力大会上,中国移动携手国内智算生态企业共同发布了全调度以太网(GSE)全套技术标准及首套商用产品。2024.11,中国移动联合云豹智能共同研发首颗GSE DPU芯片--“智算琢光”。2024.12,中国移动联合中兴共同研发首颗可完整支持GSE功能的大容量高性能交换芯片

相关推荐