加入星计划,您可以享受以下权益:

  • 创作内容快速变现
  • 行业影响力扩散
  • 作品版权保护
  • 300W+ 专业用户
  • 1.5W+ 优质创作者
  • 5000+ 长期合作伙伴
立即加入
  • 正文
    • 带宽需求与日俱增
    • 应运而生的CPO
    • 为什么HPC首当其冲?
    • CPO能解决什么问题?
    • 可插拔器件与CPO谁将笑到最后?
    • 只有头部光学供应商能玩CPO?
    • 应对数据爆炸式增长挑战
  • 推荐器件
  • 相关推荐
  • 电子产业图谱
申请入驻 产业图谱

封装内光I/O能解AI和ML燃眉之急吗?

2023/07/25
2580
阅读需 13 分钟
加入交流群
扫码加入
获取工程师必备礼包
参与热点资讯讨论

人工智能AI)模型对计算、存储和数据移动有着永不满足的需求,传统架构的能力正成为扩展机器学习(ML)的主要瓶颈。当前的困境在于,一些技术方法在电力和能源使用方面遇到了阻碍。

Yole从事光通信半导体激光器的高级分析师Martin Vallo博士认为:“目前,许多挑战源于使用电气I/O。像AI/ML这样的应用经常需要将数据从一个芯片快速移动到另一个芯片,或从一块板快速移动到另外一块板。因此,计算芯片需要更多的通信,要么通过更多的焊盘,要么在单个焊盘中以非常高的速度通信。”

带宽需求与日俱增

过去50年,每十年都会出现一次移动技术的创新。移动带宽需求已从语音通话和短信发展到超高清(UHD)视频和各种增强现实/虚拟现实(AR/VR)应用。

尽管新冠疫情对电信基础设施供应链产生了很大影响,但全球消费者和商业用户对网络和云服务产生的新需求有增无减。社交网络、商务会议、超高清视频流、电子商务和游戏应用仍将继续增长。

现在,每个家庭和人均连接互联网设备的平均数量正在增加。随着功能和智能不断增强的新型数字设备的出现,以及不断扩展的机器对机器(M2M)应用,如智能电表、视频监控、医疗保健监控、连网驱动器和自动化物流,极大地促进了设备和连接的增长,并推动着数据中心基础设施的扩张。

应运而生的CPO

一些领先的光子学公司正在探索封装内光I/O技术,以实现计算芯片间的通信。凭借网络应用,尤其是AI和ML系统,CPO(Co-Packaged Optics,共封装光学器件)开始引领潮流。

CPO是将光学器件用于非常短的传输距离,例如机架内应用或系统内。因此,高性能计算(HPC)及其新的分解架构开始采用新的光学互连——封装内光I/O技术,将其用于各种处理单元(xPU)、内存和存储来实现必要的带宽。

Yole预计,用于HPC的光学I/O将大大加快CPO的部署,到2033年将创造一个价值26亿美元的机会之窗,期间复合年增长率为46%。

2022年,CPO市场的收入达到了约3800万美元,对快速增长的训练数据集大小的预测表明,数据将成为扩展ML模型的主要瓶颈,因此AI的进展可能放缓。在ML硬件中使用光I/O可以克服这种负面结果。

2022-2033年数据通信光学收入预测

为什么HPC首当其冲?

HPC中的CPO一直备受关注,此前,由于预算削减,CPO社区面临艰难时期,因为可插拔器件已可实现CPO的成本节约和低功耗。而CPO的全面部署只有在可插拔设备寿终正寝时才会发生。至少,在接下来的两代交换机系统中,CPO很难与可插拔模块竞争。

而由于需要提高数据中心的网络功率效率,CPO最近受到了更多关注。分析表明,与直流电的总功耗相比,联网节省的功耗可以忽略不计。博通、英特尔、Marvell及其他CPO公司已将专有解决方案推向市场。为了满足市场需求并使最终用户相信CPO的可行性,他们必须证明多供应商商业模式以及可观的成本和功耗节约。

随着技术进步,通信和计算技术已更紧密地集成在商业系统中,网络硬件组件越来越常见。此外,AI模型规模正在以前所未有的速度增长,传统架构(铜基电互连)的芯片到芯片或板到板能力将成为扩展ML的主要瓶颈。因此,HPC及新的分解架构出现了极短距离的新型光学互连。

分解设计区分了服务器卡上的计算、内存和存储组件,并分别对其进行池化。利用先进的封装内光I/O技术,将基于光学的互连用于各种xPU,特别是中央处理单元(CPU)、数据处理单元(DPU)、图形处理单元(GPU)、现场可编程门阵列FPGA)和ASIC和存储器,以实现必要的传输速度和带宽。

预测表明,2029年之前6.4T光学模块将投入市场,CPO和可插拔光学器件之间可能会发生激烈的竞争。在此之前,CPO系统的多个技术障碍将得到解决。不过,收发器行业的创新正推动可插拔光学市场。在CPO系统实现网络应用的批量交付之前,将会先在可插拔设备中采用共封装方法,受益者是HPC和分类系统光学引擎。

2024年至2026年间,行业生态系统,包括Ayar Labs、Intel、Ranovus、Lightmatter、AMD、GlobalFoundries以及其他围绕ML系统的供应商Nvidia和HPE将批量交付产品。

CPO能解决什么问题?

如今,光纤芯片组越来越近,用光将数据引入集中处理是架构设计师的主要目标之一。这一趋势始于十年前安装在PCB上的光学组件专有设计。这些嵌入式光学互连(EOI)在板载光学联盟(COBO)中得到了延续,其规范允许在网络设备制造中使用板载光学模块。

CPO则是一种创新方法,将光学器件和开关专用集成电路(ASIC)紧密结合在一起,以实现功率和成本效益高的CPO。由于在50T开关芯片周围部署16个3.2Tbps光学模块是当今的技术挑战,近封装光学器件(NPO)通过使用位于主板上的高性能PCB基板(一种插入器)来解决这一问题,而CPO则是在多芯片模块基板上围绕芯片部署。NPO插入器更宽,使芯片和光学模块之间的信号路由更容易,同时满足信号完整性要求。相比之下,CPO能以更低信道损耗和更低功耗将模块和主机ASIC拉得更近。

共封装方法的横截面

可插拔器件与CPO谁将笑到最后?

Yole预计,800G和1.6T可插拔模块仍将大受欢迎,因为其利用了100G和200G单波长光学器件的优势,因此可以在QSFP-DD和OSFP-XD尺寸中实现技术和成本效益。

在所需的电密度和光密度、热管理和能源效率方面,可插拔尺寸支持6.4T和12.8容量的能力将受到限制。由于采用分立电气架构,功耗和热管理正成为未来可插拔光学器件的限制因素,而CPO技术平台可以克服上述挑战。

不过,数据中心运营商更喜欢经验证的低成本和灵活的解决方案。现在,光插拔模块市场供应链日臻完善,涵盖分立或集成组件供应商、发射器接收器光学组件、多路复用器数字信号处理器DSP)和PCB的光学公司,以及组装/测试集成商。这种多供应商市场涉及许多不同的供应商。此外,一个交换机盒中多个不同可插拔模块的互操作性也有助于实现灵活性。

只有头部光学供应商能玩CPO?

CPO的主要优势严重依赖于硅光子学,只有高度集成的光学器件和硅芯片,而且要有新的工艺能力和代工厂的加持,才能从可插拔产品转向CPO。而这只有价值数十亿美元的光学供应商才能实现,传统中型企业根本玩不转。

目前,尽管只有大型云运营商部署了高端CPO解决方案,许多小型企业数据中心没有采用最新的互连技术,因此该技术不会很快铺开。这意味着,即使CPO成为主流技术,可插拔模块仍将对CPO在技术或经济上不可行的几个应用(如长途应用和边缘数据中心)有很高的需求。专家预计,可插拔技术在10年内不会被淘汰。不过,可插拔和光学行业可能会整合,而CPO市场将形成多供应商商业模式。

回顾2020年,光互连和交换设备行业就CPO展开了广泛讨论,并宣布了几项战略合作,出现了第一批概念验证。这是因为光互连论坛(OIF)、COBO和多源协议(MSA)小组等标准机构已建立了一些内部项目,四家超大型云运营商中的两家——Meta和微软——也积极支持CPO渗透到云网络。

2022年交付了数千台CPO引擎进行试点测试。今年,宏观经济逆风对预算密集型项目产生了负面影响,尤其是CPO等技术。最近,大多数CPO主要支持者已暂停了对CPO项目的支持,博通几乎成了最后一家CPO供应商。

CPO失去吸引力的原因包括,围绕可插拔产品建立了完善的行业生态系统;用于可插拔尺寸的新光学技术,包括薄膜铌酸锂(TFLN)、钛酸钡(BTO)、碳和聚合物调制器,可实现所需的低功率,并在不改变现有网络设计情况下引入市场。这说明,无论哪种技术,只要在性能、功率、成本和可制造性方面存在优势都能蓬勃发展。

在AI/ML系统中的CPO应用有所不同,未来数十亿个光学互连、芯片和电路板的潜力促使大型代工厂为大规模生产做了准备。由于大多数光子学制造IP由非代工厂持有,Tower Semiconductor/Intel、GlobalFoundries、ASE Group、台积电和三星等正在准备硅光子学工艺流程,以接受设计公司的任何光子集成电路(PIC)架构。

另外,小芯片(Chiplet)互连通用规范允许构建超过最大允许尺寸的大型SoC封装,可在同一封装内混合不同供应商的组件,并使用更小的片芯提高制造产量。每个小芯片都可以使用适合特定器件类型或计算性能/功耗要求的不同硅制造工艺。

应对数据爆炸式增长挑战

现在看,封装内光I/O技术与小芯片和硅光子学等创新封装技术相结合,可提供高达1000倍的带宽,而功率仅为电气I/O替代方案的1/10。其带宽扩展路线图始于Ayar Labs开发的每个方向承载2Tbps带宽的能力,每条线带宽为200 Gbps/mm。Yole认为,到本世纪末,每条线带宽将达1–10Tbps/mm。一些用户对>20Tbps和>50Tbps线带宽的可用性更为乐观。

2020-2034年CPO技术上市时间

未来,加速AI/ML系统中的数据移动是HPC系统采用光学互连的主要驱动因素。在ML硬件中使用光I/O可解决数据爆炸式增长带来的问题。在硅光子学进步的推动下,深度光子学集成已在特定数据中心应用中得到证明。因此,光I/O小芯片架构肯定会继续演绎与数据通信密切相关的故事。

 

推荐器件

更多器件
器件型号 数量 器件厂商 器件描述 数据手册 ECAD模型 风险等级 参考价格 更多信息
KSZ8721BL 1 Microchip Technology Inc DATACOM, ETHERNET TRANSCEIVER, PQFP48

ECAD模型

下载ECAD模型
$4.59 查看
TJA1042T/3,118 1 NXP Semiconductors TJA1042 - High-speed CAN transceiver with Standby mode SOIC 8-Pin

ECAD模型

下载ECAD模型
$1.51 查看
AD73311ARSZ 1 Analog Devices Inc Single-Channel, 3 V and 5 V Front-End Processor for General Purpose Applications Including Speech and Telephony

ECAD模型

下载ECAD模型
$10.72 查看

相关推荐

电子产业图谱

“TechSugar”微信公众号分享独家观点,做你身边值得信赖的新媒体,提供有深度、有广度的原创文章。