加入星计划,您可以享受以下权益:

  • 创作内容快速变现
  • 行业影响力扩散
  • 作品版权保护
  • 300W+ 专业用户
  • 1.5W+ 优质创作者
  • 5000+ 长期合作伙伴
立即加入
  • 正文
    • 嵌入式AI瓶颈——亟需单芯片加速处理
    • AMD第二代Versal自适应SoC实现“单芯片智能”
    • 如何在三大处理阶段实现“单芯片智能”?
    • 推动“无处不在的AI”,实现更广泛的智能化
  • 推荐器件
  • 相关推荐
  • 电子产业图谱
申请入驻 产业图谱

AMD AI目标实现关键一环,“单芯片智能”满足嵌入式需求

04/09 16:20
2921
阅读需 13 分钟
加入交流群
扫码加入
获取工程师必备礼包
参与热点资讯讨论

AMD董事会主席及首席执行官苏姿丰(Lisa Su)“无处不在的AI”愿景下,该公司在AI领域的布局越来越全面且深入。多款适配AI应用的产品,如EPYC、Ryzen等系列处理器,已经在云上、企业应用中得到广泛应用。不过,面向下一场边缘AI的革命,AMD需要推出更加高效且紧凑的解决方案。

事实上,边缘AI在医疗、交通、智能零售、智能工厂和智能城市等众多行业的变革已经开始了。随着新应用对计算能力的需求日益增加,行业同时面临着功耗和尺寸限制等一系列挑战。以往,AMD主要凭借Versal、Zynq等系列产品满足行业需求。然而,为了应对更高层次的计算要求,AMD正在不断升级,以提供更为强大的支持。

嵌入式AI瓶颈——亟需单芯片加速处理

一直以来,嵌入式系统面临严格限制,比如极端的温度条件、受限的电力供应/空间尺寸,并且必须实现实时响应,确保安全性和可靠性。而随着AI的普及,在传统挑战之外,嵌入式系统还要满足更高的工作负载需求。

在AI驱动的嵌入式系统中,数据处理包括预处理、AI推理和后处理三个关键环节,每个环节都需要加速以实现系统的实时性能。预处理涉及多种传感器的数据融合和交集,是实现实时处理的关键步骤;AI推理通常由矢量处理器执行;后处理则依赖高性能的嵌入式CPU。由于没有单一类型的处理器能够优化这三个阶段,因此需要一系列不同的处理器来针对各个环节进行优化。

构建这样的系统通常采用多芯片解决方案。一般在预处理阶段结合FPGA和SoC进行优化,推理阶段使用非自适应SoC,后处理阶段使用高性能嵌入式CPU。当然,AMD第一代Versal AI Edge系列产品提供了一种替代方案,能够使用可编程逻辑进行预处理,矢量处理或AI引擎进行推理,但后处理仍需要外部处理器的支持。

以上无论哪种方法,都要用到多芯片解决方案,而这会带来一系列问题:比如更高的功率需求、供电复杂性、更大的占板面积和系统尺寸、更高的外部内存需求,以及芯片间互联带来的时延增加。此外,更多的组件增加了安全漏洞和潜在故障点,提高了报废风险,并增加了板卡设计的时间和工作量,从而降低了生产效率。

AMD第二代Versal自适应SoC实现“单芯片智能”

针对上述行业痛点,AMD宣布针对嵌入式系统推出第二代Versal自适应SoC,包括:第二代Versal AI Edge系列和第二代Versal Prime系列,前者专为AI驱动型嵌入式系统设计,后者则适用于经典的嵌入式系统。

“单芯片智能”对嵌入式AI究竟意味着什么?根据AMD自适应与嵌入式计算事业部( AECG ) Versal产品营销总监Manuel Uhm的解读,核心在于单个器件提供端到端加速的能力,能够覆盖数据预处理、推理和后处理三个阶段。


AMD自适应与嵌入式计算事业部( AECG )Versal产品营销总监  Manuel Uhm

第二代Versal自适应SoC通过可编程逻辑进行预处理,包括传感器融合、数据调节,同时加入了新的硬件图像和视频处理功能;在推理阶段,新一代AI引擎AIE-ML v2实现了每瓦TOPS 3倍提升;后处理阶段,通过集成8X Arm Cortex-A78AE应用处理器和10X Arm Cortex-R52实时处理器,实现了10倍的标量计算能力。

此外,考虑到边缘计算对信息安全和功能安全的严格要求,第二代Versal系列产品支持ASIL D、SIL 3等标准,确保安全性能从设计初期就被纳入考虑。

Manuel Uhm表示,“不同于第一代产品更多是进行CPU加速,第二代Versal AI Edge系列最主要的目的是能够形成系统的中央计算。基于过去几十年在嵌入式领域的深耕,AMD面向嵌入式AI提供了强大支持。”

一组直观的对比可以看出第二代Versal在ADAS智慧城市、视频流应用中更高级别的系统性能提升:

  • 在L2+/L3 ADAS应用中,由于加入硬图像处理功能,第二代AI Edge系列在具备相近功率资源的前提下,其图像处理能力提升了4倍。
  • 在智慧城市场景中,第二代AI Edge系列在为边缘AI设备占板面积带来30%尺寸缩小的同时,支持2倍视频流,意味着每路视频流占板面积缩小65%。
  • 在视频流中,与Zyng MPSoC的效率相比,第二代Versal Prime系列能够为多端口编码与流媒体提供2倍的视频处理能力,使得每路视频流占板面积缩小35%。

如何在三大处理阶段实现“单芯片智能”?

Manuel Uhm深入解释了第二代Versal自适应SoC在预处理、推理、后处理三个阶段的具体表现和实现方式。

预处理阶段最主要的目标就是降低时延、增加确定性。这个阶段如果使用非自适应SoC,I/O接口或硬ISP数量非常有限,缺少灵活性。如果想导入不同的传感器或是数据类型时,必须通过外部存储或缓存,这会导致处理效率低、时延增加。

“预处理阶段,自适应性就相当于灵活性,意味着它能够和任何传感器、任何接口连接。处理器受限于指令集内容,而自适应性可以对硬件实现定制,适配不同的性能,同时可以实现实时。通过可编程的方式,可以做到真正的灵活性”, Manuel Uhm指出。

AI推理方面,与第一代主要通过可编程逻辑来实现AI引擎控制不同,第二代产品的控制处理器包含在AI引擎阵列中,并且进行了硬化处理。也就是说,AI引擎控制的工作无需交由可编程逻辑处理,多出来的可编程逻辑资源可被用于传感器和其他数据的处理工作。

由于AI推理面临高吞吐量和精准度的双重要求,第二代Versal AI Edge系列通过支持多种数据类型,满足了不同级别的精确度和吞吐量需求。例如引入共享指数数据类型,使得在不牺牲精确度的前提下,吞吐量得到了显著提升,在MX6数据类型Dense配置下,最高端性能可达369 TFLOPS,与INT8类型最高可实现184 TOPS的性能相比,实现了约60%的每瓦TOPS提升。此外,AIE-ML v2 AI引擎还能够处理数据信号,如FIR和FFT等。

为了充分发挥AI引擎的强大性能,配套的软件包也必须强大且易于使用,以便开发者能够利用熟悉的工具进行部署和优化。Vitis AI就是这样一个软件包,它允许开发者使用开源工具如PyTorch和TensorFlow等进行模型优化和推理,从而更好地发挥Versal AI Edge系列器件的潜力。

后处理阶段,如前所述,新产品可以提供高达10倍的标量算力。这主要离不开针对复杂决策与类似工作负载的应用处理单元(APU),具有8倍的Arm Cortex-A78AE核心,每核心最高频率高达2.2GHz,并且具备高达200.3K的DMIPS算力;针对控制功能的实时处理单元(RPU),具有高达10倍的Arm Cortex-R52核心,每核心最高频率高达1.05GHz,以及高达28.5K的DMIPS算力;此外,ASIL D及SIL3级别的设计,也大幅提升了新产品应对系统故障的能力。

“对比以往多芯片AI驱动型嵌入式系统,第二代Versal AI Edge系列在单个器件中实现了端到端嵌入式系统加速,并且,采用外部安全微控制器或外部内存的需求也降到最低,不需要在多个处理器之间去分享工作流,提高了效率,免去了额外开销”,Manuel Uhm总结。

斯巴鲁EyeSight视觉系统是使用第二代Versal AI Edge系列产品的典型案例。双方通过合作,使得下一代EyeSight视觉系统的碰撞前制动、车道偏离预警、自适应巡航控制和车道保持辅助性能得到了进一步的提升。而且,利用可编程逻辑,斯巴鲁还可以实时修改立体摄像头的处理算法,进一步强化了车辆安全性能。

据了解,第二代Versal AI Edge系列和第二代的Versal Prime系列早期试用计划已经展开,早期的访问文档已经发布,目前正与包括斯巴鲁在内的主要客户进行接洽。芯片样片将于2025年上半年发布,评估套件和系统模块(SOM)将于2025年年中推出,量产芯片将于2025年末面市。

推动“无处不在的AI”,实现更广泛的智能化

AI正在经历快速的发展和变革,新兴模型如Transformer在短短几年内已成为行业焦点,而未来可能出现的全新模型更是无法预测。要在这样快速变化的环境中保持竞争力,平台的适应性和灵活性变得至关重要。

这也是为什么,AMD致力于开发一个具有高度伸缩性的平台,希望它能够灵活适配未来市场的处理需求。

目前,AMD的AI布局主要聚焦于推理和训练。未来,几大产品线将如何提供相应支持?根据Manuel Uhm的表述,训练端将主要依赖于CPU、GPU的强大能力,并辅以Alveo等自适应加速产品;在边缘推理方面,将主要依靠AI引擎和可编程逻辑来执行推理任务,发挥自适应平台的关键能力。

在分布式机器学习的趋势下,训练和学习任务也被推送到边缘设备执行,而不是集中在云端。这种方法减少了数据回传云端所导致的时延,使得边缘设备能够进行实时学习和适应,AMD的产品也可适用这种场景。

此外,隐私保护成为AI应用中的一个重要考量。随着对数据隐私的关注日益增加,越来越多的用户和企业希望在本地设备上进行数据处理,而不是将数据上传到云端。AMD也关注在边缘设备上进行训练和推理的解决方案,以满足对隐私保护的需求。

Manuel Uhm表示,通过上述战略布局,AMD正积极应对AI领域的主要挑战,旨在推动实现“无处不在的AI”,实现更广泛的智能化

推荐器件

更多器件
器件型号 数量 器件厂商 器件描述 数据手册 ECAD模型 风险等级 参考价格 更多信息
MK66FN2M0VLQ18R 1 NXP Semiconductors RISC MICROCONTROLLER
$54.39 查看
ATMEGA64-16AU 1 Microchip Technology Inc IC MCU 8BIT 64KB FLASH 64TQFP

ECAD模型

下载ECAD模型
$19.46 查看
STM32F407VGT6 1 STMicroelectronics High-performance foundation line, Arm Cortex-M4 core with DSP and FPU, 1 Mbyte of Flash memory, 168 MHz CPU, ART Accelerator, Ethernet, FSMC

ECAD模型

下载ECAD模型
$20.39 查看
AMD

AMD

AMD公司成立于1969年,总部位于美国加利福尼亚州桑尼维尔。AMD(NYSE: AMD)是一家创新的科技公司,致力于与客户及合作伙伴紧密合作,开发下一代面向商用、家用和游戏领域的计算和图形处理解决方案。

AMD公司成立于1969年,总部位于美国加利福尼亚州桑尼维尔。AMD(NYSE: AMD)是一家创新的科技公司,致力于与客户及合作伙伴紧密合作,开发下一代面向商用、家用和游戏领域的计算和图形处理解决方案。收起

查看更多

相关推荐

电子产业图谱

与非网资深行业分析师。主要关注人工智能、智能消费电子等领域。电子科技领域专业媒体十余载,善于纵深洞悉行业趋势。欢迎交流~