AMD AI目标实现关键一环，“单芯片智能”满足嵌入式需求

在AMD董事会主席及首席执行官苏姿丰（Lisa Su）“无处不在的AI”愿景下，该公司在AI领域的布局越来越全面且深入。多款适配AI应用的产品，如EPYC、Ryzen等系列处理器，已经在云上、企业应用中得到广泛应用。不过，面向下一场边缘AI的革命，AMD需要推出更加高效且紧凑的解决方案。

事实上，边缘AI在医疗、交通、智能零售、智能工厂和智能城市等众多行业的变革已经开始了。随着新应用对计算能力的需求日益增加，行业同时面临着功耗和尺寸限制等一系列挑战。以往，AMD主要凭借Versal、Zynq等系列产品满足行业需求。然而，为了应对更高层次的计算要求，AMD正在不断升级，以提供更为强大的支持。

嵌入式AI瓶颈——亟需单芯片加速处理

一直以来，嵌入式系统面临严格限制，比如极端的温度条件、受限的电力供应/空间尺寸，并且必须实现实时响应，确保安全性和可靠性。而随着AI的普及，在传统挑战之外，嵌入式系统还要满足更高的工作负载需求。

在AI驱动的嵌入式系统中，数据处理包括预处理、AI推理和后处理三个关键环节，每个环节都需要加速以实现系统的实时性能。预处理涉及多种传感器的数据融合和交集，是实现实时处理的关键步骤；AI推理通常由矢量处理器执行；后处理则依赖高性能的嵌入式CPU。由于没有单一类型的处理器能够优化这三个阶段，因此需要一系列不同的处理器来针对各个环节进行优化。

构建这样的系统通常采用多芯片解决方案。一般在预处理阶段结合FPGA和SoC进行优化，推理阶段使用非自适应SoC，后处理阶段使用高性能嵌入式CPU。当然，AMD第一代Versal AI Edge系列产品提供了一种替代方案，能够使用可编程逻辑进行预处理，矢量处理或AI引擎进行推理，但后处理仍需要外部处理器的支持。

以上无论哪种方法，都要用到多芯片解决方案，而这会带来一系列问题：比如更高的功率需求、供电复杂性、更大的占板面积和系统尺寸、更高的外部内存需求，以及芯片间互联带来的时延增加。此外，更多的组件增加了安全漏洞和潜在故障点，提高了报废风险，并增加了板卡设计的时间和工作量，从而降低了生产效率。

AMD第二代Versal自适应SoC实现“单芯片智能”

针对上述行业痛点，AMD宣布针对嵌入式系统推出第二代Versal自适应SoC，包括：第二代Versal AI Edge系列和第二代Versal Prime系列，前者专为AI驱动型嵌入式系统设计，后者则适用于经典的嵌入式系统。

“单芯片智能”对嵌入式AI究竟意味着什么？根据AMD自适应与嵌入式计算事业部( AECG ) Versal产品营销总监Manuel Uhm的解读，核心在于单个器件提供端到端加速的能力，能够覆盖数据预处理、推理和后处理三个阶段。

AMD自适应与嵌入式计算事业部( AECG )Versal产品营销总监 Manuel Uhm

第二代Versal自适应SoC通过可编程逻辑进行预处理，包括传感器融合、数据调节，同时加入了新的硬件图像和视频处理功能；在推理阶段，新一代AI引擎AIE-ML v2实现了每瓦TOPS 3倍提升；后处理阶段，通过集成8X Arm Cortex-A78AE应用处理器和10X Arm Cortex-R52实时处理器，实现了10倍的标量计算能力。

此外，考虑到边缘计算对信息安全和功能安全的严格要求，第二代Versal系列产品支持ASIL D、SIL 3等标准，确保安全性能从设计初期就被纳入考虑。

Manuel Uhm表示，“不同于第一代产品更多是进行CPU加速，第二代Versal AI Edge系列最主要的目的是能够形成系统的中央计算。基于过去几十年在嵌入式领域的深耕，AMD面向嵌入式AI提供了强大支持。”

一组直观的对比可以看出第二代Versal在ADAS、智慧城市、视频流应用中更高级别的系统性能提升：

在L2+/L3 ADAS应用中，由于加入硬图像处理功能，第二代AI Edge系列在具备相近功率资源的前提下，其图像处理能力提升了4倍。
在智慧城市场景中，第二代AI Edge系列在为边缘AI设备占板面积带来30%尺寸缩小的同时，支持2倍视频流，意味着每路视频流占板面积缩小65%。
在视频流中，与Zyng MPSoC的效率相比，第二代Versal Prime系列能够为多端口编码与流媒体提供2倍的视频处理能力，使得每路视频流占板面积缩小35%。

如何在三大处理阶段实现“单芯片智能”？

Manuel Uhm深入解释了第二代Versal自适应SoC在预处理、推理、后处理三个阶段的具体表现和实现方式。

预处理阶段最主要的目标就是降低时延、增加确定性。这个阶段如果使用非自适应SoC，I/O接口或硬ISP数量非常有限，缺少灵活性。如果想导入不同的传感器或是数据类型时，必须通过外部存储或缓存，这会导致处理效率低、时延增加。

“预处理阶段，自适应性就相当于灵活性，意味着它能够和任何传感器、任何接口连接。处理器受限于指令集内容，而自适应性可以对硬件实现定制，适配不同的性能，同时可以实现实时。通过可编程的方式，可以做到真正的灵活性”， Manuel Uhm指出。

AI推理方面，与第一代主要通过可编程逻辑来实现AI引擎控制不同，第二代产品的控制处理器包含在AI引擎阵列中，并且进行了硬化处理。也就是说，AI引擎控制的工作无需交由可编程逻辑处理，多出来的可编程逻辑资源可被用于传感器和其他数据的处理工作。

由于AI推理面临高吞吐量和精准度的双重要求，第二代Versal AI Edge系列通过支持多种数据类型，满足了不同级别的精确度和吞吐量需求。例如引入共享指数数据类型，使得在不牺牲精确度的前提下，吞吐量得到了显著提升，在MX6数据类型Dense配置下，最高端性能可达369 TFLOPS，与INT8类型最高可实现184 TOPS的性能相比，实现了约60%的每瓦TOPS提升。此外，AIE-ML v2 AI引擎还能够处理数据信号，如FIR和FFT等。

为了充分发挥AI引擎的强大性能，配套的软件包也必须强大且易于使用，以便开发者能够利用熟悉的工具进行部署和优化。Vitis AI就是这样一个软件包，它允许开发者使用开源工具如PyTorch和TensorFlow等进行模型优化和推理，从而更好地发挥Versal AI Edge系列器件的潜力。

后处理阶段，如前所述，新产品可以提供高达10倍的标量算力。这主要离不开针对复杂决策与类似工作负载的应用处理单元（APU），具有8倍的Arm Cortex-A78AE核心，每核心最高频率高达2.2GHz，并且具备高达200.3K的DMIPS算力；针对控制功能的实时处理单元（RPU），具有高达10倍的Arm Cortex-R52核心，每核心最高频率高达1.05GHz，以及高达28.5K的DMIPS算力；此外，ASIL D及SIL3级别的设计，也大幅提升了新产品应对系统故障的能力。

“对比以往多芯片AI驱动型嵌入式系统，第二代Versal AI Edge系列在单个器件中实现了端到端嵌入式系统加速，并且，采用外部安全微控制器或外部内存的需求也降到最低，不需要在多个处理器之间去分享工作流，提高了效率，免去了额外开销”，Manuel Uhm总结。

斯巴鲁EyeSight视觉系统是使用第二代Versal AI Edge系列产品的典型案例。双方通过合作，使得下一代EyeSight视觉系统的碰撞前制动、车道偏离预警、自适应巡航控制和车道保持辅助性能得到了进一步的提升。而且，利用可编程逻辑，斯巴鲁还可以实时修改立体摄像头的处理算法，进一步强化了车辆安全性能。

据了解，第二代Versal AI Edge系列和第二代的Versal Prime系列早期试用计划已经展开，早期的访问文档已经发布，目前正与包括斯巴鲁在内的主要客户进行接洽。芯片样片将于2025年上半年发布，评估套件和系统模块(SOM)将于2025年年中推出，量产芯片将于2025年末面市。

推动“无处不在的AI”，实现更广泛的智能化

AI正在经历快速的发展和变革，新兴模型如Transformer在短短几年内已成为行业焦点，而未来可能出现的全新模型更是无法预测。要在这样快速变化的环境中保持竞争力，平台的适应性和灵活性变得至关重要。

这也是为什么，AMD致力于开发一个具有高度伸缩性的平台，希望它能够灵活适配未来市场的处理需求。

目前，AMD的AI布局主要聚焦于推理和训练。未来，几大产品线将如何提供相应支持？根据Manuel Uhm的表述，训练端将主要依赖于CPU、GPU的强大能力，并辅以Alveo等自适应加速产品；在边缘推理方面，将主要依靠AI引擎和可编程逻辑来执行推理任务，发挥自适应平台的关键能力。

在分布式机器学习的趋势下，训练和学习任务也被推送到边缘设备执行，而不是集中在云端。这种方法减少了数据回传云端所导致的时延，使得边缘设备能够进行实时学习和适应，AMD的产品也可适用这种场景。

此外，隐私保护成为AI应用中的一个重要考量。随着对数据隐私的关注日益增加，越来越多的用户和企业希望在本地设备上进行数据处理，而不是将数据上传到云端。AMD也关注在边缘设备上进行训练和推理的解决方案，以满足对隐私保护的需求。

Manuel Uhm表示，通过上述战略布局，AMD正积极应对AI领域的主要挑战，旨在推动实现“无处不在的AI”，实现更广泛的智能化。

器件型号	数量	器件厂商	器件描述	ECAD模型	参考价格	更多信息
FT232RL-TUBE	1	FTDI Chip	USB Bus Controller, CMOS, PDSO28, 10.20 X 5.30 MM, GREEN, SSOP-28	ECAD模型下载ECAD模型	$4.7	查看
STM32H750VBT6	1	STMicroelectronics	High-performance and DSP with DP-FPU, Arm Cortex-M7 MCU with 128 Kbytes of Flash memory, 1MB RAM, 480 MHz CPU, L1 cache, external memory interface, JPEG codec, HW crypto, large set of peripherals	ECAD模型下载ECAD模型	$27.62	查看
ATMEGA644PA-AUR	1	Microchip Technology Inc	IC MCU 8BIT 64KB FLASH 44TQFP		$4.99	查看

器件型号

数量

器件厂商

器件描述

数据手册

ECAD模型

风险等级

参考价格

更多信息

FT232RL-TUBE

FTDI Chip

USB Bus Controller, CMOS, PDSO28, 10.20 X 5.30 MM, GREEN, SSOP-28

$4.7

查看

STM32H750VBT6

STMicroelectronics

High-performance and DSP with DP-FPU, Arm Cortex-M7 MCU with 128 Kbytes of Flash memory, 1MB RAM, 480 MHz CPU, L1 cache, external memory interface, JPEG codec, HW crypto, large set of peripherals

$27.62

查看

ATMEGA644PA-AUR

Microchip Technology Inc

IC MCU 8BIT 64KB FLASH 44TQFP

$4.99

查看

AMD AI目标实现关键一环，“单芯片智能”满足嵌入式需求

嵌入式AI瓶颈——亟需单芯片加速处理

AMD第二代Versal自适应SoC实现“单芯片智能”

如何在三大处理阶段实现“单芯片智能”？

推动“无处不在的AI”，实现更广泛的智能化

推荐器件

相关推荐