作者 | 方文三
前言:
在人工智能的快速发展中,大语言模型(LLM)已成为研究和应用的热点。
随着对计算性能和能效比的不断追求,传统的GPU加速方案正面临新的挑战。
FPGA的优势在AI时代凸显
FPGA正在逐步确立其在人工智能和高性能计算领域作为GPU的有力替代品的地位,FPGA的核心优势在于其出色的可编程特性。
FPGA具备改变内部电路的能力,使之成为原型设计和开发中的优选工具。
工程师可以依托FPGA实现快速迭代,对不同硬件配置进行测试,直至找到解决特定问题的最佳方案。
在延迟和功耗方面,FPGA通常较GPU表现更为优越,特别是在针对特定任务进行精细化调整时。
开发人员能够针对特定任务定制硬件加速器,这些任务可能并不适应GPU的固定架构。
这一特性赋予了FPGA高度的灵活性,使其能够微调硬件设计以最大化效率。
然而,在图形处理方面,需要指出的是,高性能专用GPU仍具备更出色的性能和功耗表现。
FPGA为那些需要高度可定制和节能的硬件加速和实时处理特定应用提供了解决方案。
随着人工智能技术的快速发展,FPGA的可编程性优势逐渐凸显,特别是在需要频繁调整底层模型的人工智能推理场景中。
尽管如此,需要明确的是,FPGA并不会成为构建大规模人工智能系统时数千个GPU的有力竞争对手。
然而,随着人工智能在电子领域的广泛应用,FPGA的应用范围将得到进一步拓展。
FPGA与GPU在AI领域的特性对比
①性能与功耗对比:在AI领域,FPGA和GPU的性能和功耗是衡量性价比的关键指标。
根据Achronix的基准测试结果,其Speedster7t FPGA在运行Llama2 70B模型时,每token的成本比GPU解决方案低200%,同时在功耗上也显示出200%的提高。
这表明FPGA在特定场景下,如LLM的推理任务,可能提供更高的性价比。
②灵活性与定制性:FPGA的另一个显著优势是其灵活性和定制性。
与GPU相比,FPGA可以针对特定算法进行硬件级别的优化,从而减少不必要的计算和存储开销。
例如,AMD的Alveo V80加速卡利用Versal FPGA自适应SoC和HBM技术,为需要低延迟和高带宽的AI应用提供了强大的支持。
③市场定位与应用场景:FPGA在AI领域的市场定位主要集中在对实时处理和低延迟有严格要求的应用场景。
例如,英特尔的Stratix 10 NX FPGA通过集成神经处理单元(NPU),在AI性能上实现了显著提升,特别适合数据中心、网络和嵌入式市场中的AI应用。
④成本效益分析:虽然FPGA的初始投资成本可能高于GPU,但其在长期运营中的能效和可编程性可能带来更高的总体拥有成本(TCO)优势。
特别是在算法不断迭代和优化的LLM时代,FPGA的灵活性可以减少因技术过时导致的硬件更换成本。
FPGA与GPU的性能成本对应不同场景选择
GPU主要擅长浮点、并联、定点,可以提供大量的HBM;
但FPGA更擅长实时处理,具备低时延、灵活应变的特点,有非常丰富的存储器架构资源,就像乐高积木一样,可以自定义进行拼接和拼装。
在性能方面,FPGA和GPU各有优势。FPGA以其并行处理能力和可定制的硬件逻辑在某些特定任务上展现出更高的性能。
例如,对于需要快速响应的实时AI应用,FPGA能够提供更低的延迟。
而GPU则在处理大规模并行任务时表现出色,特别是在深度学习训练阶段。
根据相关研究,FPGA在执行某些AI算法时,如卷积神经网络(CNN)的推理,性能可以超越GPU。
FPGA的初始购买成本通常高于GPU,但FPGA的能效比较高,长期运营成本可能更低。
此外,FPGA的可编程性意味着它们可以适应新的算法和模型,减少了因技术迭代而产生的升级成本。
能效比是衡量性价比的重要指标之一。FPGA由于其硬件可定制性,能够针对特定任务优化能耗,通常在能效比上优于GPU。
特别是在推理任务中,FPGA的低功耗特性可以显著降低数据中心的运营成本。
不同的AI应用场景对硬件的需求不同。FPGA更适合对延迟敏感、需要快速响应的应用,如自动驾驶、实时语音识别等。
而GPU则更适合于需要处理大量数据和进行复杂计算的场景,如大规模图像和视频处理。
因此,在选择FPGA或GPU时,需要根据应用场景的具体需求进行匹配。
英伟达通过推出如A100等高性能GPU,英伟达在AI和数据中心市场占据了领先地位。英伟达还提供CUDA等开发平台,以支持深度学习和并行计算。
AMD通过推出具有竞争力的GPU产品,如Radeon系列和Instinct系列,针对游戏、专业图形和数据中心市场。
从性价比的角度来看,FPGA在某些特定领域表现出了优势。
Achronix的Speedster7t FPGA在LLM的基准测试中显示出比GPU更高的性价比,其每token的价格提高了200%,同时功耗也有所提高。
AMD推出的Alveo V80 FPGA加速卡,特别适合需要低时延和高计算密度的应用场景,如高性能计算、数据分析等。
英特尔的Stratix 10 NX FPGA通过集成神经处理单元(NPU)显著提升了AI性能,与英伟达的GPU相比具有更高的性能。
GPU市场继续占大头,FPGA全速追赶
GPU作为AI服务器的核心增量,占据了AI芯片市场的大部分份额,预计到2025年仍将占据80%以上。
中国GPU市场规模在2022年达到83.6亿美元,预计2023年将达到111亿美元。
2022年至2023年间,FPGA市场规模维持在90亿至100亿美元之间,并以7%至8%的复合年增长率持续增长。
到2028年,基于FPGA的解决方案将有望实现额外的30亿美元市场增长空间。
然而,尽管FPGA市场前景广阔,但目前在中国AI芯片市场中,FPGA的占有率仍然相对较低。
根据IDC数据,2022年中国AI芯片市场中,GPU占比高达约89.0%,而FPGA等其他芯片的市场占有率共计超过10%,其中FPGA仅占0.4%。
预计2021年至2027年,FPGA市场将以12%的年复合增长率持续增长,并有望达到130亿美元的规模。
尤其值得一提的是,中国市场预计将呈现出更快的增长速度,未来5年的增长率有望保持在18%左右。
越来越多的厂商布局FPGA赛道
GPU市场由英伟达和AMD等企业占据主导地位,提供涵盖消费级至数据中心级的广泛产品线,以满足不同领域的需求。
在FPGA市场,赛灵思与英特尔共同占据超过七成的市场份额,两家企业凭借高度可定制化的产品,有效满足了特定行业客户的多样化需求。
自2018年左右起,赛灵思(现已被AMD收购)便洞察到FPGA在算力市场的巨大潜力,并确立了[数据中心优先]的战略布局。
随后,该公司发布了Versal自适应计算加速平台,这一创新产品已超越传统FPGA的范畴,通过内部可编程引擎引入多个自适应数据流组织的AI Core,从而成为承载AI等数据密集型运算的核心力量。
赛灵思在FPGA的AI领域,设计了一套专门的硬件体系来支撑数据密集型运算。
Versal ACAP集成了标量处理引擎、自适应硬件引擎、智能引擎以及先进的存储器和接口技术,显著提升了异构加速性能。
相较于赛灵思通过独立于传统FPGA结构之外的AI Core阵列来承载AI运算,英特尔在FPGA的AI技术路线上表现得相对保守。
其主要策略是将FPGA内部的DSP模块升级为AI张量模块,使其成为FPGA内部的一个组成部分。
鉴于AI算法的核心在于高效的张量运算,英特尔的这一技术路线旨在通过优化DSP模块以适应AI张量运算的需求。
在AMD完成对赛灵思的收购之际,赛灵思亦公布了AIE(人工智能引擎)架构。
而英特尔在2020年推出了首款AI优化的FPGA——Stratix 10 NX FPGA,其中集成了名为神经处理单元(NPU)的AI软处理器。
经测试,该FPGA在性能上相较于英伟达T4 GPU和V100 GPU具有显著优势。
近年来,随着AI应用逐渐转向低延迟、高安全性和私密性的处理场景,高端FPGA的特性正逐渐渗透到中端应用领域。
网络边缘计算、智能终端设备等市场展现出巨大的发展潜力,吸引了国内外众多厂商加大对中端FPGA领域的投入。
专注于低功耗FPGA的Lattice公司近年来亦加大了在中端市场的布局力度。
与此同时,英特尔也开始关注中端FPGA市场的机遇。
尽管过去英特尔的FPGA产品主要面向高端应用市场,但随着Agilex D系列FPGA和代号Sundance Mesa的Agilex FPGA的推出,英特尔正逐步将业务重心拓展至中端市场。
国内FPGA厂商亦在积极面向AI领域进行创新。例如,京微齐力在其FPGA产品中采用了Imagination的 Series3NX AI核,以支持AIoT应用、边缘端AI视频分析处理应用等场景。
该公司通过将FPGA、CPU、AI等多种异构计算单元集成于同一芯片上,强调了硬件的可重构特性,从而实现了高定制水平和能效提升。
2024年6月,AMD推出了首款针对大规模数据处理市场的加速卡产品——Alveo V80。
该产品不仅采用了Versal FPGA自适应SoC技术,还集成了HBM,非常适用于高性能计算、数据分析、金融科技、网络安全、存储以及AI计算等多样化应用场景。
FPGA会进一步抢占LLM和边缘AI市场
①在数据中心领域,IPU作为一种与至强可扩展处理器协同工作的器件,发挥着服务器中服务器的关键作用。
每一个IPU器件均基于FPGA技术构建,为数据中心提供强大的计算能力。
②在网络领域,当前市场正经历着巨大的变革,如可编程网络的不断扩展和智能边缘的崛起。
为应对这些变化,我们需要在整个网络中进行协同增效。
EPF、时间敏感性网络(TSN)以及P4可编程解决方案等技术将成为未来市场的重要机遇。
而英特尔的IPU/SmartNIC则被视为驱动下一代网络的核心技术。
③在嵌入式系统领域,如交通汽车和零售等行业,AI/ML技术的广泛应用正在不断提升生产效率和安全性。
FPGA凭借其独特的优势,在这些领域能够显著降低总体拥有成本(TCO)。
结尾:可能在某些应用场景中实现技术融合
在未来,随着技术的不断进步和市场的持续扩大,FPGA和GPU有潜力在某些特定应用场景中实现技术融合,以应对日益复杂的计算需求。
举例来说,FPGA可望在特定任务的加速方面发挥关键作用,而GPU则在大规模数据处理方面具备显著优势。
通过将两者有机结合,可以构建出更加高效且灵活的计算架构,从而满足各种复杂的计算需求。
此外,随着新型计算技术如光子计算和量子计算的不断涌现,AI硬件市场正迎来前所未有的创新和发展机遇。
长远来看,FPGA和GPU等技术将在不同应用场景中各自展现其独特优势,共同推动AI硬件市场的持续繁荣。
最终,是否选择FPGA或GPU作为AI加速方案,将取决于具体的应用需求、预算限制、技术成熟度以及长期投资回报等因素的综合考量。
市场将由技术发展、应用需求和成本效益共同决定,以实现最佳的计算性能和经济效益。
部分资料参考:电子工程世界:《LLM时代,FPGA跑AI会比GPU更强吗?》,大眼仔生活圈:《芯片之争:GPU vs CPU vs FPGA,谁将主导人工智能未来?》,Java学研大本营:《FPGA对比GPU,优劣势与应用场景分析》,与非网:《算力竞速,FPGA如何拥抱AI大时代?》