英特尔：让生成式AI无所不在，软硬件架构如何演进？

ChatGPT引发的轰动仍在发酵，那么随着生成式AI的爆发，AI的落地门槛如何进一步降低？随时随地构建和部署AI，还有哪些痛点问题要关注？

日前，英特尔院士、大数据技术全球首席技术官戴金权在接受<与非网>等媒体采访时表示，基于开放方法和异构计算的生成式AI更容易获得，也能够更经济地部署更优解决方案。此外，开放的生态系统允许开发人员在优先考虑功耗、价格和性能的同时，随时随地构建和部署AI，从而释放生成式AI的力量。

“让生成式AI无所不在”

过去6-12个月以来，从Stable Diffusion到ChatGPT、大语言模型等，一系列生成式AI技术发展迅速。“一直以来，英特尔希望能够实现AI、包括生成式AI的普适化，让各行各业、以及普通的消费者用户都可以使用。”戴金权表示。

事实上，可以从软、硬件两个层面来解读英特尔在AI、包括生成式AI方向的策略。软件方面，英特尔致力于拥抱开源、以及AI开放社区，在开源软件如TensorFlow、PyTorch、Hybrid Bonding、OpenAI等方面，与业界有着广泛的合作。并且，在大语言模型方面与顶级机器学习开源库Hugging face，在Bloom等开源模型上也有很多合作。

据戴金权介绍，英特尔和Hugging face进行了很多性能优化工作，特别是针对英特尔平台和生成式AI模型。在几个月前的一项合作中，利用Gaudi 2加速器对176B 参数的BLOOMZ（一种基于转换器的多语言大型语言模型）进行了优化和评估。针对这一可能是迄今为止最大的开源语言模型进行推理，8张英特尔Gaudi 2与8张英伟达A100相比，Gaudi 2要比A100快20%以上。而对于包含70亿参数的BLOOMZ模型推理，Habana第一代 Gaudi具有明显的性价比优势。

此外，与Hugging face在Stable Diffusion的合作中，最新的第四代英特尔至强可扩展处理器，利用AMX高级矩阵扩展来进行矩阵加速，可以做到5分钟内微调一个Stable Diffusion模型，四、五秒可以进行一个推理。

在AI硬件加速方面，英特尔GPU、AI加速器（例如Gaudi）、以及第四代至强可扩展处理器，都加入了专门针对矩阵运算的加速器（英特尔AMX），便于在最新的至强服务器上加速矩阵运算，加速神经网络运算。

“除了专用的硬件加速，为了实现AI无所不在，计算也要无所不在。”戴金权强调，“英特尔的计算设备、计算能力本身是无所不在的，不管是笔记本电脑的CPU、集成显卡、独立显卡，还是数据中心的至强服务器，都是广泛存在的，这可以视作通用计算的能力。如果我们能利用xPU技术，在这些通用的、无所不在的、甚至是消费级的计算上提供AI能力，那就真的可以做到AI、包括生成式AI的无所不在。”

普通PC可以运行生成式AI？

基于对“生成式AI无所不在”的愿景，戴金权列举了一个消费者最容易体验的场景——笔记本电脑。

根据英特尔的展示，在一台搭载了第12代酷睿i5的笔记本电脑中，通过软硬件优化，可以实现大语言模型的运行。基于两个开源的70亿参数和130亿参数的大语言模型，其中，130亿参数的模型基本上可以跟上人的阅读速度、与人进行交互；而入门级的60-70亿参数规模的大语言模型，目前在笔记本上的运行速度已经有了很大提升。

如果将运行大模型的CPU升级到酷睿i9，性能又得到了更大提升。如果=进一步运行在至强处理器上，某种意义上已经超过人的阅读速度了。

除了大语言模型之外，还有一个非常重要的应用是Stable Diffusion，目前英特尔在普通的12代酷睿笔记本上就可以运行Stable Diffusion，不需要任何独立显卡，直接利用集成显卡就可以在二、三十秒内生成一张图片。也就是说，它不需要任何特殊设备，不需要访问云端，就可以将任意模型和算法直接部署到本地笔记本上。而如果用户拥有Arc独立显卡，那么速度可以更快，只要三、四秒就可以生成一张图片。

戴金权解释说，这些案例展示了普通笔记本电脑、甚至是轻薄本运行大语言模型、生成式AI的潜力，体现了“生成式AI无处不在”愿景中最接近普通消费者的场景实现。他强调，不论是消费级CPU、嵌入式GPU、Arc独显GPU，还是服务器至强可扩展处理器，或是数据中心GPU、Gaudi AI加速器，英特尔希望以不同的算力应对不同的应用、场景和用途，也就是说，将xPU架构结合oneAPI，通过软件优化、软件库支持等，提供全方位的“智能计算”能力来支持生成式AI应用，真正做到让生成式AI无所不在。

如何做到“可信赖的AI”？

生成式AI火爆了一段时间后，业界开始关注它从“可用”到“可信赖”的演变。那么，如何真正做到“可信赖的AI”？

戴金权表示，从英特尔自身来说，首先，关于AI的工作，无论是数据、模型、应用等，都有一个“负责任的AI”流程，其中定义了如何消除偏见、如何使用正确的数据等。

第二，要注意到大语言模型在带来生产力提升的同时，也有可能带来数据安全和隐私问题。英特尔在这方面做了大量工作，通过硬件级的安全技术，比如英特尔TDX、英特尔SGX，加上软件层构建的面向大数据分析和机器学习的隐私计算平台（BigDL PPML, Privacy Preserving Machine Learning)，再结合大语言模型和stable diffusion，就可以从数据和模型两方面去保护生成式AI应用，确保数据安全和隐私性。

第三，生成式AI的一些内容是由机器生成的，例如前几年的Deepfake（基于AI的人体图像合成技术的应用），英特尔Lab过去两年做了很多工作，可以通过算法判定生成的内容是不是类似于Deepfake这样的应用，即判断AI生成的是否是假视频。

除此之外，在笔记本上运行Stable Diffusion大语言模型，不仅降低了AI的使用门槛，另一方面也起到了保护数据模型的作用，因为整个生成式AI、大语言模型都可以部署在本地，算法、应用、数据都在本地。

据了解，在监测和管理大规模生成式AI解决方案、并将其整合至企业现有的工作流程方面，英特尔和波士顿咨询公司展开了合作，通过利用英特尔搭载有至强可扩展处理器和Habana Gaudi的AI超级计算机，以及可随时投产的规模化混合云软件，能够在波士顿咨询公司专有数据上训练领域特定的基础模型。该基础模型可洞察基于过去50多年中高度保密的专有数据。同时，所有的AI训练和推理都完全符合波士顿咨询公司的安全标准。

此次合作所产出的联合解决方案旨在解决各种实际的业务问题，例如，为资产管理行业提供自动化投资组合的管理代理；通过专有数据为航空公司提供维护运营；以及提供带有自定义机密代码库的、更为安全的软件开发代理等。

生成式AI热潮如何影响软硬件架构发展？

谈及生成式AI带来的深远影响，戴金权表示，未来，一个很可能的场景就是生成式AI会被大量使用、提高工作效率，未来工作流程进入自动化。英特尔希望做到“AI无所不在“，因此不论是本地、云端还是边缘端，可以实现从非常小尺寸的设备扩展到大规模数据中心的xPU架构，这是能够支持未来“生成式AI无所不在”的一个趋势。

从软件角度来看，大模型当前基本以Transformer架构作为基础构件，那么，它对内存的需求，包括内存带宽、内存容量以及相应的计算需求，业界都在进行大量的研究工作，以便能够更好地进行加速。

从发展的眼光来看，Transformer等大模型可能会有更大的尺寸，将来可能是今天的几倍、几十倍甚至更高，结合多模态融合等需求，将会对软件算法的设计，比如低精度、低比特、压缩、稀疏化，包括注意力机制设计等产生不同需求。他强调，软件算法设计的多样化，是有助于满足生成式AI和大语言模型算力需求的重要组成部分。

综上，戴金权认为这些需求可能会进一步引导将来训练、推理芯片的架构设计等。此外，大模型还在快速发展中，可能在更长的时间段（比如十年、几十年）有很大发展，包括不同算法级别、不同场景的适配等等，而这些都会对AI芯片甚至所有计算芯片带来深远影响。

器件型号	数量	器件厂商	器件描述	ECAD模型	参考价格	更多信息
STM32F429ZIT6TR	1	STMicroelectronics	High-performance advanced line, Arm Cortex-M4 core with DSP and FPU, 2 Mbytes of Flash memory, 180 MHz CPU, ART Accelerator, Chrom-ARTAccelerator, FMC with SDRAM, TFT	ECAD模型下载ECAD模型	暂无数据	查看
STM32F401VET6	1	STMicroelectronics	High-performance access line, Arm Cortex-M4 core with DSP and FPU, 512 Kbytes of Flash memory, 84 MHz CPU, ART Accelerator	ECAD模型下载ECAD模型	$10.53	查看
ATXMEGA32A4U-MH	1	Microchip Technology Inc	IC MCU 8BIT 32KB FLASH 44VQFN		$3.4	查看

器件型号

数量

器件厂商

器件描述

数据手册

ECAD模型

风险等级

参考价格

更多信息

STM32F429ZIT6TR

STMicroelectronics

High-performance advanced line, Arm Cortex-M4 core with DSP and FPU, 2 Mbytes of Flash memory, 180 MHz CPU, ART Accelerator, Chrom-ARTAccelerator, FMC with SDRAM, TFT