ChatGPT引发的轰动仍在发酵,那么随着生成式AI的爆发,AI的落地门槛如何进一步降低?随时随地构建和部署AI,还有哪些痛点问题要关注?
日前,英特尔院士、大数据技术全球首席技术官戴金权在接受<与非网>等媒体采访时表示,基于开放方法和异构计算的生成式AI更容易获得,也能够更经济地部署更优解决方案。此外,开放的生态系统允许开发人员在优先考虑功耗、价格和性能的同时,随时随地构建和部署AI,从而释放生成式AI的力量。
“让生成式AI无所不在”
过去6-12个月以来,从Stable Diffusion到ChatGPT、大语言模型等,一系列生成式AI技术发展迅速。“一直以来,英特尔希望能够实现AI、包括生成式AI的普适化,让各行各业、以及普通的消费者用户都可以使用。”戴金权表示。
事实上,可以从软、硬件两个层面来解读英特尔在AI、包括生成式AI方向的策略。软件方面,英特尔致力于拥抱开源、以及AI开放社区,在开源软件如TensorFlow、PyTorch、Hybrid Bonding、OpenAI等方面,与业界有着广泛的合作。并且,在大语言模型方面与顶级机器学习开源库Hugging face,在Bloom等开源模型上也有很多合作。
据戴金权介绍,英特尔和Hugging face进行了很多性能优化工作,特别是针对英特尔平台和生成式AI模型。在几个月前的一项合作中,利用Gaudi 2加速器对176B 参数的BLOOMZ(一种基于转换器的多语言大型语言模型)进行了优化和评估。针对这一可能是迄今为止最大的开源语言模型进行推理,8张英特尔Gaudi 2与8张英伟达A100相比,Gaudi 2要比A100快20%以上。而对于包含70亿参数的BLOOMZ模型推理,Habana第一代 Gaudi具有明显的性价比优势。
此外,与Hugging face在Stable Diffusion的合作中,最新的第四代英特尔至强可扩展处理器,利用AMX高级矩阵扩展来进行矩阵加速,可以做到5分钟内微调一个Stable Diffusion模型,四、五秒可以进行一个推理。
在AI硬件加速方面,英特尔GPU、AI加速器(例如Gaudi)、以及第四代至强可扩展处理器,都加入了专门针对矩阵运算的加速器(英特尔AMX),便于在最新的至强服务器上加速矩阵运算,加速神经网络运算。
“除了专用的硬件加速,为了实现AI无所不在,计算也要无所不在。”戴金权强调,“英特尔的计算设备、计算能力本身是无所不在的,不管是笔记本电脑的CPU、集成显卡、独立显卡,还是数据中心的至强服务器,都是广泛存在的,这可以视作通用计算的能力。如果我们能利用xPU技术,在这些通用的、无所不在的、甚至是消费级的计算上提供AI能力,那就真的可以做到AI、包括生成式AI的无所不在。”
普通PC可以运行生成式AI?
基于对“生成式AI无所不在”的愿景,戴金权列举了一个消费者最容易体验的场景——笔记本电脑。
根据英特尔的展示,在一台搭载了第12代酷睿i5的笔记本电脑中,通过软硬件优化,可以实现大语言模型的运行。基于两个开源的70亿参数和130亿参数的大语言模型,其中,130亿参数的模型基本上可以跟上人的阅读速度、与人进行交互;而入门级的60-70亿参数规模的大语言模型,目前在笔记本上的运行速度已经有了很大提升。
如果将运行大模型的CPU升级到酷睿i9,性能又得到了更大提升。如果=进一步运行在至强处理器上,某种意义上已经超过人的阅读速度了。
除了大语言模型之外,还有一个非常重要的应用是Stable Diffusion,目前英特尔在普通的12代酷睿笔记本上就可以运行Stable Diffusion,不需要任何独立显卡,直接利用集成显卡就可以在二、三十秒内生成一张图片。也就是说,它不需要任何特殊设备,不需要访问云端,就可以将任意模型和算法直接部署到本地笔记本上。而如果用户拥有Arc独立显卡,那么速度可以更快,只要三、四秒就可以生成一张图片。
戴金权解释说,这些案例展示了普通笔记本电脑、甚至是轻薄本运行大语言模型、生成式AI的潜力,体现了“生成式AI无处不在”愿景中最接近普通消费者的场景实现。他强调,不论是消费级CPU、嵌入式GPU、Arc独显GPU,还是服务器至强可扩展处理器,或是数据中心GPU、Gaudi AI加速器,英特尔希望以不同的算力应对不同的应用、场景和用途,也就是说,将xPU架构结合oneAPI,通过软件优化、软件库支持等,提供全方位的“智能计算”能力来支持生成式AI应用,真正做到让生成式AI无所不在。
如何做到“可信赖的AI”?
生成式AI火爆了一段时间后,业界开始关注它从“可用”到“可信赖”的演变。那么,如何真正做到“可信赖的AI”?
戴金权表示,从英特尔自身来说,首先,关于AI的工作,无论是数据、模型、应用等,都有一个“负责任的AI”流程,其中定义了如何消除偏见、如何使用正确的数据等。
第二,要注意到大语言模型在带来生产力提升的同时,也有可能带来数据安全和隐私问题。英特尔在这方面做了大量工作,通过硬件级的安全技术,比如英特尔TDX、英特尔SGX,加上软件层构建的面向大数据分析和机器学习的隐私计算平台(BigDL PPML, Privacy Preserving Machine Learning),再结合大语言模型和stable diffusion,就可以从数据和模型两方面去保护生成式AI应用,确保数据安全和隐私性。
第三,生成式AI的一些内容是由机器生成的,例如前几年的Deepfake(基于AI的人体图像合成技术的应用),英特尔Lab过去两年做了很多工作,可以通过算法判定生成的内容是不是类似于Deepfake这样的应用,即判断AI生成的是否是假视频。
除此之外,在笔记本上运行Stable Diffusion大语言模型,不仅降低了AI的使用门槛,另一方面也起到了保护数据模型的作用,因为整个生成式AI、大语言模型都可以部署在本地,算法、应用、数据都在本地。
据了解,在监测和管理大规模生成式AI解决方案、并将其整合至企业现有的工作流程方面,英特尔和波士顿咨询公司展开了合作,通过利用英特尔搭载有至强可扩展处理器和Habana Gaudi的AI超级计算机,以及可随时投产的规模化混合云软件,能够在波士顿咨询公司专有数据上训练领域特定的基础模型。该基础模型可洞察基于过去50多年中高度保密的专有数据。同时,所有的AI训练和推理都完全符合波士顿咨询公司的安全标准。
此次合作所产出的联合解决方案旨在解决各种实际的业务问题,例如,为资产管理行业提供自动化投资组合的管理代理;通过专有数据为航空公司提供维护运营;以及提供带有自定义机密代码库的、更为安全的软件开发代理等。
生成式AI热潮如何影响软硬件架构发展?
谈及生成式AI带来的深远影响,戴金权表示,未来,一个很可能的场景就是生成式AI会被大量使用、提高工作效率,未来工作流程进入自动化。英特尔希望做到“AI无所不在“,因此不论是本地、云端还是边缘端,可以实现从非常小尺寸的设备扩展到大规模数据中心的xPU架构,这是能够支持未来“生成式AI无所不在”的一个趋势。
从软件角度来看,大模型当前基本以Transformer架构作为基础构件,那么,它对内存的需求,包括内存带宽、内存容量以及相应的计算需求,业界都在进行大量的研究工作,以便能够更好地进行加速。
从发展的眼光来看,Transformer等大模型可能会有更大的尺寸,将来可能是今天的几倍、几十倍甚至更高,结合多模态融合等需求,将会对软件算法的设计,比如低精度、低比特、压缩、稀疏化,包括注意力机制设计等产生不同需求。他强调,软件算法设计的多样化,是有助于满足生成式AI和大语言模型算力需求的重要组成部分。
综上,戴金权认为这些需求可能会进一步引导将来训练、推理芯片的架构设计等。此外,大模型还在快速发展中,可能在更长的时间段(比如十年、几十年)有很大发展,包括不同算法级别、不同场景的适配等等,而这些都会对AI芯片甚至所有计算芯片带来深远影响。