人工智能发展的下一个阶段是什么?
答案是商业化落地,市场给出了端侧AI与垂直行业大模型两条路,其中前者更为行业所看重,不仅市场更加广阔,而且普罗大众也将更具体感。
2024年,各类搭载了AI大模型的终端产品几乎无处不在,如AI手机、AI PC、AI眼镜、AI家居等,包括谷歌、META、Apple、华为、字节跳动、OPPO等科技巨头都在竭力开发更具市场竞争力和吸引力的AI终端产品,唯恐在这场AI下半场的竞争中落后一步。
于是乎,2024年乃“端侧AI元年”成为行业共识。
01、为什么是端侧AI?
当前我们所熟知的ChatGPT、文心一言、通义千问及Kimi等语言大模型皆属于云端AI范畴。一般而言,云端AI从终端采集信息,再将信息通过网络传输到云中心侧进行后续处理,过程当中很难避免个人信息泄露。在这个信息时代,大众对于数据隐私、安全的重视程度愈发提高,从这方面看,AI发展从云到端也是必然趋势。
除安全及隐私保护之外,大模型在终端运行时有以下几个优点,其一是可以在本地实现离线的数据推理,无需网络交互,非常适合对实时性要求非常高的智能机器人、智能汽车等终端;其二是AI PC、AI手机中很多私人信息不大适合上传至云端,当数据可以在本地处理时,大模型可以结合私人数据,为用户提供更好的个性化服务。
IDC预测,2024年中国终端设备市场中,将有超过半数的设备在硬件层面具备针对AI计算任务的算力基础,至2027年,这一比例将进一步攀升至接近80%的水平,并进入平稳提升阶段。摩根士丹利在5月14日发布的研报中指出,2025年-2026年,AI PC的渗透率将从2024年的8%增至50%。
不过,将大模型从云端移至端侧并没有那么容易,中间有许多难题需要解决。当前的大语言模型内置参数多达百亿千亿,若要将其放置于算力相对有限的PC、智能手机或其他终端运行,端侧的算力、内存容量、内存宽度及功耗都需要纳入考虑范围之内。如何才能使得大模型在完整运行时,在功能方面不会有太大折扣?这是目前端侧AI产业链需要一同解决的问题。
对于如何解决端侧AI在发展中存在挑战,此芯科技联合创始人、软件工程副总裁刘刚认为产业生态合作非常重要,他表示,“AI技术发展日新月异,业界的关注正日益集中于推理技术的发展与应用。随着训练成本的不断攀升,投资者和用户越来越关注如何将AI算力有效落地并应用于特定垂直行业。如何实现端侧AI算力的高效利用,需要集上下游之力进行系统级优化,这已成为行业发展的下一个关键点。”
系统级优化需要从三个方面着手,第一层是对于芯片等硬件的优化;第二层是对于算法与数据的优化,让语言大模型在性能基本不打折扣的情况下,参数规模越来越小;第三层是聚焦语言大模型之间的协同,大模型通过微调优化,可以具备长距离多步推理能力(Reasoning),能以极高的效率解决特定领域的复杂问题。
02、大模型与算力的双向奔赴
在近期举行的此芯科技2024生态大会上,安谋科技市场与生态副总裁梁泉分享了一个有趣的现象——大模型与算力的双向奔赴。
当前,语言大模型的发展呈现两极分化的形式。一方面,云端的大模型内置参数从百亿、千亿乃至数千亿的规模,其发展在不断提升语言大模型的天花板;另一方面,还有很多基于云端AI的创新,越来越多的小模型被发布和下载。而端侧AI的发展,自然更加偏向于“更小更精”。
算力方面,主流AI芯片原本有CPU、GPU,如今多了更面向AI的计算器件NPU。而且,这两年AI芯片算力也得到长足进步,端侧的算力从以往的5—10TOPS慢慢集成提升至40TOPS的范畴,未来还会更高。
端侧AI能力是实现生成式AI全球规模化扩展的关键,端侧AI快速发展倒逼端侧硬件性能升级。在此背景下,高通、苹果等各大芯片龙头争先推出能够在端侧运行生成式AI模型的处理器芯片。值得注意的是,高端芯片市场向来几乎由欧美科技大厂占据,英特尔、AMD盘踞CPU市场,英伟达独霸GPU领域,而手机SoC市占率大多由高通、苹果等把控。端侧AI芯片市场能否跑出一家足以与上述芯片巨头掰手腕的中国企业?
瞄准这一市场空白,此芯科技决定搏一搏。此前,此芯科技创始人、CEO孙文剑曾坦言,“2021 年此芯科技创立,面临诸多关键抉择。团队果断选用潜力巨大、能效出众的 Arm 架构作为 CPU 底层核心,又选定端侧赛道,发力 AI PC、智能汽车与空间计算的底层芯片及算力方案。毕竟,人工智能是产业发展的主线,既是机遇,也是方向。”
经过数年的努力,2024年7月底,此芯科技正式发布了“此芯P1”芯片,该产品是一个高能效异构处理器,芯片采用先进的 Arm V9 架构。异构计算与混合AI的方式,可以更充分地利用端侧算力,已经成为业内公认的最优解。
性能方面,“此芯P1”CPU部分通过多核设计,具备高效的通用计算能力;其GPU满足极致桌面渲染和通用AI计算需求,在处理视频、游戏等工作时有着优异的表现;NPU采用的是安谋科技自研的“周易”NPU,算力达30TOPS,在进行AI推理运算时,提供强大的算力支持。强大的异构AI引擎,提供45TOPS端侧AI异构算力,支持100亿参数以内端侧大模型部署。此外,“此芯P1”的访存子系统配置128-bit LPDDR5低功耗内存,容量可达64GB,数据传输率可达6400Mbps、带宽可达100GB/s。
合理的算力、内存、带宽搭配,使得“此芯P1”不仅拥有出色账面算力,在终端上运行时,对于数据的读写、处理也非常的流畅,不会因数据过大或过于复杂而出现迟滞的情况。也正因此,“此芯P1”可以覆盖智能汽车、一体机、台式机、家庭娱乐主机、企业边缘侧主机等多种产品形态,完美展现“一芯多用”特色。
03、贯通产业链,共创商业价值
想要在高通、苹果、联发科等芯片巨头的竞争中食得一杯羹,仅仅凭借硬件的出色表现还不够。对于芯片企业来说,硬件是公司的核心竞争力,而软件是硬件能力释放的关键,生态则是公司长期发展的护城河,能够帮助公司建立市场主导地位。
一群行业老兵所创立的此芯科技自然知道软件与生态的重要性。如今,此芯科技所秉持生态理念便是——开放的态度,贯通产业链,共创商业价值。
以开放求进步,以开放促合作,以开放取成功。在开放这条道路上,此芯科技是怎么做的?首先,在指令集架构层面,此芯科技选择了更为开放、生态更加完善的Arm。此芯科技创始人、CEO孙文剑在此芯科技2024生态大会上宣布,“未来,团队会向合作伙伴和方案商开放自己的参考设计,会把我们的BSP代码逐步的开源并且向上游、下游提供支持,同时会开放GPU SDK、AI SDK,而且在AI的部署上会开放AI model hub。”
在软件层面,此芯科技推出了此芯NeuralOne AI软件栈,用以针对CPU、GPU、NPU等不同硬件处理单元协同调用,并支持异构AI加速,可满足不同场景下的性能和功耗需求。此芯科技自主设计了此芯GO图形引擎,通过引入应用兼容层并在核心驱动层实现原创优化,适配多种主流桌面环境、兼容传统应用、支持OpenGL标准以及和不同多媒体框架协同等。
在产业链生态合作方面,此芯科技也在不断加强联系。目前,此芯科技已经完成openKylin2.0和deepin 23兼容性认证。同时,此芯科技还与神州网信深入合作,积极推进基于Windows11的CMGE Arm POC,探索Arm硬件平台与windows生态的兼容解决方案。对于下游的大模型应用,此芯科技同样在加强适配工作。自7月底此芯P1发布以来,此芯科技已经完成了上百个端侧AI模型的适配,包括传统的CV、NLP&Audio模型以及最新的生成式AI模型。在大语言模型方面支持主流的Llama系列、千问系列、GLM系列、MiniCPM系列等等多种大模型,后续还将与面壁智能等企业进一步推进相关合作。
“独行快、众行远。”此芯科技并非只将视野局限在公司的发展,也积极参与到端侧AI的发展与共建当中,与产业链合作伙伴一同共创商业价值,推动端侧AI产业的繁荣。
硬件层面,此芯科技洞察到市场对于生成式AI开发板的需求,与安谋科技、瑞莎计算机联合打造了全球首款Armv9开源主板--瑞莎星睿O6。开发套件搭载了“此芯P1”高能效Armv9处理器,可以基于异构算力支持主流端侧生成式AI大模型和传统CNN模型。在算力方面,其拥有12核CPU、桌面级GPU和30TOPS NPU,接口丰富、性能强悍,异构综合算力达45TOPS,满足AI PC算力需求。在硬件架构方面,瑞莎星睿O6既是一款MiniATX标准的主板,也是一款基于Arm架构的单板计算机。
在行业技术规范及平台方面,此芯科技与Arm及国内厂商一起探讨基于Arm SystemReady以及PC BSA规范的支持,这将大大减少合作伙伴相关的重复开发工作量,加快AI PC产品的落地。此芯科技作为芯片设计企业的重要代表,还加入了由安谋科技牵头发起的多方联合共建的端侧AI合作平台——“AIPC和EdgeAI联合实验室”,旨在推动本土的AI生态建设、社区发展和技术运营,进而给端侧AI的落地添砖加瓦。
04、结语
或许,对于许多人而言,端侧AI还远,换句话说即当前的端侧AI还不够智能,无法打动消费者。但任何新事物的发展都需要时间的沉淀,在这个过程中不断迭代进化。
以智能手机为例,2007年,Apple推出了iPhone,当时乔布斯在发布会上说,“今天我们重新发明了电话。”但直到2010年iPhone 4被推出时,iPhone才真正开始风靡全球。这中间的三年,是iPhone被重新定义所需要的时间。
2024年,被业内称为“端侧AI元年”,尽管普罗大众对于这个说法并不关心,但这不妨碍端侧AI将成为未来智能化世界中不可或缺的存在。只不过,端侧AI也如同iPhone那般,需要“被重新定义的那三年”,在这个过程当中,此芯科技作为行业构成的一份子,在竭力赋能行业发展的同时,也将不断壮大自身,打造智能世界 2.0新范式。