加入星计划,您可以享受以下权益:

  • 创作内容快速变现
  • 行业影响力扩散
  • 作品版权保护
  • 300W+ 专业用户
  • 1.5W+ 优质创作者
  • 5000+ 长期合作伙伴
立即加入
  • 正文
    •  01、AI系统和芯片需要改进
    •  02、问题如何解决?
    •  03、结语
  • 推荐器件
  • 相关推荐
  • 电子产业图谱
申请入驻 产业图谱

行业大牛开启新征程,芯片架构创新迎来新局面

2023/11/24
2551
阅读需 15 分钟
加入交流群
扫码加入
获取工程师必备礼包
参与热点资讯讨论

作者:畅秋

本周,全球IT业最大的新闻非OpenAI联合创始人山姆·奥特曼(Sam Altman)离开原公司、加入微软莫属。当然,这并不是终点。

Sam Altman被OpenAI董事会驱逐,被认为是技术派的胜利,因为另一名联合创始人萨斯克维尔认为Altman商业化行动过于激进,存在很多安全隐患,因此,联合其他三名外部董事驱逐了Altman。

本文不关注OpenAI的“宫斗”大戏,无论Altman最终留在微软,还是回归OpenAI,都不会影响他开创AI软硬件新技术和市场的意愿,区别只是在哪里做而已。

据悉,在被解职之前,Altman就在探寻新业务,曾试图在中东筹集数十亿美元用于人工智能(AI)芯片项目Tigris,还想创建一家专注于AI芯片研发的公司,或许,这一项目已经被微软拿下了。另外,Altman还一直在寻求为一款AI硬件设备筹集资金,该设备是他与前苹果设计总监Jony Ive 共同开发的。

近些年,在AI发展方兴未艾的大背景下,不甘于已经取得的“辉煌成绩”,选择开创新业务(从新创业或加盟一家富有活力的大公司)的行业大牛不止Altman一人,还有多位业界知名业界人士,特别是技术大牛,都选择了再创业,因为他们无法抵挡AI发展的巨大潜力,要趁当下还处于“野蛮成长”的产业发展初级阶段,争取用先进的技术和产品,掌控未来竞争的主动权。在这些人当中,典型代表是CPU架构大神Jim Keller和GPU架构大神Raja Koduri。

2020年6月,Jim Keller离开了工作两年的英特尔,2021年初,AI芯片初创公司Tenstorrent宣布任命Jim Keller为公司总裁兼首席技术官,以及董事会成员。Tenstorrent创立于2016年,旨在通过一种新方法和体系结构,研发新型AI处理器,以推动AI和机器学习的发展。近两年,Tenstorrent十分看重RISC-V的应用前景,认为其非常适合未来低功耗AI应用市场需求。

2023年3月,Raja Koduri离开了工作五年的英特尔,选择创业。据Koduri透露,他的新创公司Mihira AI要打造新的生成式人工智能工具,这些工具可以在英特尔、AMD、苹果等公司的芯片上运行,也可以在未来的RISC-V架构芯片上运行。

 01、AI系统和芯片需要改进

当下的AI服务器,多采用异构形式搭建,也就是在计算系统中,使用多种不同类型的处理器(CPU、GPU、FPGA、NPU等),这样可以增加计算速度和效率,以满足不同工作负载的需求,因为AI工作负载通常需要大量的数值计算和并行运算。

传统CPU在通用计算方面表现出色,但对于深度学习等需要大量矩阵计算的任务,效能就会不足,这时,将GPU、TPU等处理器组合其中,可以更好地满足AI任务的需求,提供更高效的运算能力。

对于AI系统的这种异构需求,不同处理器厂商,特别是像AMD和英伟达这样的传统大厂,以及自研AI芯片的互联网大厂,都有各自的解决方案,但不同方案虽然有各自优势,但也存在这样或那样的缺点。

AMD公司推出了APU概念和产品,它就是CPU +GPU的组合,其优点是可以充分发挥两种处理器各自的优势,互相弥补短板,也能在一定程度上减少功耗。不过,其AI训练性能并不比独立的GPU好。

为了满足自家系统的需求,Google自研了张量处理器TPU(Tensor Processing Unit),它是一种ASIC处理器,与 CPU、GPU和APU等通用处理器有很大区别,TPU的专用性很强,针对机器学习和深度学习等AI应用进行了优化,专门用于加速AI的计算任务。不过,在Google的整个网络系统当中,依然需要用到大量的通用CPU和GPU,TPU虽然很好用,但可用规模还是有限的。

可见,要不断改善AI服务器系统性能,单一的通用或专用处理器都无法独自解决问题,需要多种处理器配合工作才行,这就给新的AI芯片技术和产品发展提供了机会。

AI系统的训练和推理平衡水平需要改善。

目前,英伟达的GPU是AI训练芯片市场的领导者,但这只占整个AI芯片需求的20%左右,推理芯片市场相当大,当下的GPU擅长AI训练,而CPU擅长推理,二者在对方领域的局限性都很大。

在AI推理市场,除了数据中心云计算,用户对边缘侧(如手机、PC,以及机器人、工业系统和汽车等)的推理需求在快速增长。因此,AI推理市场不仅很大,而且相当分散。在这种情况下,边缘侧AI推理芯片的市场规模非常大,而且具有极大的发展潜力。

苹果公司的iPhone 就是一个典型的例子,它在A系列处理器中集成了AI内核,目前,AI功能已经占据了A系列处理器整体功能的20%。近些年,多家公司也在采用类似于苹果的SoC AI策略。

粗略计算,AI芯片市场包括约15%的训练,45%的数据中心推理,以及40%的边缘侧推理。在这样的市场背景下,一方面,各大处理器厂商正在提升AI训练和推理能力的融合水平,另一方面,边缘侧推理市场的巨大发展空间给很多移动处理器厂商提供了拓展机会。

AI系统和芯片的功耗也需要改善。

如上文所述,边缘侧推理市场巨大,而这些应用对低功耗要求很高。同时,数据中心和云计算系统的功耗高的吓人,不可能无止境地增加下去,解决这一大应用领域的功耗问题也被越来越多的芯片和系统厂商所重视。

 02、问题如何解决?

从上文介绍中可以看出,AI系统和相关芯片还处于成长期,有很多问题需要解决,特别是AI训练和推理芯片的功能融合、边缘侧AI推理,以及功耗问题,是各大厂商,以及初创企业共同关注的。

最近,英伟达推出的新GPU在AI训练和推理融合能力方面就有很大进步,该公司表示,H100芯片的升级产品H200集成了141GB的HBM3e内存,更加擅长推理,在用于推理或生成问题答案时,性能较H100提高了60%-90%。英伟达表示,与H100相比,H200在Llama 2这样拥有700亿参数大语言模型上的推理速度提升了近一倍。

在边缘侧推理方面,以苹果为学习对象,传统手机处理器厂商也在增加新产品的AI推理能力。以联发科为例,该公司推出的天玑8300可支持生成式AI,最高支持100亿参数AI大语言模型。该芯片集成了生成式AI引擎,整数运算和浮点运算的性能是上一代的两倍,支持Transformer算子加速和混合精度INT4量化技术,AI综合性能是上一代的3.3倍,可流畅运行终端侧生成式AI的各种新应用。

在降低AI服务器功耗方面,初创企业和各大知名厂商投入的力度更大。

以上文提到的Jim Keller加入的Tenstorrent为例,该公司正在开发数据中心解决方案,核心产品是基于RISC-V架构的AI/ML加速器和通用处理器。之所以采用RISC-V指令集,很重要的一个原因就是其功耗低。

据悉,Tenstorrent正在与日本新创晶圆厂Rapidus合作,开发基于2nm制程工艺的边缘侧AI处理器及相关IP。从目前的AI系统市场需求,以及未来该领域对低功耗(数据中心、云和边缘侧都要求降低功耗)的要求来看,先进制程的未来发展前景依然值得期待,因为3nm、2nm,甚至是1nm这样的先进制程技术,就是要在不断提升性能的同时,持续降低功耗。未来,先进制程工艺几乎就是为AI芯片而生的。

对于开发RISC-V芯片和系统,半导体大国政府都很重视。美国政府已经下达了使用RISC-V处理器来模拟下一代稀疏性超级计算机的指示,欧盟也建立了一个基于RISC-V架构的本土加速器项目,称为EPAC。

除了新创企业,传统大厂也在发展低功耗AI芯片方面不遗余力。

以微软为例,该公司于近期推出了用于云端软件服务的处理器Cobalt,该芯片是基于Arm架构的通用处理器,同时,微软还推出了另一款专用AI加速器Maia 100,用于云端训练和推理。这两款芯片将于2024年导入该公司的Azure数据中心。微软基于Arm架构研发芯片,很重要的一个原因就是其功耗比较低。

除了将AI训练和推理融合,以及低功耗之外,现有架构芯片,特别是CPU、GPU,在AI计算方面都存在局限性,因此,一些初创公司,以及传统知名厂商还在探索新型架构的AI芯片,特别是在打破处理单元与内存之间的“通信墙“方面,下了很多功夫。

近些年,以Groq、Cerebras、SambaNova、NextSilicon等为代表的创业公司都在开发各自的新型AI加速器,目标是替代英伟达的GPU。这些公司的产品多为ASIC,也就是AI专用处理器,目前来看,这些新型处理器正在被美国能源部实验室所采用,用于科学研究。同时,美国多家大学也对试用这些芯片持开放态度,例如,NCSA正在与SambaNova合作开发芯片,Cerebras的处理器已经用于AI训练。

在创新架构处理器研发方面,大厂IBM一直都是业界的典型代表,AI专用芯片方面同样如此。最近,IBM推出了一种新的原型芯片架构NorthPole,可以使AI计算更快、更节能。NorthPole 是一款基于人脑计算通路进行神经推理的数字AI芯片,它采用了一种截然不同的设计方法,将所有内存都集成在了处理器芯片上,无需外挂RAM,这使得该处理器能够进行快速的AI推理。该芯片专为AI推理而设计,不需要复杂的冷却系统。据悉,小巧灵活的NorthPole非常适合边缘侧AI应用。

以上介绍的都是各种AI处理器,是硬件。要使整个AI系统充分发挥效能,软件工具的作用也很重要。如前文所述,GPU架构大神Raja Koduri离开英特尔后,创建了新公司Mihira AI,该公司研发的就是AI软件工具。

据Koduri介绍,Mihira AI的最底层是一个异构数据中心架构,涵盖三类工作负载,分别是:用于渲染通用CPU计算;用于AI的异构加速器;用于游戏GPU工作负载。他说,未来的第四个集群可以针对低功耗AI推理进行优化。

从未来发展来看,Mihira AI的目标很可能是替代英伟达的CUDA,以及AMD的ROCm软件生态系统。不过,目前它还处于发展初期,未来的道路十分艰辛。

 03、结语

AI系统、芯片和软件市场发展潜力巨大,各种传统和创新产品同台竞争,随着应用和市场的发展,未来具有很大的想象和操作空间。

正是看到了各种AI技术、产品和商业的发展可能性,越来越多的行业大牛依托创业公司,或依托各大知名厂商,开始了各种创新工作。

在本文截稿时,报道称Sam Altman又回到了OpenAI,继续担任CEO。经过这一波操作,Altman有望在OpenAI获得更多的施展空间,其AI技术和商业拓展之路很可能会加速。

推荐器件

更多器件
器件型号 数量 器件厂商 器件描述 数据手册 ECAD模型 风险等级 参考价格 更多信息
ATXMEGA128D4-MH 1 Atmel Corporation RISC Microcontroller, 16-Bit, FLASH, AVR RISC CPU, 32MHz, CMOS, PQCC44, 7 X 7 MM, 1 MM HEIGHT, 0.50 MM PITCH, GREEN, PLASTIC, MO-220VKKD-3, VQFN-44
$5.3 查看
ATSAM4S16BA-ANR 1 Microchip Technology Inc RISC Microcontroller
$5.12 查看
ATSAMD21G18A-MUT 1 Atmel Corporation RISC Microcontroller, 32-Bit, FLASH, CORTEX-M0 CPU, 48MHz, CMOS, MO-220VKKD-4, QFN-48

ECAD模型

下载ECAD模型
$3.52 查看

相关推荐

电子产业图谱

公众号:半导体产业纵横。立足产业视角,提供及时、专业、深度的前沿洞见、技术速递、趋势解析,链接产业资源,构建IC生态圈,赋能中国半导体产业,我们一直在路上。