加入星计划,您可以享受以下权益:

  • 创作内容快速变现
  • 行业影响力扩散
  • 作品版权保护
  • 300W+ 专业用户
  • 1.5W+ 优质创作者
  • 5000+ 长期合作伙伴
立即加入
  • 正文
    • 1.多维观察下的人工智能革命
  • 相关推荐
申请入驻 产业图谱

浅谈人工智能革命与各领域的新机遇(一)

4小时前
294
加入交流群
扫码加入
获取工程师必备礼包
参与热点资讯讨论

写在前面:我本打算深入探讨一个关于AI革命浪潮下产业变革的宏大话题,即在 AI 革命的浪潮之下,材料、器件、架构以及算法等各个层面的在这场变革下的技术更迭,再拓展聊聊各个领域在AI革命下的技术演进和新的机遇,奈何时间和篇幅有限,今天先起个头,列下提纲目录,写一部分内容,后续再继续补充更新吧。

1.多维观察下的人工智能革命

1.1.算法层面:通用大模型的爆发

LLM模型规模指数,AI数智时代已来

人工智能正以前所未有的速度发展,特别是在深度学习领域。从最初擅长处理图像的卷积神经网络(CNN),到如今能够理解和生成人类语言的大型语言模型(LLM),模型参数从最初的百万到如今的百亿。

机器学习诞生之初最擅长的是对图片等信息进行处理,这得益于其CNN,ANN等架构的成熟发展。循环神经网络(RNN)作为早期处理文本、音频等序列数据的主要架构,一直面临梯度消失、计算效率、长距离依赖关系等问题。研究人员为解决RNN的问题做出了诸多努力,比如LSTM和GRU的提出,2017年,Transformer架构的提出标志着深度学习领域的一个重要里程碑, 其核心创新是其基于多头自注意力机制的编码和解码架构。

从2017年的Transformer架构提出,到2018年BERT的横空出世,再到2019年GPT-2的突破,2020年GPT-3的出现并展示了"涌现能力",标志着超大规模语言模型时代即将到来。

2022年是AI革命的革命性里程碑性节点,2022年11月30日,当时还是一家小型初创的OpenAI悄然推出ChatGPT服务,它展示了大语言模型在对话交互方面的惊人能力,引发了全球范围内的AI竞争和智能化浪潮。

从上图展示的LLM模型发展时间线可以看到, 2023年是名副其实的“LLM元年”,各种大模型如雨后春笋般冒出来,OpenAI 的 GPT-4、谷歌的 BERT 系列以及国内众多科技公司推出的大语言模型,都在不断刷新人们对语言模型能力的认知。这些大语言模型具备强大的语言理解和生成能力,能够处理多种自然语言任务。它们通过在海量文本数据上进行训练,学习到了丰富的语言知识和语义信息,使得生成的文本更加流畅自然、富有逻辑。

与LLM模型的逐渐强大随之而来的是模型参数的指数增长,从最初的百万,到如今的千亿。参数规模的增长带来涌现能力(Emergent Abilities)的出现。例如,GPT-3在规模达到一定程度后展现出了解数学题、写代码等此前较小模型无法实现的能力。庞大的参数规模也带来了巨大的计算负担,对算力硬件更强的诉求。GPU集群设计,XPU融合计算架构设计,巨大的发热量,高昂的成本是随之要考虑的问题和挑战。因此,可以看到业界正在积极研究参数高效的小型模型,期望在保持性能的同时降低资源消耗。

LLM+RAG架构

2024年被称为“RAG元年”,这也意味着LLM通用模型走向成熟和定制化的垂直领域agent和小模型的兴起。在 RAG 技术的支持下,模型不再仅仅依赖于自身预训练所学到的知识,而是能够实时从外部知识库中检索相关信息,并结合自身的语言生成能力,给出更加准确、丰富的回答。

1.2.硬件架构层面:从CPU到GPU到XPU的异构融合

CPU到XPU的异构融合计算是架构演进的必然

在人工智能和大规模计算的时代,传统的冯诺依曼架构已经难以满足日益增长的计算需求。CPU作为通用计算的王者,凭借其强大的指令集和灵活的程序执行能力,在过去数十年里一直占据着计算架构的核心地位。然而,随着深度学习算法和大规模人工智能模型的兴起,新型计算范式对处理器架构提出了前所未有的挑战。

传统CPU架构在处理复杂的串行计算任务时表现出色,但在面对人工智能领域的大规模并行计算时却显得力不从心。这促使了一系列专用处理器的出现,它们各自在特定领域发挥着独特的优势:

CPU:通用计算的核心

中央处理器(CPU)是计算系统中最基础的处理单元,凭借其强大的指令集架构和灵活的执行能力,在通用计算领域占据核心地位。CPU具备复杂的多级缓存、分支预测和乱序执行等特性,特别擅长处理逻辑控制密集和分支跳转频繁的任务,但其串行执行的特性限制了其在MAC运算等并行计算场景下的应用。

GPU:并行计算的先驱

图形处理器(GPU)最初设计用于处理图形渲染,但其大规模并行计算能力使其成为深度学习时代的重要推手。相比CPU,GPU拥有成千上万的计算核心,能够同时处理海量数据,特别适合矩阵运算和并行计算密集型任务。

TPU:为AI量身打造

谷歌推出的张量处理器(TPU)专门针对深度学习训练和推理进行优化。通过矩阵乘法单元(Matrix Multiply Unit)的硬件实现,TPU在处理神经网络计算时能够比传统GPU获得更高的能效比。

NPU:神经网络处理的新秀

神经网络处理器(NPU)将神经网络的核心算子操作直接硬件化,在AI推理任务中展现出极高的性能和能效。它的架构设计更加贴近神经网络的计算特点,能够有效减少数据搬运带来的开销。

DPU:数据处理的专家

数据处理器(DPU)专注于数据中心的网络、存储和安全功能,DPU集成了高性能网络接口可编程处理器核心和硬件加速器,能够高效处理数据中心的网络通信、存储和安全任务。DPU通过卸载任务来提升整体系统效率,DPU可以接管原本由CPU处理的网络和存储相关任务,从而释放CPU资源,使其专注于运行应用程序和业务逻辑。DPU的出现和发展主要是为了应对现代数据中心日益增长的数据处理需求,特别是在云计算、人工智能和大数据等场景下。它通过专门化设计来提高数据中心的整体效率和性能。

DSP:信号处理的能手

数字信号处理器(DSP)是专门设计用于处理数字信号的处理器。它具有专门的硬件乘法器和累加器(MAC),能够高效执行卷积、FFT等信号处理算法。DSP在音频处理、图像处理通信系统等领域扮演着关键角色。

FPGA:可重构的硬件加速器

现场可编程门阵列(FPGA)提供了独特的可重构特性,允许开发者根据具体应用需求定制硬件电路。它的优势在于高度的并行性和可定制性。在AI加速领域,FPGA凭借其灵活的架构和出色的并行计算能力,成为深度学习推理加速的重要选择。

ASIC:专用集成电路的极致性能

应用专用集成电路(ASIC)是为特定应用定制的集成电路,具有最高的性能和能效比。

软硬件协同到软硬件融合

在认识到CPU的局限性后,计算架构开始向异构方向发展。GPU的引入标志着异构计算时代的开启。早期阶段,CPU和GPU通过PCIe总线实现互联,这种架构虽然实现了基本的协同计算,但存在着明显的性能瓶颈,比如数据频繁搬运带来的功耗、延时问题。

在某些计算密集型应用中,数据传输时间可能占据总执行时间的30%-50%。这种情况促使了融合架构APU(Accelerated Processing Unit)的出现。

Xilinx Zynq MPSoC为代表的多多处理系统芯片是一种更为复杂和灵活的异构计算架构,,MPSoC引入了可编程逻辑(PL)部分,实现了CPU、GPU和FPGA的融合。

在内存访问模式方面,传统的异构架构中GPU具有独立的显存,这种设计虽然保证了GPU访问显存的高带宽,但增加了数据移动的开销。Intel和AMD在这方面进行了创新性尝试,提出了统一内存访问架构(Unified Memory Access)。这种架构允许CPU和GPU共享同一片物理内存,显著降低了数据移动的开销。

智算中心和数据中心,软硬件协同架构更是一套复杂的系统工程,涵盖硬件设施和软件系统的深度协同设计。比如架构的高度分层、设备选型、光纤网络、高速互连都是面临的重大挑战。随着数据中心对计算能力需求的增长,以数据中心为代表的大规模软硬件连接网络亟需融合架构的突破。

计算架构的发展经历了从同构计算到异构计算,再到异构融合计算的过程。同构计算是指所有处理器具有相同的结构和功能,可同时执行相同指令,如多核 CPU 或 GPU 等属于同构并行计算 。而异构计算则是由不同架构的处理器来执行相同的计算指令,常见的如 CPU+GPU 的组合,其仅有一种加速处理器类型,主要侧重于 CPU 和该加速处理器之间的协同. 随着技术的发展,计算架构J将进一步迈向异构融合计算。异构融合计算作为异构计算的高阶形态,具有两种或两种以上的加速处理器类型,其核心在于所有处理器之间的深度协同与融合,即单个工作任务可由两个或两个以上处理器协作处理,且某个具体工作任务能够跨不同类型处理器运行,如跨 CPU、GPU 和 DSA 等,各处理器之间通过高速总线或高性能网络进行通信和数据传输,借助更高层次的系统划分和任务调度实现协同计算.

矩向科技黄朝波指出,未来的计算架构必将是软硬件深度融合的结果,而不是简单的软硬件协同。过去是以CPU为核心的传统计算架构,而现在是CPU+GPU+DPU+NPU多处理单元协同的架构,未来则是打破硬件边界,实现深度融合的异构融合计算时代。

图片来自于软硬件融合,黄朝波

图片来自于软硬件融合,黄朝波

 另外,推荐大家去看看黄老师的《软硬件融合》一书,之前看黄老师对于软硬件融合和异构架构,深受启发。

1.3.器件与电路层面:亟需新材料、新器件、新工艺、新架构

1.3.1 神经形态器件:类人脑突触机制的探索

神经形态计算通过模拟生物神经系统的工作原理,在传统冯·诺依曼架构之外开辟了新的计算范式。其独特之处在于将存储和计算乃至感知功能功能进行深度融合,实现了数据采集、处理和分析的一体化。这种架构创新使得系统能够以更接近生物神经系统的方式处理信息,大幅提升了能效比和并行处理能力。

神经形态器件就是基于这一类非冯诺依曼架构基础上提出的。早期人们探索如何实现类似人突触特性的器件实现新的基于SNN架构的仿神经形态系统。

与传统ANN/CNN采用静态权重不同,SNN引入了节点处间维度的信息编码方式,从而表现出类神经系统的LTP和STP机制,学界把这类器件叫做neuromorphic device,其包含类突触特性的synase和神经元特性的neuron。其中synase 器件功能上模拟神经突触的可塑性,其具有可调节的时域动态连接权重,能够实现信息的存储和处理功能。neuron器件模拟生物神经元的信号整合与发放,具有阈值触发机制,实现信息的时空编码。

基于neuron和synase器件构建人工神经单元,结合SNN架构可以实现神经形态器件成功实现了对生物神经系统的功能模拟,为人工智能硬件的发展提供了新的技术路径。这一架构具备动态时序编码和突触可塑性机制,可以实现更高效的数据编码并降低系统功耗。

当然目前也有一些结合SNN和ANN的研究和讨论,这里暂不展开探讨。

1.3.2 存算一体器件:在器件底层打破存储墙

存算一体器件是一种突破性的计算范式创新,其在器件底层实现了存储与计算功能的深度融合。 这类器件具备较强的通用性,不仅能够SNN等非冯诺依曼的仿生神经架构,同时还可以有效加速传统的卷积神经网络CNN和人工神经网络ANN,尤其是对其MAC算子的加速。这一设计显著减少了数据在存储器和处理器之间的频繁搬运,突破了"存储墙"的限制;大幅降低了信号传输延迟;抑制了数据规模膨胀带来的系统负担;同时还缓解了存储容量不足的压力。 基于存算一体架构提出的新型存储器件包括两端的memoristor,其包括RRAM,MRAM,PCM,FeRAM等;还包含三端的FET型存储器,比如FeFET,Floating-gate FET等。其中三端器件由于其类FET结构是,天然适用于CIM架构实现器件层面的存算一体。

电阻式存储器(RRAM)电阻式存储器是基于阻变存储机制的新型非易失性存储器件。其工作原理主要依赖于氧空位或金属离子在电场作用下的迁移,从而形成或断裂导电细丝,实现电阻状态的可逆转变。典型的RRAM器件采用金属/氧化物/金属的三明治结构,其中氧化物层通常选用HfO₂、Ta₂O₅等材料。在写入过程中,施加的电场驱动氧空位在氧化物层中迁移,形成局部导电通道;而在擦除过程中,反向电场使导电通道断裂,恢复高阻态。RRAM的优点在于结构简单、功耗低、集成度高、可实现多值存储。但是其缺点也十分致命,尤其是其器件一致性差、可靠性也较差。

磁阻式存储器(MRAM)磁阻式存储器利用磁隧道结构中磁化方向的变化来存储信息。其核心结构包含两个铁磁层(固定层和自由层)以及它们之间的隧穿势垒层(通常采用MgO)。当自由层和固定层的磁化方向平行或反平行时,器件呈现出不同的电阻状态,从而实现信息存储。现代MRAM主要采用自旋转移矩(STT)或自旋轨道矩(SOT)机制来实现磁化方向的翻转,这极大地降低了写入能耗,提高了器件性能。MRAM具有超高的写入耐久性(>10¹⁵次)和极快的读写速度(~ns级),这使其特别适合替代传统SRAM用作高速缓存,在目前的新兴存储器件中,MRAM目前已实现商业化应用。

相变存储器(PCM)相变存储器通过相变材料(如Ge₂Sb₂Te₅)在非晶态和晶态之间的可逆转变来存储信息。在写入过程中,通过焦耳热使材料经历熔化和快速淬火,形成高电阻的非晶态;通过较低温度的退火过程使材料结晶化,形成低电阻态。PCM器件的独特之处在于其电阻变化范围大,可实现稳定的多值存储,且具有良好的存储密度和成本优势。其缺点在于材料的相变过程虽然相对较慢(约100ns量级)因此写入速度较慢、PCM并不太适用于对速度要求高的存算一体架构,或许在大容量存储应用中或优势。

铁电存储器(FeRAM)铁电存储器利用铁电材料在外加电场作用下的极化翻转特性来存储信息。传统FeRAM采用钙钛矿结构的PZT或BTO等铁电材料,而近年来发展的HfO₂基铁电材料则为其带来了更好的工艺兼容性和尺寸微缩与集成的可能性。在写入过程中,电场导致铁电材料的极化方向发生翻转,这一过程具有非易失性,且能耗极低(~pJ级)。FeRAM的显著特点是其极快的写入速度和极低的工作电压,这使其在低功耗应用场景中具有独特优势。然而,器件的破坏性读取特性和材料的可靠性仍然是需要克服的技术挑战。

电场效应晶体管(FeFET)铁电场效应晶体管是一种将铁电材料集成到传统MOSFET栅极结构中的创新器件。其独特之处在于利用铁电材料的极化状态来调控沟道的电导,从而实现非易失性存储功能。与传统的二端存储器件相比,FeFET的三端结构提供了更好的控制能力和读取特性,从而是实现CIM(computing-in-memory 存内计算)的理想器件架构。

浮栅晶体管(Floating-gate FET)浮栅晶体管是目前商业化最为成熟的非易失性存储技术,广泛应用于闪存存储器中。其核心特征是在传统MOSFET的栅极结构中引入了一个被绝缘层完全包围的浮栅,通过控制浮栅中存储的电荷量来调节器件阈值电压,从而实现信息存储。电子通过量子隧穿效应进入或离开浮栅,这一过程虽然相对较慢(μs量级),但具有极高的可靠性和数据保持能力。随着多值存储技术的发展,单个浮栅晶体管可以存储多个比特的信息,大大提高了存储密度。这种器件的最大优势在于其成熟的制造工艺和与标准CMOS工艺的完全兼容性,使其在嵌入式存储应用中占据主导地位。但是写入速度慢、工作电压高、写入耐久性差、缩放性受限等缺点使得其在CIM架构下难以适用,但是基于其的改进器件比如半浮栅器件在存算一体和感存算中讨论较多,有望用于新型架构。

未完待续

参考资料:

[1] 黄朝波. 软硬件融合[M]. 清华大学出版社, 2022.
[2] Hennessy, J. L., & Patterson, D. A. (2019). A new golden age for computer architecture. Communications of the ACM, 62(2), 48-60.
[3] https://www.anandtech.com/show/20046/intel-unveils-meteor-lake-architecture-intel-4-heralds-the-disaggregated-future-of-mobile-cpus/4
[4] https://inaccel.com/cpu-gpu-fpga-or-tpu-which-one-to-choose-for-my-machine-learning-training/
[5]https://www.bilibili.com/video/BV1YN4y1K719/?vd_source=fabcd0d4e178312c92f078d8b40c60bb
[6]https://www.linkedin.com/checkpoint/challengesV3/AQHV-fk5PSMvkAAAAZRWR4ZYVieQ9SI6vssUVzwsS-7oHVsuJf7ye-HQowt4R3107JeJ_vf-7sH8LRHF1ptRx_zsLoz7-A
[7]https://www.kalrayinc.com/blog/dpus-gpus-and-cpus-in-the-data-center/
[8]https://www.slideshare.net/slideshow/making-the-most-out-of-heterogeneous-chips-with-cpu-gpu-and-fpga/84135472#3
[9]Timeline of recent years large language models. Source: https://www.nextbigfuture.com/2023/04/timeline-of-open-and-proprietary-large-language-models.html
[10]https://medium.com/@henryhengluo/intro-of-retrieval-augmented-generation-rag-and-application-demos-c1d9239ababf
[11]https://medium.com/@harishdatalab/unveiling-the-power-of-large-language-models-llms-e235c4eba8a9
[12]https://www.itfanr.cc/2023/10/12/llm-tech-map/
[13]https://www.anandtech.com/show/4003/previewing-amds-brazos-part-1-more-details-on-zacateontario-and-fusion/2
[14]https://www.wsgf.org/book/export/html/17919
[15]https://nichijou.co/cudaRandom-UVA/
[16]https://doi.org/10.1038/s43588-021-00184-y
[17]BSNN: Towards faster and better conversion of artificial neural networks to spiking neural networks with bistable neurons
[18]Electronics 2022, 11(10), 1610; https://doi.org/10.3390/electronics11101610
[19]https://link.springer.com/chapter/10.1007/978-3-030-92659-5_19
[20]Novel Two-Terminal Synapse/Neuron Based on an Antiferroelectric Hafnium Zirconium Oxide Device for Neuromorphic Computing
[21]https://techxplore.com/news/2022-05-neuromorphic-memory-device-simulates-neurons.html
[22]https://www.frontiersin.org/journals/neuroscience/articles/10.3389/fnins.2021.717947/full
[23]https://www.mdpi.com/2076-3417/11/23/11254
[24]Sebastian, A., Le Gallo, M., Khaddam-Aljameh, R. et al. Memory devices and applications for in-memory computing. Nat. Nanotechnol. 15, 529–544 (2020). https://doi.org/10.1038/s41565-020-0655-z

相关推荐