沐曦陈维良：高性能GPU的性能与挑战

沐曦集成电路(上海)有限公司 CEO陈维良

近日，在苏州高新区举办的中国集成电路设计创新大会暨 IC 应用博览会（ICDIA 2021）上，沐曦集成电路(上海)有限公司 CEO陈维良带来主题为《高性能GPU的性能与挑战》的精彩分享，以下为报告全文：

我在GPU行业20年，GPU架构IP、产品化各方面都做过，也见证了GPU的发展历史。换句话说其实我以前挺不喜欢GPU的，GPU最开始的应用做游戏场景的绘制，做家长特别狠游戏，所以我是在后来看到GPU发展到另外一个方向的时候就更深深喜欢上了GPU。

GPU从游戏场景的绘制发展到现在一个通用计算的处理器，所以它的重要性大大的提高了，非常荣幸今天有机会和大家分享一下我20来年对GPU的理解。报告分成三个部分，第一个部分谈谈高性能GPU的机遇，介绍一下我理解的高性能GPU的挑战，然后在汇报一下我个人的思考。

机遇来自于需求，我们先建立起一个共识。我们今天是处于大数据时代，一个智能计算的时代，很重要的理念就是算力很重要，算力是生产力。有一张图简单的表述算力的重要性，可以看到很强的相关性，就是人均算力和人均GDP的相关性，发达国家如美国人均GDP非常高我们都知道，人均算力非常高。

换句话说在未来进入大数据时代提高人均算力对我们国家非常重要，所以我想总结三句话：
第一，高性能计算加上机器学习是我们人类认知世界的望远镜。
第二，高性能计算加机器学习是我们数字经济发展的发动机。
第三，GPU的重要性，GPU最适合做高性能计算和机器学习的。

我稍微展开一下，我们人类探索这个世界经过了不同时代，不同时代科学技术发展的不同程度有不同的方式。以前靠观察，我们提出很多理论，到今天或者说近十来年我们很重要的一件事情就是积累了大量的数据，我们需要通过大量的计算让这些数据产生它的价值。

计算这件事情从左边这张图看得到，我们实际上对于很多理论的构建都已经非常完整了，但是在应用到实践的时候解决真正的实际问题的时候，你会发现计算量非常庞大，这里有个概念叫维数灾难，变量太多，计算的情况特别复杂，就算我们用现在最强的超级计算机都要花无法忍受的工程上的结果解决工程上的问题，右边这张图给我们提出一个，换句话说到今天我们利用机器学习，利用大数据，我们通过学习建模更容易的去降维，去解决实际的问题，所以说今天我们得出一个关键性的结论就是大数据计算或者说AI对我们研究实际问题，解决实际问题提供了一个很大的帮助。

刚刚回到前面讲，高性能计算加AI为什么是望远镜，我们可以通过这种方式解决更多的问题看得更远。举个例子，比较复杂计算过去的收敛，下来可以通过我们构建一种神经网络去做相应的网络的训练，解决一些方程式的解法，比较笨的方法达不到的效果，所以在大数据时代，数据暴争的时代，怎么样让数据变的有价值，很重要的一点我们需要强大的算力，所以算力是可以比喻成发动机，让我们的数据作为燃料产生它的价值，解决我们实际的问题，从右边的两张图上看得出来，我们过去这十来年数据的增长速度，基本上呈指数的增长。

算力只考虑传统的处理器GPU，算力按照摩尔的定律是呈线性增长的，这张图上表现出来的算力右边其实是GPU，左边是CPU。

所以GPU在算力上面具有巨大的优势，为什么？主要体现在GPU发展历史上面，过去GPU是专用的处理器后来变的通用，通用以后通用可编程，通过编程的问题解决问题，GPU和CPU差别上可以明显的看出来，左边是CPU的体系结构，里面的计算的运算单元非常少的，只有少数并行跑几个线程，主要的优势体现在非常快的反应，低延时。

右边是代表的GPU的架构，左边基本上看不到的那些小方块橙色的，就是指令的派遣，右边一大堆的蓝色的方块组合在一起，这些小蓝色的方块都是运算单元，换句话说里面有上千的线程可以跑，非常多的数据。

所以当算力受到功耗限制的时候，是单位功耗能够产生算力非常重要的，GPU的并行性这方面有巨大的优势。

可以看得到，比较流行的，大家用得最多的，不管是分子建模还是高性能计算，流体力学很多方面重要的应用程序或者说工业软件，排前20的，基本上支持GPU的计算，所以这个是比较重大的异构计算的趋势。

同时，AI现在是一个很火的概念，那GPU对AI架构的支持现在非常成熟了，可以说目前AI的应用里面不管是训练还是推理，绝大部分还是GDP在支持它的运算力。

从全球的超级计算机的结构上看，我们国家在超级计算机上面的投入非常大，但我们国家的超级计算机有一个特点，这张图看得出来，排名前五的超级计算及能效高的美国的超算异构的结构，CPU加上GPU，CPU提供一个控制的作用，任务分配的作用，协调的作用，而95%以上的算力按高性能的GPU提供的，我们国家的太湖之光全市CPU，从功耗用的核心数大家看得出来非常明显，异构的优势。

不信的是高性能的GDP到目前为止还是被国外的两家公司垄断，所以在核心算力受制于人的情况下其实产生了很多的风险和问题，这也是我们要解决的问题。这个是基于挑战在哪里，是需要带来的机遇，挑战是经过简单的总结把它归纳成三句话：

第一它难度非常大，

第二它的周期非常长，

第三投入非常大。

难度为什么大？左边这个图是非常简单的一种框图，GPU里面绿色的这些框框就是我们成为的子系统，一个GPU里面的行业IP这个和占了GPU80%以上的面积，也是里面最复杂的，里面很多子系统，每个子系统也是超级复杂的，架构的复杂度需要长期的经验积累，GPU的架构加上复杂的IP设计最后变成高性能GPU的SOC。

可见这里面堆积的数目500多亿，它提供的算力，消耗的功耗，这个里面的设计复杂度非常高的，既有系统性的，又有复杂的IP和算法，做成芯片以后，一块GPU的算力就算这样在双精度浮点的情况下也就是十来个T的算力。

要达到超算的水平，P级E级的水平需要很多的互联，所以多卡的互联也是一个巨复杂的事情，再加上GPU本身，软件站非常深，提供的灵活性很大程度上来自于功夫，来自于软件站的复杂程度，GPU从上到下的软件，不光有驱动，还有编译器有丰富的库，这样巨复杂的软硬件系统到了不同的落地场景，针对不同的落地场景进行优化，整个大的系统难度非常大的，周期非常长了。

一块GPU从立项到上市最少需要3-5年，IP设计、芯片的设计、测试、软件的成熟，诊断不同的应用场景和生态，需要构建这么复杂的软件系统，所以周期非常长的。

当然需要巨大的投入，这张图只是从一个本身硬件芯片设计和溜片带来的成本，一次性投入再加上现在要最好的工艺能效比这样的红线非常陡峭的。换句话说整个的成本不管是一次性成本还是生产出来之后上量以后的成本都是增长非常的快的，这张图是从研发成本角度看，尤其是右边这个图特别有意义，不同的制成的情况下，对大一型芯片的投入，可以看到纳米以后，一颗芯片几十亿人民币的投入。

在这么好的机会的情况下有这么大的需求，尤其是国家战略性的产品，面对这样的挑战我们怎么突破和创新，最重要的一点突破非常好的时代和非常好的机会去从零到一的进行突破。

强烈国产替代的需求尤其是供应链不安全，这次从国家战略的层面是一个巨大的风险，所以给了我们很多的机会去寻找一定的市场，从0-1突破，0-1以后怎么从0-100。

我们可以看到GPU整个发展过程当中架构一直都在变，所以从最开始的时候渲染游戏只是一个所谓的固定流水线，不具有编程性，到它绘制非常复杂的场景，渲染真实感的场景，所以进行编程，编的灵活，到后来进行大数据计算，我们必须著名的，英伟达加入制成的情况下，对里面的这个，专门对神经网络进行处理，不断跟自己的架构，不断引入自己的算力，从这个角度来讲不同的计算，不同的指令能效比不一样的，基于应用的一种可重构的GPU架构比较有希望的方向或者可以创新的点。

从这个角度来讲重构这件事情本身也是有不同的颗粒度，而且有很多地方可以重构不管是运算单元还是里面的数据流向还是里面的分配很多地方都是可以重构的，这个也是我们创新的一个点。

另外可以看得到，如果说不对制成的情况下，对进行相应基于应用的优化实际上能效比不好的，一旦加入一定架构上的创新变的更灵活以后，能效比非常接近。同时有一个巨大的优势就是它的可编程性，通用性，它能解决的问题非常宽泛的，任何需要大量的数据计算的地方都可以使用GPU。

另外一个我们今天很多的嘉宾谈到这一点，在后摩尔时代，先进封装，系统集成这些方面也是新的机会，是在单芯片创新的基础之上，系统级在互联级甚至在数据中心处理整个大的数据中心的角度有更多创新的机会。

所以我们处于非常好的时代有非常好的机会，面临巨大的挑战，所以需要有智之士，需要有恒心毅力的，在半导体行业里沉得下心来，真正的打磨做事情的这样的团队去解决这样的实际的困难。我们集成电路去年9月份才成立，正是基于这样的时代责任感，我们有一个非常让人骄傲的团队。