“风华1号”技术团队首谈国产GPU的性能和出路

目标做“中国的英伟达”，“风华1号”算力对标“英伟达T4”

GPU又称图形处理器，它的历史要追溯到1972年火遍全美的弹珠游戏机，但真正进入高速发展期是在2006年，往后GPU的发展速度达到了摩尔定律的2~3倍。

我们以数据中心产品为例，今天英伟达Ampere架构下的云端训练A100显卡FP32浮点性能19.5T FLOPS，INT8算力1,248 TOPS，而这两天的消息称，英伟达的下一代GPU Hopper FP32浮点性能将达到24.2 TFLOPs，几乎是A100 显卡的2.5倍。

正因为GPU这些年的高速发展带来了技术壁垒的不断高筑，GPU战场三四年前还有很多家，而现在只剩下两三家。高端技术的垄断代表了议价权，现在一张高端的GPU显卡，市场售价高达十几万元，相当于一辆普通小轿车的价格。再加上国内需求的差异化，巨头们在定制方面确实存在心力不足的问题，所以GPU自主可控下的国产化势在必行。

在这样的大环境下，近几年本土GPU厂商如雨后春笋般冒出来。不过真正能出产品，实现量产的也没几家，并且算力比较低。比如景嘉微2020开始量产出货的JM7200单精度算力只有0.5T FLOPS，2021年刚流片回来的JM9231实测浮点算力能达到1.5T FLOPS。相比之下，上个月芯动科技发布的4K级显卡GPU芯片“风华1号”显得格外抢眼。

图 | “风华1号”参数一览

根据芯动云计算总裁敖海的介绍，“‘风华1号’GPU成倍提升了现有国产GPU水平，单芯片A卡渲染能力达到160GPixel/s，FP32浮点性能达到5T FLOPS，AI性能为25TOPS(INT8)，3D图形渲染处理管线定制优化，支持Linux/龙芯/Windows/安卓操作系统图形框架，支持32路SRIOV虚拟化。”

芯动科技SoC体系架构师何颖表示：“如果单从芯片的算力来看，‘风华1号’双芯片B卡的FP32浮点性能达到10T FLOPS，渲染能力达到320GPixel/s，可以对标英伟达Tesla T4 GPU（FP32 / 8.1T FLOPS，渲染能力/254.4 GPixel/s）。”

“GPU赛道足够大，目前英伟达的市值有七千多亿，而芯动科技的目标就是做中国的英伟达”，芯动科技工程副总毛鸣明补充道。

后摩尔时代，如何通过GPU架构改善功耗问题？

众所周知，算力和计算平台的性能不能划等号，对于GPU来说，能效比是非常重要的性能参数。据悉，英伟达下一代显卡40系列的TGP整卡功耗标示为550W，这样的整机得要多大电源才能带得动？于是我们自然而然会有一个疑问，为什么GPU发展了这么长时间，功耗还是一步步增长到了这么大的地步？

“这是因为半导体工艺的极限已经快到了，从一百多纳米到九十多纳米到几纳米的时候，一直还可以线性地降低，降低工艺节点可以获得更低的功耗、更高的性能，但是半导体工艺快到摩尔定律的物理极限了，工艺节点的红利差不多到头了，再要提高性能的话，只好把功耗相应地变大。我们想做低功耗的显卡，想做节能减排，想做绿色，怎么办？不能在工艺上取得红利，要在架构上取得红利，这时候我们的想法是架构上吸取移动端GPU的优点，做出真正好的GPU。”，何颖如是说。

那么芯动科技用的GPU架构是什么样的？据悉，芯动科技获得了Imagination的GPU核 IP授权，而这个是移动端级别的，在能效比上存在天然的架构优势。

拿了Imagination的IP，国产GPU还算自主可控吗？

讲到这里，你是否会提出疑问，架构级IP都是买来的，能算是自主可控吗？举个例子，苹果从A4到A10X所有的芯片都是用Imagination的IP，到10之后苹果有了自己的GPU架构，但是它依然是基于Imagination的TBDR架构，并获得了专利授权，成为Imagination TBDR重要的分支。苹果不用大风扇甚至风扇不转就可以实现很好的图形性能，这是其他笔记本很难做到的事情。苹果公司做了三个不同的芯片：M1、M1 Pro和M1 MAX，最强的芯片用了32个核，有机地合在一起，达到的效果比桌面独立显卡功耗降了70%，它可以用很少的功耗达到接近英伟达3060桌面渲染的性能。这证明TBDR既可以用于移动，也可以用于桌面的操作系统，当然大量的优化改进工作是必须的，才有可能把一个GPU放大到能够适应桌面级别的强渲染的要求。所以，你会怀疑苹果不能自主可控吗？

事实上，当从单核、双核扩大到8核、16核、32核时，就不是简单的堆核了，如何讲这些核有机地调用起来，协调好通讯，就必须有芯片厂商自己的方案。所以苹果有苹果的方案，而芯动科技的方案特色就是Chiplet，通过Chiplet来打破算力的限制。此外，做大核还必须要配合API接口的升级，图像GPU领域趋势的跟进，以及尽量把算力做起来。

图 | “风华1号”桌面显卡（半高）

说到算力，其实前面也有提到“风华1号”用的是一个移动端的架构，虽然有它功耗和支持云游戏的天生优势，但也存在一些架构弱势，所以如何把原生移动端的架构拓展到高性能计算、云计算的场景就是芯动科技要做的最重要的工作，也就需要改进GPU内核了。

其实，即使是拿了架构授权，要做的工作还是非常多，这也是目前市场上GPU门槛居高不下的原因所在。根据何颖的介绍，“风华1号”80%以上的IP都是属于自主研发。既然已经获得了架构授权，芯动科技就可以不受限制地自行改进，这个技术是能够自主可控的。

在小池塘练兵，避开英伟达主战场寻找蓝海

毛鸣明说，“每个市场都有很细分的点，比如做桌面，可以先做线上市场，做国产化的统信麒麟的操作系统，先找到一个点站住脚，再去考虑挑战国外的巨头。”

确实，桌面市场是一个存量市场，所以对于一家本土GPU厂商而言，在市场上直接挑战已经占据垄断地位的世界巨头并非明智之举，国内信创市场是一个很好的切入点。

目前，国内的信创桌面大家用的最多的还是AMD的卡，ARM服务器和AMD显卡这套方案很成熟，但市场的反馈是一个字“贵”，而芯动的卡性能好价格低，打价格战是有优势的。

如果只有桌面市场，英伟达也不会到达万亿级别公司的体量，是AI和元宇宙的加持才成就了今天的英伟达。因此，对于像芯动科技这样的GPU厂商而言，信创市场肯定不是终极目标，而是一个大鱼进不来的小池塘，方便练兵站稳脚跟，然后向更为广阔和通用的云端市场过渡。

对于云端市场的看好，毛鸣明是这么形容的，“如果没有在2019年看到云渲染后面会爆炸式的需求，我们不一定会做GPU。”可见作为元宇宙基础建设项目的云渲染市场机会是巨大的。前面提到了“风华1号”其实用的是一款移动端内核架构，有做云游戏的天生优势。但是那些巨头们难道不掌握这个技术吗？

事实上，作为国际大厂，它们关心的是自己的主要用户，也就是3A大作，包括谷歌的主流云游戏厂商，考虑的是一张显卡给两个用户用，因此编解码只要支持两路。而国内的手机游戏厂商比较多，中国客户的需求不太一样，它们更追求性价比，成本是重要的考量因素，它们的客户很多都不愿意每月为云游戏支付较高的价格。因此这些手机游戏厂商希望一个方案可以支持30路、50路、60路，甚至上百路的操作。所以这也算是本土化的蓝海市场，由于本土公司可以更贴近这些云游戏厂商的需求，就可以在硬件设计和定制化方面做一些有差异化的东西，从而生存下来。当然，跟着云渲染指数级增长的事态，未来它们也可以进军桌面、笔记本，甚至手机市场。不过，国产GPU当前最重要的任务依旧是API升级和算力提升。

本土GPU厂商有望1-2年内回本？

前面讲了本土GPU技术和市场侧的一些分析，下面我们来聊点“俗话题”。最近，就算是半导体的圈外人也多多少少对GPU的市场热有所了解，高规格、市场容量大、国体替代紧迫等关键词是这个赛道能够吸引大批量资本市场热钱的原因所在。

正是在这样的大背景下，你可能不会相信芯动科技竟然是在无需融资的情况下就完成了GPU的架构授权、设计、流片、内部测试，到量产发布等工作。高昂的流片的费用不说，这年头光是养几百人的GPU研发团队都是一笔不菲的开销。

我们知道芯动科技原来是做接口IP授权和芯片定制的，虽然公司成立第五年就开始盈利，财务状况一直不错，但不免担心会被“GPU业务”拖累。面对这个追问，毛鸣明给出的答案是——“风华1号”正在和腾讯、联通等大厂进行适配，并开始讨论订购、采购的细节，后面我们每半年会迭代流片一款产品，做更大的架构优化迭代工作，如果我们做得好的话，几年内应该可以回本。

迭代这么快，还能在短期内赚钱，自信哪来？“信创市场做了几年后，剩下的体量并不大而且对于成本非常敏感，而服务器显卡一年有十万张以上的体量，而且服务器端的成长特别快，单卡的价格也是信创的十倍、几十倍的体量。所以我们觉得在信创市场上实现盈利比较困难，但是在服务器端的盈利还是比较有希望的。” 毛鸣明补充道。