2012年,深度学习“巨佬”GeoffreyHinton及其学生Alex,在ImageNet竞赛中,借助GPU来加速训练深度神经网络,夺得了竞赛的冠军。
而本次竞赛的影响力,从学术界直接穿透到产业界,不仅推动了第三次人工智能浪潮的到来,更是帮助英伟达的GPU开拓了新的增量市场。
其中,自动驾驶应用,作为AI领域的重要细分市场,成为了英伟达发力的主要方向之一。
彼时正是Intel旗下Mobileye统治自动驾驶芯片的时代。Mobileye以cv技术为基础,推出了算法+EyeQ系列芯片组成的系列解决方案,可以帮助车企实现从L0级的碰撞预警,到L1级的AEB紧急制动、ACC自适应巡航,再到L2级的ICC集成式巡航等各种功能。“算法+芯片”打包的商业模式,帮助Mobileye在早期的市场中赚了个盆满钵满。
此外,当时的车企还将重要的技术力量集中在发动机、变速箱等比较传统的汽车“核心”领域,而将电子、智能化部分的研发交给德赛西威等Tier1厂商来做技术打包整合,直接封装成模块使用。Mobileye就是这种模式下的集大成者。Mobileye短期优势在于,在中国的车企还没有能力去构建自己的知识产权的情况下,它愿意用Mobileye 赶紧把车给造出来,实现快速量产;长期来看,车企慢慢还是像自建自动驾驶技术最终会是自研。
随着技术的进步,自动驾驶在L2级别以后的发展逐渐需要更高的芯片算力,而车企开始主要要求自己掌控智能驾驶辅助的“灵魂”算法,也需要更开放的平台来做算法的差异化。这时Mobileye开始遭遇到了硬件性能和商业模式的双重挑战,并最终被挑战者英伟达拉下了行业头把交椅。
算力卷王诞生,英伟达的成功原因?
无论是通用Cruise、亚马逊Zoox、AutoX、小马智行这样的Robotaxi公司,还是奔驰、捷豹路虎、沃尔沃这样的全球知名车企,都已经和英伟达建立了合作。
不久前,2022年英伟达GTC大会上,“黄教主”官宣了与比亚迪的合作关系。按照规划,从2023年上半年起,比亚迪就将在部分车型上搭载英伟达的Orin芯片,以及相配套的的软硬件系统。
无独有偶,蔚来、小鹏、理想三家强势新势力今年的新款车型,都搭载了英伟达的自动驾驶芯片。像高合、智己L7、集度等逐渐开始显露头角的玩家,也选择与英伟达达成合作。根据笔者在《缺少自动驾驶的比亚迪还能火多久》中的介绍,比亚迪之所以采用高端芯片与英伟达合作,中低端采用地平线和自研的方式。其最重要的一点就是节省产品的研发和上市时间,实现产品的快速迭代。
英伟达在自动驾驶领域的成功,其实简单来说就两点:
1.完全开放。其开发的芯片不仅性能强大,更像是“公版显卡”,不仅不限制车企自行开发自动驾驶软件算法,还有很强的硬件兼容性。如果厂家不具备相应的实力,或者就想贯彻“拿来主义”,英伟达也有自动驾驶全家桶解决方案。
2.无与伦比的强大算力。从2018年的Parker到现如今的Orin,已经实现254倍的算力增长。英伟达在2022GTC演讲中发布了下一代SoC单芯片,也就是当前大热的Orin系统的接任者,NVIDIADRIVEThor。去年黄仁勋还说会有一个1000TOPS的Atlan,结果今年就直接说Atlan继任者来了,是2000TOPS算力的Thor。也正因为Thor太强了,并且同样将在2025年装车,所以英伟达就干脆取消了Atlan。
此外,自动驾驶技术主要由高精地图、感知模块、决策模块和执行模块组合而成,各家自动驾驶供应商、各大主机厂,主要内卷的也就是这四大类别技术。感知模块可能是近几年车企宣传的重点,多目摄像头、车内人员监测、毫米波雷达、激光雷达、测距雷达,各种新技术、新规格让用户看的云里雾里,可这些监测模块的数据汇总在一起的就是一堆图形信息,而这恰好是英伟达最擅长的领域。
2000TOPS是个啥概念?参照英伟达的A100,如果把FP8等同于INT8,那么就相当于英伟达A100三倍的算力。A100的FP32单精度,那就是约为20TFLOPS。英特尔至强处理器icelake的Gold6348 CPU,对应的单精度算力是4.6TFLOPS。这意味着Thor比Gold6348处理器的浮点运算性能高出12倍。
除了GPU算力够强,Thor还是一颗SOC,集成了ARM的CPU。这颗CPU核心Grace是ARM即将发布的全新一代架构,ARMPoseidon AE(波塞冬)内核,单线程性能业内最强。说到SOC,这里有一个参照物是高通的骁龙855芯片,也就是目前应用最多的汽车座舱芯片的8155原型,是110GFLOPS,光是GFLOPS和TFLOPS单位就是一万倍的差距。
Thor的诞生如何改变自动驾驶行业?
这样一来对于很多自动驾驶算法公司,和自研的自动驾驶芯片公司会产生什么影响呢?
众所周知,AI的两个重点:算法+算力同样重要。在算力不够的情况下,算法就显得非常重要。效率足够高、轻量化的算法可以在有限的算力下完成更多的工作。然而当算力足够高,足够奢侈的情况下,算法优化的差别就显得不那么大了,很多应用直接上通用算法就行了。那么很多在算法上有积累的公司一下子处境尴尬起来。如果英伟达再自己下场,将自动驾驶的算法开源,那么算法公司这个生态位就很难继续存在下去了。而车企也必将更深的被绑定在英伟达这个平台生态上。
目前的现状大概是这样。英伟达在自动驾驶芯片领域处于垄断地位,而高通在智能座舱领域也基本处于垄断地位。所以大部分车企都会选择在自动驾驶域采用英伟达的Orin,而智能座舱用高通的8155。术业有专攻,这样做其实也没错,毕竟两个应用还是有不小的差异,而同时也符合目前汽车的分布式域架构,不同域之间还是有一定的区隔。
不过英伟达的Thor出现以后,超高的算力让一颗SOC就可以实现自动驾驶和智能座舱的所有功能。通过多域计算,Thor系统可以为自动驾驶和车载信息娱乐划分任务,可以根据实际的用户需要,将2000TFLOPS算力分配到自动驾驶,或者车载娱乐上。而同一颗SOC上,也可以同时运行Linux、QNX和Android三种不同的操作系统,可以分别代表自动驾驶、功能安全和智能座舱三种应用。
当然,如果车企觉得这种单芯片的做法不保险,也可以通过NVLink-C2C芯片互连技术在连接两颗芯片单独运行操作系统。试想一下两颗Thor实现4000TFLOPS的算力,以后汽车就是移动的服务器了。特斯拉设想的大型游戏已经是小case了,将来可能会有更多专业级的计算会在车上实现。
从这一角度来看,智能座舱领域的王者高通或将面临非常大的挑战。特别是这次Thor采用的ARM波塞冬架构,用到手机上估计在2023年左右量产,而Thor上车时间则是2024年底。可以说车载芯片和手机芯片已经没有代差了。当然,考虑到Thor是在2024年量产,而高通8155则是前两代产品,高通是有可能在2022年底或2023年初发布更为激进的产品,并将ARM波塞冬架构也导入座舱芯片。
实际上,当英伟达Thor刚公布不久,高通就坐不住了。在日前举行的高通汽车投资者大会上,高通汽车高级副总裁兼总经理纳库尔·杜格尔正式宣布,推出“业内首个集成式汽车超算SOC”,名字叫做SnapdragonRide Flex。据透露,SnapdragonRide Flex确切的说是一个SoC产品家族,其包括Mid、High、Premium三个级别。RideFlex Premium SoC单颗芯片的AI算力在600TOPS以上。最高级的RideFlex Premium SoC再加上外挂的AI加速器(可能是NPU,MAC阵列)组合起来,就可以实现2000TOPS的综合AI算力。
大算力之外,SnapdragonRideFlex作为一个超算芯片家族,其最大的目标是实现车内的中央计算——即同时为智能驾驶、智能座舱、通信等能力提供计算支持,这也与英伟达Thor雷神芯片一致。预计最终上市时间可能会在2025年,稍晚于Thor。
自动驾驶芯片主流供应商(2021),来源:东北证券
曾几何时,超过100TOPS的算力已经算是比较高端的芯片了。而在英伟达和高通的“PPT”大战下,整个自动驾驶芯片行业正在加速内卷,算力门槛一再飙升。
在这么卷的情况下,也开始有不少厂商出来给这场算力竞争降降温了。在行业玩家都纷纷追求高算力的2022年,Mobileye今年推出的旗舰产品EyeQUltra却只有176TOPS。Mobileye的CEOAmmonShashua表示,“我们非常坦率地认为TOPS是一个非常不充分的计算能力指标,集成在EyeQ芯片中的计算模型非常复杂,远不是单一指标能够量化的”。而Tesla的FSD芯片,也还保持在144TOPS的算力,但自动驾驶的体验目前是业内公认的头部位置。AmmonShashua同时也提出了对于功耗的担忧,他认为超高算力的芯片将会带来过高功耗,从而减少新能源汽车的行驶时长。毕竟,行驶中的汽车与服务器还是两种不同的应用场景。
国内的自动驾驶芯片代表厂商地平线也认为,应该更强调芯片的有效利用率而非只关注算力。他们将地平线征程5和Nvidia最新一代自动驾驶芯片Orin在同一套数据集上进行评测对比,发现征程5的FPS优于NvidiaOrin的表现。地平线认为,尽管竞品的AI芯片算力更高,但其算力的有效利用率上却打了很大折扣,不同模型算法的有效利用率有很大差异。实际使用时就会有个很奇怪的现象,虽然芯片的TOPS很高,但实际模型跑在芯片上的效果并不好,这正是芯片有效利用率低的表现。
以特斯拉为例,它的自动驾驶平台是随相关技术不断发展而同步提高算力的,目前,特斯拉自动驾驶平台算力也不过100多TOPS。显然,自动驾驶必要的技术积累是车企迈不过的槛,积累上的差距不是单纯堆算力就能弥补的,过度堆算力只会增加消费者不必要的购车成本。其实,自动驾驶技术的真正成熟还是需要包括基础研究在内的一系列相关技术取得突破。
不过,尽管有种种担忧,考虑到未来的“一颗芯片”控制整车将成为趋势,哪怕仅仅从单芯片的采购成本和市场宣传的角度来看,芯片算力内卷已经不可避免。而在这个算力大幅度提升的紧要关头,中国芯片厂商正面临1990年以来前所未有的制裁,中国自动驾驶自主之路的速度或将进一步放缓。
新的制裁开始了
美国时间10月7日,美国商务部工业安全局(BIS)宣布了对美国《出口管理条例》(EAR)的一系列修订,并公布了针对中国企业的新的出口管制限制措施。这是BIS近年来最大幅度的限制性举措,也是近期中美科技“脱钩”的最大动作。
我们重点关注与自动驾驶行业相关的一条禁令:GPU出口管制的技术限制设定为英伟达A100的指标,(单精度19.5TFLOPS.双精度97TFLOPS.I/O为600GB/SL超过标准需要申请许可证。)A100是英伟达2020年9月发布的7纳米GPU芯片,H100则是英伟达2022年3月发布并预计将在三季度上市的4纳米GPU芯片。这两款GPU产品,均是市场上可获取的最高性能GPU产品之一。
8月份,美国政府向AMD、英伟达发出临时禁售通知,说明出口管制政策的修订工作已经基本完成,从英伟达的公告可以看出,商务部已经制定了“芯片性能达到A100阈值”作为制裁的分界线。8月 31日,英伟达提交给美国证券交易委员会的报告中显示,美国政府要求限制其向中国出口最新两代旗舰GPU 计算芯片A100 和H100。此外,AMD的数据中心级 GPUMI100 与 MI200也被限制出口。随后,英伟达宣布已经获得了美国政府授权,可以在明年3 月之前继续向美国客户出口到中国的产品提供A100,明年 9月前继续履行 A100和 H100的订单。尽管如此,英伟达的股价还是应声而落,市值蒸发了288 亿美元。
10月7日进行的修订,很明显是对于8月AMD、英伟达GPU禁售令的详细说明。而除了此前提到过的数据中心、服务器、超算等应用将遭受影响外,目前如火如荼的新能源汽车算力竞争或许也将踩上刹车。特别在刚刚举行的NvidiaAI Day上发布的算力超过2000TOPS的自动驾驶芯片Thor,可能会受到限制,而英伟达的芯片目前几乎已经垄断了中高端自动驾驶市场。
中国本土芯片商被锁死了吗?
2022中国电动汽车百人会论坛上,全国政协经济委员会副主任、前工信部部长苗圩,在谈及芯片供应问题时,言辞激烈。“汽车厂商真正采取行动的没有,只会光叫唤。”这句话说得很重了。
不仅直言中国汽车行业缺芯少魂,更是对国内车企把车规级芯片、操作系统等卡脖子技术扔给一级配套商(tier1厂商)的“不作为”,表达了不满。国内的汽车半导体供应链,仅仅寄希望于Tier1,将砝码全部压在英伟达、高通这样的国际巨头(特别是美国企业)身上,一旦出现了类似于开头美国出口管制的情况,供应链安全将遭受巨大挑战。高通当然是可替代英伟达的一个选项,不过作为国外厂商,高通面临着和英伟达一样的风险。
今年来,国内开始涌现出类似于地平线、黑芝麻、寒武纪、华为、芯驰等本土厂商,纷纷发力自动驾驶芯片。比如获得理想汽车青睐的地平线,2021新款理想ONE上已经配置上了征程3芯片;智能驾驶、中央网关、智能座舱全方位布局的芯驰科技,产品已经覆盖国内超70%的车厂。
其中地平线征程5基于台积电16nm制程打造,AI算力可以达到128TOPS。华为的MDC810,算力400TOPS,已经实现量产上车。MDC810并搭载没有支持通用计算的GPU,而是用“特定域架构”的AI芯片Ascend昇腾负责计算。黑芝麻的华山2号A1000量产已经在路上,INT8精度下单颗芯片算力达58TOPS,将在江汽集团思皓新车型上首发量产,具体时间未定。今年下半年,芯驰将推出算力超过200TOPS的自动驾驶专用芯片。而量产计划,按照半导体行业普遍规律来看,不会早于2024年。
根据中信证券的最新的《自动驾驶芯片行业研究报告(2022)》分析,上面这些可替代英伟达Orin的本土方案,从性能和量产节奏来看,优缺点明显。国内自主替代的产品,已经走到量产前夜,而且可以通过架构、系统、软件的优化,达到和英伟达Orin相当的效果。不过考虑到汽车芯片的设计,不仅需要车规级的认证,还需要半导体技术的积累,以及整个车芯产业链的互相支撑。哪怕芯片厂商设计生产出了产品,Tier1们不采用,供应链被切断,也很难被整车配置,进行市场检验、技术迭代。再加上国际环境的动荡、技术的封禁、疫情的反复,以及原材料上涨等一系列不确定因素,本土自动驾驶芯片的真正替代和赶超时间可能还要延后。
与此前不少媒体分析,相关制裁措施“利好国产GPU和AI芯片”的乐观不同。笔者认为,这次美国将逻辑芯片的管控范围调整到16/14nm或更先进的制程,而28nm及以上制程的扩产也需要获得许可。未来国内的芯片设计公司或将被锁死在16/14nm之内,无法流片更高级别工艺的芯片。值得一提的是,除了手机之外,目前包括PC、拼版、车机、自动驾驶算力平台以及可穿戴领域的芯片,都在加速迈向先进制程。特别是车机和自动驾驶平台,迈向先进制程的速度非常快。接下来的3-5年将是国产AI芯片厂商加速AI应用落地和大规模部署的快速发展时期。如果国产芯片被锁死在16/14nm之内,就如同《三体》中地球基础科技被智子锁定一样,将在未来的关键竞争节点上丢掉主动权。先进制程代工这道关不过,未来所有的中国芯片企业都将是华为。
除了先进制程之外,国产芯片厂商还面临EDA和IP环节的差距。以GPU为例,作为高性能高复杂度的大芯片,想在短期内快速推出相关产品,必然依赖外部IP。虽然目前各家国产GPU都在宣传“独立自主研发”,然而在核心基础上的投入都不够,大多采用licenseIP模式,同质化非常严重。从理论上来说,自研IP越多,GPU的差异化更明显,但相对而言资金、人员、时间上的成本投入也更高。一家从事GPGPU研发的企业代表告知,GPUIP自研需要36-48个月以及200个工程师,而采用外购IP的方式,可以减少12-18个月开发周期。
在PC和服务器GPU领域,核心的GPUIP厂商主要是Imagination、芯原、格兰菲;在移动GPU领域,主要有ArmMali、ImaginationPowerVR系列,芯原在前几年收购美国嵌入式GPU设计商图芯之后亦有不少授权用户,以及高通的Adreno。高通Adreno从AMD买入,且不对外销售。作为GPU的老牌巨头,英伟达、AMD均有自己的强大GPUIP,英特尔也购买了AMD的GPUIP要在独立GPU市场卷土重来。
整体而言,国内GPGPU企业与国际大厂技术差距约3年,渲染GPU与国际大厂差距约10年左右。要想弥补这一差距,不止要在生态层面发力,提升国内核心IP能力显然是必然要做的功课。
最后,笔者认为,目前对于中国自动驾驶产业来说,还有1年的缓冲期。一年以后可能要面临没有高端芯片可用的尴尬境地。好在自动驾驶的商用落地估计还有3~5年时间。而这种情况下,一方面政府可能需要从保护自身产业的角度出发出台相关产业政策,有意识的控制L2级别以上自动驾驶的商用落地速度;另一方面,本土芯片厂商则要苦练内功,加强基础核心技术的研发;而车企则应该不要把所有鸡蛋都放到自动驾驶一个篮子里,应该关注“三电”等新能源汽车的核心技术,尽量做到扩大自身优势,补齐短板。