毫末智行开自动驾驶公司先河：自建智算中心！辅助驾驶「量产第一」，城市NOH 明年落地百城

贾浩楠发自凹非寺

“对软件有理想的人应该做属于自己的硬件”。乔布斯的信条开创了时代，这样的认知，被马斯克以自建超算自研平台等方式在特斯拉践行。

现在，同样的剧本正在中国自动驾驶行业上演。

毫末智行——被业内以“自动驾驶量产第一”认知的创业公司——在 AI Day上最新发布：智算中心。

完全服务自动驾驶研发，而且是自建。

△ 毫末智行CEO顾维灏（右）和火山引擎总裁谭待

这是中国首个由自动驾驶公司建立的智算中心。

经历2022年行业竞速后，量产智能驾驶进城争夺战已经打响，而决定城市辅助驾驶落地、体验和发展速度的关键保障，就是智算中心。

特斯拉已经为FSD准备好了DOJO智算中心；国内，同样以重感知轻地图展现大规模落地的毫末智行，现在也把城市NOH背后的保驾重器推到了台前。

所以毫末智行的智算中心，会如何发挥作用？

为什么是毫末，率先向“重”而行——成为首个建立智算中心的自动驾驶公司？

首个自动驾驶公司建立的智算中心？

毫末智行自建的智算中心，是与字节跳动旗下火山引擎合作的，由自动驾驶业务方“承包”相当部分的算力资源，按照自动驾驶开发的特定要求，建成专门的算力集群。

所谓“智算中心”，并不是传统意义上的超级计算机。

自动驾驶、或者说智能汽车上的核心功能，其实都是AI。具体说，是大规模的深度学习算法。

而无论是训练，还是测试这样的模型，扮演主角的不再是传统CPU的逻辑推理能力，而是以AI加速器为主的浮点计算能力，GPU则是当前AI加速器的主流。

所以，智算中心的第一个特征，就是以大规模GPU算力作为AI模型迭代的基础。

第二个特征，是与自动驾驶业务深度结合，智算中心提供了针对自动驾驶应用特征的算力集群、性能加速工具和AI大数据平台，使得模型训练性能、GPU资源利用率和算法研发效能都大大提升。

毫末智算中心MANA OASIS算力0.67 EFLOPS （每秒6.7*1017次浮点运算）*。

毫末MANA OASIS的算力几乎全部为自动驾驶服务。其架构也根据自动驾驶的业务特征做了专门安排。

自动驾驶任务训练的特点，是文件比较多较杂，而且多为视频、图像数据。自动驾驶的用户每一次接管，都会形成一个独立的小文件。车多用户多，就形成了自动驾驶数量超过百亿的数据集。

所以，第一个要求是高性能地访问和传输这些数据，存储带宽需要达到每秒2T的能力。

此外，毫末智行的不同自动驾驶模型搭载在不同的服务器上，而不同服务器的通信能力也很关键，MANA OASIS的带宽设计实现了800G/秒。

计算、存储和通信，是毫末MANA OASIS的基础能力。

在AI模型训练的优化上，火山引擎也提供了针对性的基础优化。

比如，AI不断演进发展，新的模型、网络结构层出不穷。前几年在NLP领域兴起的Transformer，现在成了自动驾驶最被看好的技术，也是毫末目前最主要“杀手锏”。火山引擎为毫末打造的智算中心，可以支持包括Transformer在内的超过200组网络结构。

此外，超过500个高性能AI算子、高带宽网络通讯、专门服务超大模型任务的数据并行、流水并行和稀疏化并行等等，MANA OASIS都能支持。

根据毫末的介绍，目前千亿参数的AI大模型的一个完整训练——收敛周期，只需要一周，效率提升了100倍。

毫末OASIS，也是字节跳动首次在智算中心上的对外技术输出。基本架构特征，和毫末之前一直展现出的技术路线完全吻合：以超大模型、超大数据，快速迭代为基础的自动驾驶研发。

AI技术To C应用最成功的公司，和量产自动驾驶技术第一名联手，毫末OASIS的架构特征背后体现的是自动驾驶发展趋势：

数据层面，以“帧”为基本单位的数据组织方式，正在向标注效率、数据利用率更高的的Clip形式（一段包含多帧的连续视频）转变。

Cilp带来了更大的数据量，需要更大规模的AI模型，以及更高的迭代效率。也就是说，对自动驾驶的图像视频处理技术要求更高了。

而毫末的量产自动驾驶落地路线，无论是重感知和大模型应用，在智算中心里，有了更加广阔的舞台。

毫末智算中心能做什么？

OASIS的核任务只有一个：加速大模型训练。

具体的说是5方面大模型的训练，这是毫末城市NOH落地的技术保障，也是毫末NOH领先的力量之源。

视频自监督大模型

所解决的问题是怎么样能够更高效地建设一个Clips的数据集。

过去的自动驾驶训练数据都是按帧来组织的，frame by frame标注出需要的目标，比如行人、乘用车等等。但每帧图像只能标注一种目标，浪费了图像包含的其他目标价值。

Clips的目的就是利用标注的数据，把未标注的数据自动化地标注出来。

视频自监督大模型首先使用大量未标注的数据形成了这样一个基础大模型，然后再用少量已标注的数据做启发式的学习。通过一个自我编解码的模型，完成那些90%未标注数据自动化的标注。

标注完了之后，一段视频里面所有的障碍物都会连续在视频里面标注出来。之前没有发现的数据，能够通过这样的数据形态和新的标注方法把它挖掘出来。

3D重建大模型

毫末智行介绍，字节跳动其实已经积累了很多电商AI应用的经验，比如一个商品照几张照片，就能够切换视角，还原出3D模型。背后其实是NeRF，这个模型的主要功能就是3D建模和新视角的生成。

毫末智行也将这个技术应用到自动驾驶上。用NeRF模型对回传Clip做一个重建。建出来之后，把它应用在数据补充上。

3D重建大模型主要的作用是在3D场景下，通过不同视角的转换，生成2D图像中没有的稀缺数据。

另外，也可以通过在3D场景中使用生成网络，改变场景的光线和纹理，生成新的数据，降低感知模型的错误率。

它的意义仍然是降低人工标注成本，以及生成更多有价值的数据。

多模态互监督大模型

自动驾驶一直面临一个挑战：真实的环境里面，会面临很多未知的障碍物，不可能把所有的东西都标注上，该怎么办？

毫末的解决方式是用互监督大模型。首先做通用物体的检测，物体的结构识别出来，来判定这个区域的可通行性。

这其中，多模态体现在首先用视觉模型做BEV特征的提取和通用结构检测。

此外还会用用激光雷达的点云图做一次监督校验，持续地提升视觉检测的结果。

动态环境大模型

毫末智行的技术路线重感知、轻地图。这也是目前绝大部分自动驾驶玩家认可的方向。

高精地图尽管表面上看对自动驾驶系统很关键，但背后有着政策监管、法规准入、数据采集、信息更新等等问题。

尤其是在国内，基建更新速度飞快，高精地图为及时准确性付出的成本，难以估算。

但轻地图技术层面挑战很大，其中一个车道拓扑识别的问题，就是在较为复杂的路口、匝道究竟走哪个车道的问题。

毫末的动态环境大模型，首先还是用BEV环视生成环境基础特征，然后把现有基础导航地图的必要信息输入Topology Attention网络里面对不同的分岔点、合流点做预测和回溯，把合适的车道拓扑预测出来，然后交给决策系统。

人驾自监督认知大模型

毫末智行的自动驾驶研发，会基于很多用户真实的驾驶行为训练。

但问题是老司机毕竟是少数，如果针对这样的大规模数据群体训练，很可能最终得到的是一个平均值。在打磨AI老司机的过程中，毫末借鉴了目前大火的ChatGPT的思路。

ChatGPT是在GPT3上面做的衍生，最后一代GPT3有1500亿个参数，在模型的认知理解能力上通过量变达到了质变。核心的方法其实就是用人类行为的反馈做强化学习。

比如针对某个问题，先通过人类的回答训练一个基础的网络。对于同类的问题，将多个答案做一个排序，让AI知道哪个答案更好。这样就会训练出来一个价值模型。

有了价值模型后，AI就可以在生成的过程中做持续的训练，做持续的迭代，最后把最好的结果筛出来，把不好的降下去。

对于自动驾驶来讲，毫末规划了一套规则，用户如果按照建议的方式驾驶，过程中不接管，就是一个Good Case。如果接管了，就是一个Bad Case。把Good Case和Bad Case训练的模型加入大模型里面，就能形成这种强化训练结构的闭环。

毫末说，之前计算资源有限，对于以上5个大模型的迭代，总是不得不保守。

而现在借助于智算中心，计算资源充沛，可以把这五个大模型正式修炼出来，朝着自动驾驶“数据驱动”的3.0时代迈进。

而3.0时代的第一幕，就是毫末智行城市NOH的量产上车。

城市NOH本质是城市道路领航辅助功能，意思是系统会在大部分情况下接管车辆，自主识别车道线、障碍物、红绿灯、限速等等，并且结合导航信息，规划行进线路——真正“从P档到P档”的智能驾驶，极大程度减轻用户驾驶负担，也是自动驾驶技术诞生以来，核心价值距离普通人感受最近的功能。

所以城市领航辅助量产，也是今年各个自动驾驶公司、车厂竞速争夺、证明实力的目标。

毫末NOH，很有可能在这场竞速中率先实现大规模量产。

核心原因，是包括上面5个大模型在内的重感知技术路线。

比如视频自监督大模型，能自动把一段视频数据中90%目标都标注出来，相当于只标注10帧，就可以生成100帧的数据。使人工标准成本和时间大大降低。

而3D重建大模型，又可以从有限数据中，自动生成更多更多有价值的数据。

互监督大模型、动态环境大模型、人驾自监督认知大模型则分别在目标识别准确率、路径预测规划、整体乘坐体验上提升NOH的能力。

说得再多，不如眼见为实：

2022年的毫末智行，董事长张凯总结成了“三大战役”：

数据智能之战，体系建成，走向大模型、大算力、大数据的时代。

城市场景辅助驾驶之战，毫末NOH已达可交付状态。

末端物流自动配送之战，初步完成商业闭环，交付超过1000台。

2023年，毫末智行在“量产”上依然有领先的目标。

首先是毫末城市NOH功能很快就会量产上市，首先搭载在长城汽车旗下魏牌车型。

而2024年到来之时，毫末城市NOH将会在国内100个城市落地。最重要的是：

毫末NOH因为不依赖高精地图，省去了建图、合规的流程，量产速度会更快，而且能实现无差别覆盖全国主要城市道路。

城市领航辅助驾驶落地竞速，毫末智行NOH无论量产的速度，还是规模，目前都是毫无争议的第一。

为什么是毫末智行？

对于毫末智行，无论是关注智能汽车发展的普通用户，还是从业者早已经非常熟悉。

“无人车传奇大牛带队”、“长城汽车转型杀手锏”、“自动驾驶量产第一”……

这些都是仅仅成立3年的毫末智行身上的标签。

客观上看，毫末智行的3年，是国内智能驾驶量产最快的3年。毫末模式、毫末速度，在过去三年来屡屡被热议。

但智算中心建立，再次引领——首家自动驾驶公司建造智算中心。

为什么是毫末？

首先因为这是落地进展的需要。

城市辅助驾驶大规模落地，带来大规模数据训练的问题，自建智算中心可以更加高效、更具成本、更可持续——真正进入城市辅助驾驶大规模落地的玩家，都可能需要自建智算中心。

毫末执行在量产上的进展最快，所以率先开建，成为自动驾驶公司中的首家。

更深层次原因，则是毫末智行的技术路线：重感知轻地图的路线，以及对大模型的运用。这条路线对于数据规模和迭代，有着更加高的要求。

但最根本的原因，毫末智行CEO顾维灏给出的答案是“创业精神”：

毫末最为制胜的武器，是毫末同学们在一起而形成的迎难而上的创业精神，这种无敌的创业精神是我们面对挑战，取得领先，不断向前的最大法宝。

业内自动驾驶公司，更多选择“轻快灵”的技术系统打造方式，避免“重资产”的成本投入，所以之前即便有特斯拉这样的公司打造智算中心，也是车厂维度出发的，轻重资产无所谓，重点还是成本和效能提升。

但毫末智行从第一性原理思考，看到了自动驾驶要大规模落地，智算中心就避无可避，再难也要做，再重也要搞，看起来最难的路就是最正确的路。

实际上这也是毫末智行这种创业精神和技术底色的一以贯之。

智算中心之前，毫末智行率先引入Transformer等新技术，在“高精度地图”的迷信中可以反共识选择重感知轻地图技术路线，当时并不是主流，但后来成为行业共识，完全是独立思考不跟随，迎难而上创业精神和底色之下的必然选择和结果。

有这样的精神，毫末的自动驾驶创新和推进，就有“1”，各种技术推进和落地成果，都是不断新增的“0”。

这些成果，在毫末智行的历次AI Day上接连亮相，让业内惊叹于毫末智行成果之多，进展之快。

毫末AI Day已然形成一种类似阿里双11的技术能力大考，而且是一个季度一次，已经算得上“家喻户晓“。

随着历届毫末AI Day的深入，这个活动本身从单一公司展示成果，演变成了行业内备受关注期待的自动驾驶前沿技术分享、商业落地前瞻的重要风向之一。

在自动驾驶行业历经2022年的竞速和洗牌之后，随着毫末智行智算中心的推出，开始有观点认为，接下来量产自动驾驶的快慢标准，除了看落地规模、上路能力体验，也可以把智算中心作为竞争力参考。

你怎么看？