行业需求及现状
智能驾驶进入数据驱动时代,数据闭环是智能驾驶量产落地的核心飞轮:更多场景,需要更多数据,训练更复杂的算法模型。
随着近两年的技术迭代,智能驾驶发展的重心已从技术研发比拼转移到商业化落地的竞争,自2022年起,头部车企纷纷宣布城市场景NOA(Navigate on Autopilot,自动辅助导航驾驶)的量产落地计划。据预测,2025年中国城市NOA前装市场规模将达到76亿元。实现城市NOA是智能驾驶商业化向前迈出的一大步,而智能驾驶的成熟依赖于高效的算力、完善的算法模型和大量有效的数据。
图1 2021—2025年中国城市NOA市场规模预测(亿元)
智能驾驶所需的场景数据应该尽可能多地涵盖Corner Case,算法模型的升级迭代也需要新场景数据的不断投喂,数据重要性日益凸显,从主机厂到Tier 1,智能驾驶产业上下游各玩家都将目光投向了智能驾驶数据闭环的打造。智能驾驶进入下半场之后,那些无法在数据闭环能力上取得突破的公司在一方面会被“高成本”和“低效率”拖累,另一方面还会因为对Corner Case的解决能力无法取得突破,而难以令终端消费者满意。
对智能驾驶来说,更高质量的训练数据在其场景化落地中发挥不可或缺的作用,拥有一套完整的数据服务工具对实现智能驾驶数据闭环的高效运转至关重要。依据全国信息安全标准化技术委员会发布的《汽车采集数据处理安全指南》,汽车采集数据指通过汽车传感设备、控制单元采集的数据,以及对其进行加工后产生的数据。汽车采集数据经过标注、处理、存储、管理等处理,形成有效数据集,进一步存储在云端服务器中,之后传输至算法模型,经过训练部署到车端进行应用验证,形成一套由数据驱动算法迭代,进而驱动智能驾驶能力升级的闭环模型。
智能驾驶数据服务的痛点与难点
获取低成本、高质量的数据
智能驾驶的真正落地需要大量高质量、安全无偏差的数据,但目前获取低成本、高质量的数据仍然是行业发展的一大痛点。对于数据标注公司来说,质量的提升也就意味着更多成本投入,这与客户控制成本的理念相违背。另一方面,智能驾驶在不同场景的数据需求要求数据标注公司提供持续稳定的数据,这对于多数数据服务商来说也是高难度的挑战。
采集标注、分析处理、管理的难度和复杂度
在数据的整体生产环节中,数据采集、数据处理和数据管理等各个环节都涉及海量数据,若处理不当,可能会导致项目质量问题和项目启动延迟,但由于各个模块的自动化程度都不够高,导致AI从业者将80%以上精力都花在数据管理上。另一方面,当前解决各种Corner Case的方式主要是实车采集足够多的相关数据,然后训练模型,让模型具备应对能力,这种方式效率较低,而且很多特殊场景出现频率低,实车很难采集到。
数据标注的效率
传统的智能驾驶数据闭环,在数据预处理、数据标注等环节效率较低。例如,多数公司在数据标注环节都会依靠“人海战术”,即依靠人工一个个地对采集回来的数据做场景分类,不仅效率较低,而且会有一定概率产生误差,对结果影响较大。
为了解决智能驾驶数据服务的痛点,早在2021年,云测数据就推出了新智能驾驶数据解决方案1.0,面向智能驾驶领域不同落地场景下的高质量AI训练数据需求,通过场景数据库、定制化数据采集标注、数据标注&数据管理平台等服务,一站式解决智能驾驶从研发初期到落地的训练数据需求,从而大幅降低AI模型训练成本,加速智能驾驶相关应用的落地迭代周期,节省研发时间和成本。
云测数据的智能驾驶解决方案
提供丰富的高质量数据集
云测数据是Testin云测旗下AI数据标注服务品牌,通过自建数据场景实验室和数据标注基地,可为智能驾驶、智慧城市、智能家居、智慧金融、新零售等众多领域提供高精度、场景化的数据采集、数据标注服务,全方位支持文本、语音、图像、视频等各类型数据的处理。目前,云测数据深度合作伙伴覆盖了汽车、手机、工业、家居、金融、安防、教育、新零售、地产、生态系统等行业。在智能驾驶领域,云测数据凭借高质量的AI训练数据交付实力已与业内包括自主、合资车企,大型Tier1、Tier2,以及无人出租车、智能驾驶等众多厂商,建立了持久良好的合作关系。
图2 云测数据介绍
全新升级迭代的完整数据工具链
针对当下智能驾驶应用场景更加丰富,数据闭环已经成为智能驾驶量产落地的核心飞轮的发展趋势。云测数据以集成数据底座为核心,全面升级了数据标注及数据管理工具链,在今年推出智能驾驶数据解决方案2.0。相较于1.0版本,2.0版本在数据闭环能力、自动标注能力、数据管理工具链、人工效能评估等方面进行了全新升级:通过系统集成将大模型预标注能力与人工标注完美结合,提升了数据集和场景化数据服务能力,助力企业数据流转效率的全面提升。
图3 云测数据智能驾驶解决方案2.0
支持大模型的高效数据标注平台
云测数据升级人工标注与自动标注算法交互能力,全面提升了数据标注效率。通过将云测数据标注平台与众多行业大模型紧密结合,帮助企业更好地提质增效。2.0方案集成了不同模型的预标注能力,包括图像整帧、自选物体、区域、点云批次识别和文本识别等,重新定义了基于预标注的人工标注效能,如能效看板、综合看版等。
针对特定算法类型的数据持续优化迭代,涵盖点云4D叠帧、语义分割联合标注和智能ID轨迹预测。数据集也更加丰富,纳入了更多场景数据,标注方法也从原来以点线面体为主进化到融合4D标注规则。在云测数据标注平台的加持下,针对不同场景的Corner Case的识别和判断能力和在算法持续迭代的数据闭环阶段,数据预处理能力、数据挖掘能力、数据标注能力等方面,都表现出了明显提升。
图4 云测数据点云4D叠帧演示
支持BEV-Transformer标注,顺应智能驾驶发展趋势
面对当下主流感知大模型的数据服务能力升级,云测数据解决方案支持了更多智能驾驶标注类型,如现在诸多企业基于BEV+Transformer算法研发,对BEV视角环视拼接加点云融标注成为了主流。支持特定类型也使云测数据能更快速响应客户数据标注需求;同时可实现自动标注结果校验,并提升大模型标注能力和评测服务能力,助力智驾企业实现更自然、更智能、更多样化的人机交互方式。
在数据标注效率方面,与人工标注相比,BEV空间标注效率约提升1.5倍以上。例如,人工标注3D点云拉框需要先选择属性,再选择车头朝向。现在,人工只需大致框选一个区域,就完成了自动贴合,基于一些特定标签类别就能实现自动选择。其效率比人工拉框至少快了1.5倍到两倍。又如4D标注地面箭头,原来需要每帧标注,现在基于4D标注加空间坐标,只要标注对应一帧,通过映射即可将30帧结果叠在一起,完成多传感器融合4D标注,效率更高。