自动驾驶,作为人工智能领域的掌上明珠,是需要经过大量的数据学习和数据训练才能焕发光彩的。而数据的采集成本之高、难度之大,又让人望而却步。
近日,华为诺亚方舟实验室联合中山大学发布了新一代2D自动驾驶数据集SODA10M数据集。SODA10M拥有数据规模庞大、数据多样性强、泛化能力强三个特点。华为诺亚方舟实验室计划将基于这个数据集开放2D自动驾驶挑战赛,并且会设立奖项和奖金。
1、规模10倍于Waymo,业内最大
在“规模”方面,SODA10M 比现有的BDD100K和Waymo等自动驾驶数据集大十倍,包含1000万张无标注的道路场景图像,2万个带标注的高质量2D边界框,拥有更多可供自动驾驶汽车学习的数据。
2、多样性4个季节32个城市
在“多样性”方面,SODA10M数据集中的图片覆盖了4个不同的季节和32个城市。
这些照片是在各种条件下拍摄的,晴天雨天、白天黑夜、城市高速…..
1000万张无标注图片来自32个城市,囊括了国内大部分地区,2万张带标注的图片,直接标出了Pedestrian、Cyclist、Car、Truck、Tram、Tricycle这6种主要的人车场景,以供自动驾驶汽车如何应对各种情况。
据悉,华为是通过众包的方式,把采集任务分发给上万名出租车司机,由司机拍照或行车记录仪完成图片采集。
3、泛化专注自/半监督,用于ICCV2021 SSLAD挑战赛
在“泛化”方面,SODA10M数据集提供了一组卓越的数据,可用于预训练自动驾驶算法。这是由于数据集的多样性和大小,当使用MoCov1时,这导致比Waymo或Cityscapes等其他现有数据集有更好的泛化能力。
对比Waymo自动驾驶数据集和ImageNet自监督算法数据集,SODA10M表现优异。华为分别从目标检测,BDD100K,Cityscapes语义分割入手,结果SODA10M的自监督训练效果与ImageNet相仿,明显优于Waymo。
研究论文表明,SODA10M 可以作为训练和评估不同自/半监督学习方法的有前途的数据集。除了标准化评估之外,这还可以促进对先进技术的探索,以帮助推动自动驾驶系统向前发展。
后台回复“华为数据集”获取干货~
论文:
https://arxiv.org/pdf/2106.11118.pdf
数据集:
https://soda-2d.github.io/index.html
项目:
https://sslad2021.github.io/index.html
挑战:
https://sslad2021.github.io/pages/challenge.html