简介
基于监督学习的神经网络算法需要大量数据作为输入,模型完全由数据驱动,其数据质量是算法有效的必要条件,所以如何高效的采集到数据,以及正确的标注或分析是极其重要的,如果第一步有问题,后续的所有工作都是徒劳。
本文将介绍 PECC 的数据采集板,以及来自 GPM China 的数据采集工具,简单分析数据质量的一些方法,以及需要注意的一些事项。
上位机介绍
总结
数据采集和标注是做好神经网络的第一步,需要格外小心和谨慎,不然其中有脏数据,通过肉眼十分难以清理出来,脏数据过多会导致模型泛化能力很差。
其中一个办法是用模型对所有数据进行验证,然后挑选出验证结果失败的数据,然后 Plot出来。若通过肉眼分辨,其工作量非常巨大和繁琐,还是应当在数据收集的过程中保证数据的有效性。
阅读全文