什么是地面真相?
地面真值是指机器学习中使用监督学习的训练集的分类精度,用于证明或反驳某个假设。有监督的机器学习会对训练数据进行标记,那些正确标记的数据会被称为地面真实。地面真值是一个参考标准,一般用于量化误差,最终验证分类算法的准确性。真值校准的输入通常是一个文章文件。真值校准可以手动逐帧校准,也可以半自动校准后手动校正,最后将结果保存到真值数据库中。
Ground-truth在自动驾驶汽车行业有很高的附加值。它涉及以下数据处理过程:数据收集、数据标注、模型训练、应用和验证。拥有最高质量地面实况数据的公司将处于自动驾驶汽车的前沿。
地面实况质量影响算法质量。
一、地面实况数据的挑战是什么?
丢失或模糊的物体
不一致的标志(手里有或没有物品的行人)
不同类型车辆之间界限不清
系统标记误差
不确定
定义不明确的需求
1.1丢失或模糊的物体
1.2不一致的标志(手里有或没有物品的行人)
1.3不同类型车辆之间的界限不清
1.4系统标记误差
的原始标记框不准确,通过更正顶部和底部以及更详细的注释,标记框变得更准确。
二、实验:基础真实质量对算法性能的影响
2.1实验
我们展示了标记盒实验的初步结果。
1.化合物分类(标签要求定义不明确)
2.不准确的真值标记
复合分类
图中标注了骑车人和行人,自行车没有。
2.2复合加州理工学院:新数据集
行人与携带行李者的比较
加州理工完成了从原来不精确的标记盒到更精确的标记盒,再到高质量的复合标记盒的转变。
2.3复合加州理工培训
1.用于重复结果的现成对象检测器
2.架构:更快rcnn_resnet101_coco (coco前期培训)
3.微调加州理工数据库(任何变量都有独立的模型,无需超参数调优)
2.4加州理工学院探测器评估
加州理工学院改进的加州理工学院合成加州理工学院地图@ 0.50.21700.30300.2916
初步结果:复合加州理工学院降低了准确性。
2.5扭曲VOC边界框
2.6实验总结
不准确的标记(质量)对高精度区域的性能有重大影响。
三、解决方案
加快贴标过程:更快、更准确、更具成本效益
手动贴标过程从90分钟压缩到35分钟。
把不确定的地方可视化,引导阅卷人员。
四、Understand.ai质量保证方法
一种是依靠智能算法。
深度学习推理,加上不确定性计算,加快了标注者的工作速度。
算法质量检测和目标跟踪
二是依靠人类的智慧。
每个图像都由人类注释者验证。
通过内部专家提供额外的质量保证
通过智能算法和人的智能,共同完成高质量的标注。
通过算法推荐,计算不确定的地方,标注人员解决不确定的地方,共同完成高质量的标注。
激光雷达标注
通过算法和工具,速度最多可以提升5倍。
标签:标记质量算法