仅通过在照片上训练模型,机器学习(ML)的最新技术已经在许多计算机视觉任务中实现了出色的准确性。在这些成功的基础上,进一步提高对3D对象的理解将极大地促进更广泛的应用,如增强现实、机器人、自主和图像检索。
今年早些时候,我们发布了MediaPipe Objectron,这是一套为移动设备设计的实时3D对象检测模型。这些模型在完全注释的真实3D数据集上被训练,并且可以预测对象的3D边界框。
然而,与2D任务(如ImageNet、COCO和Open Images)相比,由于缺乏大型真实数据集,理解3D对象仍然是一项具有挑战性的任务。为了使研究界能够不断提高对3D实体的理解,迫切需要发布一个以对象为中心的文章数据集,它可以捕捉更多对象的3D结构,同时匹配用于许多视觉任务的数据格式(如文章或相机流),以帮助训练和确定机器学习模型的基准。
今天,我们很高兴发布Objectron数据集,这是一个简短的以对象为中心的文章剪辑集合,可以从不同角度捕捉更大的公共对象集。每个文章片段都附有AR会话元数据,包括相机姿势和稀疏点云。此外,该数据还包含每个对象手动标记的3D边界,用于描述对象的位置、方向和大小。包括来自数据集的15K个带注释的文章剪辑,以及从不同地理区域(覆盖五大洲10个国家)的样本中收集的超过400万个带注释的图像。
三维实体检测解决方案
除了数据集,我们还将分享一个针对四种物体的3D实体检测解决方案——鞋子、椅子、杯子和相机。这些模型发表在谷歌的开源框架media pipe 的跨平台可定制ML解决方案,适用于实时和流媒体。该解决方案还支持ML解决方案,如设备上的实时手、虹膜和身体姿势跟踪。
在移动设备上运行的3D对象检测解决方案的示例结果
与之前发布的单相Objectron模型相反,这些最新版本使用两级架构。在第一阶段,TensorFlow对象检测模型用于寻找实体的2D裁剪。然后,第二阶段使用图像裁剪来估计3D边界,同时计算下一帧的实体的2D裁剪,因此实体检测器不需要运行每一帧。第二阶段3D边界预测器在Adreno 650移动GPU上以83 FPS运行。
请参考3D物体检测解决方案图。
三维目标检测的评价指标
在地面真实注释的帮助下,我们使用3D交集/并集(IoU)相似性统计(计算机视觉任务的常用度量)来评估3D实体检测模型的性能,该模型测量边界与地面真实的接近度。
我们提出了一个算法来计算准确的三维IoU值为一般的三维盒导向。首先,我们使用萨瑟兰-霍奇曼多边形裁剪算法来计算两个盒子的面之间的交点。这类似于计算机图形学中使用的圆锥剔除技术。相交的体积由所有修剪多边形的凸包计算。最后根据两个盒子相交的体积和并集的体积计算出IoU。我们将在发布数据集的同时发布评估指标的源代码。
通过多边形裁剪算法计算并集的3D交点(左):通过裁剪方形盒的多边形计算每个面的交点。右图:通过计算所有交点的凸包来计算交点的体积(绿色)。
数据集格式
数据集的技术细节,包括用法和教程,可在数据集网站上找到。包括自行车、书籍、瓶子、相机、麦片盒、椅子、杯子、笔记本电脑和鞋子在内的数据集存储在谷歌云存储上的objectron bucket中,有以下资源:
文章剪辑
注释标签(实体的三维边框)
AR元数据(如相机姿态、点云和平面)
处理过的数据集:注释帧的改编版本,图像的格式为tf.example,文章的格式为SequenceExample。
支持基于上述指标运行评估的脚本。
支持脚本将数据加载到Tensorflow、PyTorch和Jax中,并可视化数据集,包括你好世界举例。
有了数据集,我们还会在流行的Tensorflow、PyTorch、Jax框架中打开数据管道解析数据集。还提供了一个示例colab笔记本。
通过发布这个Objectron数据集,我们希望研究界能够突破对三维实体几何理解的限制。我们也希望促进新的研究和应用。如视图合成、改进的三维表示和无监督学习。加入我们的邮件列表并访问我们的github页面。请关注未来的活动和发展。
快递一it’谢谢/感激
本文中描述的研究由Adel Ahmad Yan、Liang、Jian Ning Wei、Art Siom Ablavatski、Mogan Shieh、Ryan、Buck Bourdon、Alexander Kanaukou、Chu-Ling Chang、Matthias Grundmann和Tom Funkhouse完成。我们感谢Aliaksandr Shyrokau、Sviatlana Mialik、Anna Eliseeva和注释团队的高质量评论。我们还要感谢Jonathan Huang和Vivek Rathod对TensorFlow对象检测API的指导。
标签:数据对象实体