您当前的位置:首页 > 精选问答 > 内容

三维实体检测解决方案是什么(三维实体检测解决方案)

三维实体检测解决方案是什么(三维实体检测解决方案)

仅通过在照片上训练模型,机器学习(ML)的最新技术已经在许多计算机视觉任务中实现了出色的准确性。在这些成功的基础上,进一步提高对3D对象的理解将极大地促进更广泛的应用,如增强现实、机器人、自主和图像检索。

今年早些时候,我们发布了MediaPipe Objectron,这是一套为移动设备设计的实时3D对象检测模型。这些模型在完全注释的真实3D数据集上被训练,并且可以预测对象的3D边界框。

然而,与2D任务(如ImageNet、COCO和Open Images)相比,由于缺乏大型真实数据集,理解3D对象仍然是一项具有挑战性的任务。为了使研究界能够不断提高对3D实体的理解,迫切需要发布一个以对象为中心的文章数据集,它可以捕捉更多对象的3D结构,同时匹配用于许多视觉任务的数据格式(如文章或相机流),以帮助训练和确定机器学习模型的基准。

今天,我们很高兴发布Objectron数据集,这是一个简短的以对象为中心的文章剪辑集合,可以从不同角度捕捉更大的公共对象集。每个文章片段都附有AR会话元数据,包括相机姿势和稀疏点云。此外,该数据还包含每个对象手动标记的3D边界,用于描述对象的位置、方向和大小。包括来自数据集的15K个带注释的文章剪辑,以及从不同地理区域(覆盖五大洲10个国家)的样本中收集的超过400万个带注释的图像。

三维实体检测解决方案

除了数据集,我们还将分享一个针对四种物体的3D实体检测解决方案——鞋子、椅子、杯子和相机。这些模型发表在谷歌的开源框架media pipe 的跨平台可定制ML解决方案,适用于实时和流媒体。该解决方案还支持ML解决方案,如设备上的实时手、虹膜和身体姿势跟踪。

在移动设备上运行的3D对象检测解决方案的示例结果

与之前发布的单相Objectron模型相反,这些最新版本使用两级架构。在第一阶段,TensorFlow对象检测模型用于寻找实体的2D裁剪。然后,第二阶段使用图像裁剪来估计3D边界,同时计算下一帧的实体的2D裁剪,因此实体检测器不需要运行每一帧。第二阶段3D边界预测器在Adreno 650移动GPU上以83 FPS运行。

请参考3D物体检测解决方案图。

三维目标检测的评价指标

在地面真实注释的帮助下,我们使用3D交集/并集(IoU)相似性统计(计算机视觉任务的常用度量)来评估3D实体检测模型的性能,该模型测量边界与地面真实的接近度。

我们提出了一个算法来计算准确的三维IoU值为一般的三维盒导向。首先,我们使用萨瑟兰-霍奇曼多边形裁剪算法来计算两个盒子的面之间的交点。这类似于计算机图形学中使用的圆锥剔除技术。相交的体积由所有修剪多边形的凸包计算。最后根据两个盒子相交的体积和并集的体积计算出IoU。我们将在发布数据集的同时发布评估指标的源代码。

通过多边形裁剪算法计算并集的3D交点(左):通过裁剪方形盒的多边形计算每个面的交点。右图:通过计算所有交点的凸包来计算交点的体积(绿色)。

数据集格式

数据集的技术细节,包括用法和教程,可在数据集网站上找到。包括自行车、书籍、瓶子、相机、麦片盒、椅子、杯子、笔记本电脑和鞋子在内的数据集存储在谷歌云存储上的objectron bucket中,有以下资源:

文章剪辑

注释标签(实体的三维边框)

AR元数据(如相机姿态、点云和平面)

处理过的数据集:注释帧的改编版本,图像的格式为tf.example,文章的格式为SequenceExample。

支持基于上述指标运行评估的脚本。

支持脚本将数据加载到Tensorflow、PyTorch和Jax中,并可视化数据集,包括你好世界举例。

有了数据集,我们还会在流行的Tensorflow、PyTorch、Jax框架中打开数据管道解析数据集。还提供了一个示例colab笔记本。

通过发布这个Objectron数据集,我们希望研究界能够突破对三维实体几何理解的限制。我们也希望促进新的研究和应用。如视图合成、改进的三维表示和无监督学习。加入我们的邮件列表并访问我们的github页面。请关注未来的活动和发展。

快递一it’谢谢/感激

本文中描述的研究由Adel Ahmad Yan、Liang、Jian Ning Wei、Art Siom Ablavatski、Mogan Shieh、Ryan、Buck Bourdon、Alexander Kanaukou、Chu-Ling Chang、Matthias Grundmann和Tom Funkhouse完成。我们感谢Aliaksandr Shyrokau、Sviatlana Mialik、Anna Eliseeva和注释团队的高质量评论。我们还要感谢Jonathan Huang和Vivek Rathod对TensorFlow对象检测API的指导。

标签:数据对象实体


声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,谢谢。

上一篇: appleipadair4(ipadair4内存多大)

下一篇: 什么是借壳上市(为什么要借壳上市)



推荐阅读

网站内容来自网络,如有侵权请联系我们,立即删除! | 软文发布 | 粤ICP备2021106084号