腾讯优图实验室在人体2D姿态估计中获得了创新技术突破-全百科

近日，腾讯优图实验室在人体2D姿态估计任务上取得了创新性的技术突破。其提出的基于语义对抗的数据增强算法——高级语义数据增强(Advanced Semantic Data Augmentation，ASDA)，刷新了人体姿态估计的国际权威榜单。相关论文(用于人体姿态估计的高级语义数据增强)已被列入计算机视觉顶级会议欧洲计算机视觉会议(ECCV 2020)。

作为计算机视觉领域的基础技术之一，人体姿态可以理解为人体姿势(重点，如头、左手、右脚等。)，其中2D人体姿态估计在各种视觉应用中起着重要的作用。然而，尽管这项技术已经研究了很长时间，相关的创新方法也层出不穷，但在很多场景下，其效果仍然不尽如人意。

如图1所示，对于对称性强的人体、遮挡严重的场合以及多人场景，2D姿态估计的性能普遍较差。解决上述问题的有效方法是增强数据集的数据。然而，现有的数据增强算法，如图像翻转、图像旋转或图像色度变化等，都是在全局范围内的数据增强，无法解决图中所示的具有挑战性的情况。

图一。二维人体姿态估计的挑战性案例

为了解决上述困难，优图提出了一种基于语义对抗的数据增强算法：对抗语义数据增强(ASDA)。该算法的总体流程如图2所示，通过生成网络，输入图像在语义粒度上得到增强。将增强后的图像作为姿态估计网络的输入，进行姿态估计，得到二维人体姿态。网络生成增强样本以提高姿态估计网络的预测难度，姿态估计网络尝试预测增强图像。

2.ASDA算法流程图

与其他算法相比，腾讯优图算法有三个创新点。首先，提出了基于局部变换的数据增强方法，有效地弥补了全局数据增强的缺陷。第二个创新点是设计了一个基于人类语义成分的数据增强算法(SDA，semantic data enhancement)，可以有效模拟网络可以在语义粒度上通过图像替换和转换处理before。

第三个创新点是ASDA算法，在MPII、COCO、LSP等主流二维人体姿态估计的基准上超越了最先进的方法，达到了第一水平，将人体姿态估计的精度推向了一个新的高度。ASDA作为一种通用的数据增强方法，可以方便地用于不同数据集和不同网络结构的2D人体姿态估计。

实践表明，优图的算法在COCO、MPII和LSP的姿态估计基准中达到了最高水平。图4-7显示了Youtu和其他SOTA算法在上述三个权威数据集上的精度差异。为了方便展示ASDA算法的效果，我们可以在COCO测试集中通过可视化得到图3。可以看出，优图的算法可以有效解决图1中的挑战性案例。

作为腾讯美国顶级人工智能实验室，优图以计算机视觉为核心，围绕人脸识别、图像识别、OCR、机器学习、数据挖掘等领域开展技术研究和行业落地。在推动行业数字化升级的过程中，始终坚持基础研究和产业落地两条腿走路的发展战略，与腾讯云、智慧产业深度融合，挖掘客户痛点，为行业有效降本增效。

未来，腾讯优图还将继续深耕人体2D姿态估计技术，并将继续探索更多的应用场景和应用空间，让更多用户享受到技术带来的红利。

fqj

标签：姿态人体数据

声明：本文版权归原作者所有，转载文章仅为传播更多信息之目的，如作者信息标记有误，请第一时间联系我们修改或删除，谢谢。

腾讯优图实验室在人体2D姿态估计中获得了创新技术突破

猜你感兴趣

推荐阅读