使用感兴趣区域打包在视频中快速检测对象

2019-06-10 17:30:14 编辑：来源：

导读罗伯特博世数据科学和人工智能中心和计算脑研究中心，印度理工学院马德拉斯和普渡大学的研究人员最近开发出一种新方法，用于减少使用神经网

罗伯特博世数据科学和人工智能中心和计算脑研究中心，印度理工学院马德拉斯和普渡大学的研究人员最近开发出一种新方法，用于减少使用神经网络的视频中物体检测的计算要求。他们的技术称为Pack and Detect(PaD)，在arXiv上发表的一篇论文中进行了概述。

对象检测是许多计算机视觉应用的关键方面，例如对象跟踪，视频摘要和视频搜索。虽然最近机器学习的进步已经导致开发用于完成该任务的越来越精确的工具，但是现有方法仍然在计算上非常密集。例如，使用SSD300 对象检测网络以300 x 300分辨率处理视频，以VGG16为主干，以30 fps为单位，每秒需要1.87万亿次浮点运算(FLOPS)。

研究人员观察到，在某些情况下，视频帧中的大多数区域仅仅是背景，显着对象仅占据帧中区域的一小部分。此外，他们发现连续帧之间存在强烈的时间相关性。他们利用这些观察结果，提出了一种新的视频对象检测技术，可以降低对象检测任务的计算要求。

“我们受到了生物和人工视觉系统中的中央凹机制的启发，”开展这项研究的研究人员之一的Athindran Ramesh Kumar告诉TechXplore。“以前关于人工视觉系统中的中心凹注意力机制的研究只关注图像中的一个区域或一次只关注一个物体。我们想知道如果它能够立即聚焦在场景中的所有显着区域，视觉系统将是怎样的。 “。

因此，研究人员设计的物体检测方法受到生物视觉系统的启发。然而，与先前的尝试相反，他们的系统将所有感兴趣的区域一起打包在单个帧中，而不是顺序地处理它们。

“我们的工作目标是通过仅关注框架中的显着区域并消除背景杂乱来加速视频中的物体检测，”进行这项研究的另一位研究员Balaraman Ravindran告诉TechXplore。“为了消除背景杂乱，我们利用了视频中相邻帧之间的时间相关性。这是视频压缩技术用来降低存储和带宽要求的属性;我们用它来加速计算。”

PaD，Ravindran及其同事提出的物体检测方法是通过以全尺寸定期处理帧来工作。这些帧被称为“锚帧”。另一方面，在所有其他帧中，工具基于对象在前一帧中的位置来识别感兴趣的区域。

“这些感兴趣的区域像拼贴一样排列在一起，用作物体探测器的输入，”进行这项研究的研究人员之一Anand Raghunathan告诉TechXplore。“然后将检测结果映射回原始图像中的位置。这种方法更快，因为拼贴图像的尺寸小于全帧。我们利用SSD300等流行物体检测器的灵活性来处理全尺寸图像和更小的尺寸。“

研究人员在ImageNet VID数据集上评估了他们的方法，发现它的加速时间为1.25倍，精度下降不到1.6%。此外，他们观察到处理较小尺寸帧所需的时间几乎减少了三倍，FLOP计数减少了四倍。

此外，他们的研究突出了两个重要方面，可以为开发更快，更少计算密集的方法来检测视频中的对象提供信息。首先，感兴趣的对象通常仅占据帧中的一小部分像素; 第二，视频中相邻帧之间存在相关性。

“我们的工作可以通过降低计算要求，帮助在物联网边缘的资源受限设备上实现视频分析，或者可以改善云中服务器可能处理的视频流数量，”Athindran说。

该研究小组开展的这项研究是开发更有效的物体检测工具的第一步。他们现在正计划进一步调查，以进一步改进他们的方法。

例如，目前，PaD定期选择锚帧，但研究人员可以开发一种动态识别这些关键帧的机制。他们还计划在更加资源有限的硬件中测试他们的技术，例如智能手机，可穿戴设备和智能家用电器。

“我们手工制作了一种算法来推断感兴趣的区域并形成拼贴图像，”拉文德兰说。“但是一个完全神经系统会有神经网络，可以根据前一帧产生拼贴图像。这是一个更加雄心勃勃的未来工作路线。”

标签：快速检测对象