用于预测单眼序列的深度和自我运动的双视图网络

2019-06-04 16:55:08 编辑：来源：

导读 TCS Research&Innovation的嵌入式系统和机器人小组的研究人员最近开发了一种双视深度网络，用于推断连续单眼序列的深度和自我运动。他们的

TCS Research&Innovation的嵌入式系统和机器人小组的研究人员最近开发了一种双视深度网络，用于推断连续单眼序列的深度和自我运动。他们的方法在预先发布在arXiv上的论文中提出，也包含了极线约束，这增强了网络的几何理解。

“我们的主要想法是尝试直接从单个图像序列预测像素深度和相机运动，”开展这项研究的研究人员Brojeshwar Bhowmick博士告诉TechXplore。“传统上，基于运动的重建算法的结构为图像中的显着兴趣点提供稀疏深度输出，使用多视图几何体在多个图像上进行跟踪。随着深度学习在计算机视觉任务中越来越受欢迎，我们考虑利用现有的通过使用极线几何和深度学习的概念组合，以更基本的方式解决问题，从而帮助我们的事业。“

大多数现有的用于预测单眼深度和自我运动的深度学习方法通过将一个视图扭曲成另一个视图来优化图像序列中的光度一致性。然而，通过从单个视图推断深度，这些方法可能无法捕获像素之间的关系，从而提供适当的像素对应。

为了解决这些方法的局限性，Bhowmick和他的同事开发了一种结合了几何计算机视觉和深度学习范例的新方法。他们的方法使用两个神经网络，一个用于预测单个参考视图的深度，一个用于预测一组视图相对于参考视图的相对姿势。

“目标图像场景可以通过基于深度和相对姿势对它们进行翘曲来从任何给定姿势重建，”Bhowmick解释说。“鉴于这个重建的图像和参考图像，我们计算像素强度中的误差，这是我们的主要损失。我们在整体上增加了使用每像素极线损失的概念，这是一种来自多视图几何的概念。损失，这确保了更好的对应关系，并具有在场景中折扣移动物体的额外优势，否则会恶化学习。“

这种新方法不是通过分析单个图像来预测深度，而是通过分析来自视频的一对图像并学习像素间关系来预测深度。它有点类似于传统的SLAM / SfM算法，它可以随时间观察像素运动。

“我们研究中最有意义的发现是使用两个视图来预测深度比单个图像效果更好，并且即使通过极线约束执行像素级别对应也很有效，”Bhowmick说。“一旦这些方法成熟并且在普遍性方面有所提高，我们就可以将它们应用于无人机的感知，其中人们希望通过消耗尽可能少的能量来提取最大的感官信息，这可以通过使用单个相机来实现。”

在初步评估中，研究人员发现他们的方法可以比现有方法更准确地预测深度，从而产生更清晰的深度估计和增强的姿态估计。但是，目前，他们的方法只能执行像素级推断。未来的工作可以通过将场景的语义集成到模型中来解决这种限制，这可能导致场景中的对象与深度和自我运动估计之间的更好的相关性。

“我们正在进一步探讨这种方法和其他类似方法在室内和室外各种场景中的普遍性，”Bhowmick说。“目前，大多数作品在室外数据上表现良好，例如驾驶数据，但在任意运动的室内序列上表现非常差。”

标签：双视图网络