一种可以增强计算机视觉的新机器学习策略

2019-06-13 17:16:50 编辑：来源：

导读来自巴塞罗那自治大学，卡内基梅隆大学和印度海德拉巴国际信息技术研究所的研究人员开发出一种技术，可以让深度学习算法以自我监督的方式学

来自巴塞罗那自治大学，卡内基梅隆大学和印度海德拉巴国际信息技术研究所的研究人员开发出一种技术，可以让深度学习算法以自我监督的方式学习图像的视觉特征，而无需人类研究人员的注释。

为了在计算机视觉任务中取得显着成果，深度学习算法需要在包含有关每个图像的大量信息的大规模注释数据集上进行训练。但是，收集和手动注释这些图像需要大量的时间，资源和人力。

“我们的目标是让计算机能够阅读和理解现实世界中任何类型图像的文本信息，”进行这项研究的研究人员之一Dimosthenis Karatzas在接受Tech Xplore采访时表示。

人类使用文本信息来解释呈现给他们的所有情况，以及描述他们周围或特定图像中发生的事情。研究人员现在正在尝试为机器提供类似的功能，因为这会大大减少用于注释大型数据集的资源量。

在他们的研究中，Karatzas和他的同事设计了计算模型，使用维基百科或其他在线平台的数据，将图像的文本信息与其中包含的视觉信息相结合。然后，他们使用这些模型来训练深度学习算法，以了解如何选择语义描述图像的良好视觉特征。

与基于卷积神经网络(CNN)的其他模型一样，端到端学习特征，不同的层自动学习专注于不同的事物，从第一层中的像素级细节到最后层中的更抽象特征。。

然而，Karatzas及其同事开发的模型不需要为每个图像指定特定的注释。相反，找到图像的文本上下文(例如维基百科文章)充当监督信号。

换句话说，这个研究小组创建的新技术提供了完全无监督算法的替代方案，该算法使用与图像相关的非视觉元素，作为自我监督训练的来源。

“这将成为学习如何在计算机中表示图像的一种非常有效的方式，无需任何明确的注释 - 关于图像内容的标签 - 这需要花费大量时间和手动工作，”Karatzas解释说。“这些新的图像表示以自我监督的方式学习，具有足够的辨别力，可用于一系列典型的计算机视觉任务，如图像分类和物体检测。”

研究人员开发的方法允许使用文本作为监督信号来学习有用的图像特征。这可以为深度学习开辟新的可能性，允许算法在不需要注释的情况下学习高质量的图像特征，只需分析在线即可获得的文本和视觉资源。

通过使用来自互联网的图像训练他们的算法，研究人员强调了在线可以获得的内容的价值。

“我们的研究表明，网络可以作为一组嘈杂的数据被利用来学习有关图像内容的有用表现，”Karatzas说。“我们不是第一个，也不是唯一暗示这个方向的人，但我们的工作已经证明了这样做的具体方法，利用维基百科文章作为数据来学习。”

在未来的研究中，Karatzas和他的同事将尝试确定使用图像嵌入文本信息自动描述和回答图像内容问题的最佳方法。

“我们将继续致力于文本和视觉信息的联合嵌入，寻找通过利用网络和社交媒体中可用的嘈杂信息进行语义检索的新方法，”Karatzas补充道。

标签：新机器学习策略

免责声明：本文由用户上传，如有侵权请联系删除！