谷歌为ai生成的音频和视频质量引入了新的度量标准

2022-08-24 13:46:31 编辑：熊雄灵来源：

导读谷歌AI研究人员发表了两项新的衡量深度学习网络产生的音频和视频质量的指标，即Frechet音频距离（FAD）和Frechet视频距离（FVD）。这些指标...

谷歌AI研究人员发表了两项新的衡量深度学习网络产生的音频和视频质量的指标，即Frechet音频距离（FAD）和Frechet视频距离（FVD）。这些指标已被证明与人类对质量的评价有很高的相关性。

　　在最近的一篇博客文章中，软件工程师凯文·基尔古尔（Kevin Kilgour）和托马斯·尤特西纳（Thomas Unterthiner）描述了他们团队所做的工作，这项工作建立在先前测量神经网络生成的图像质量的研究的基础上。这些团队分别展示了他们的新度量如何检测添加到声音或视频中的噪声，以及他们的度量如何通过人类对声音或视频质量的评估来跟踪。通过对失真音频样本的排序来评估FAD，其选择与人类评委的相关性为0.39。通过对由深度学习模型生成的视频对进行排名，对FVD进行了类似的评估；它与60%到80%之间的人类排名一致，这取决于所使用的生成标准。

　　深度学习模型的成功在一定程度上是由Image Net等大型高质量数据集的可用性驱动的。这些数据集还提供了一个“基本真相”，可以据此对模型进行评估。最近流行的深度学习生成新图像的应用提出了一个新的问题：如何测量输出的质量？不能采用信噪比或均方误差等通用指标，因为这些网络生成的图像或其他数据没有“地面真相”答案。

　　由于目标是创建对人类来说看起来或听起来真实的输出，数据可以由人类评委打分，但这既不可伸缩，也不一定客观。Gans的发明者提出的最初度量标准是Inception评分（IS）。该度量是通过将预先训练的Inception图像分类器应用于图像和计算结果统计来计算的。这一度量指标“与用于训练生成模型的目标密切相关”，并被证明与人类对质量的判断密切相关。

　　然而，Inception评分标准确实有一些缺点；特别是，它对所使用的底层Inception模型的变化很敏感。奥地利约翰内斯·开普勒大学LIT人工智能实验室的Unterthier和其他人开发了Frechet初始距离（FID）。而不是使用Inception模型的分类输出，FID使用Inception模型的隐藏层来计算输入图像的嵌入。为一组生成的图像和一组真实世界（或基线）图像计算嵌入。所得到的数据集被视为由多元高斯分布生成的数据，并使用Frechet距离对两个分布进行比较。与IS相比，FID的一个优点是随着噪声被添加到图像中，FID会增加，而IS可以保持平坦，甚至减少。

　　谷歌的新指标扩展了计算生成数据的嵌入，并将统计数据与基线数据进行比较的想法。对于FAD，团队使用VGGish来计算嵌入，对于FVD，一个充气的3D Convnet。为了验证其度量的有用性，研究人员计算了通过在基线中添加噪声而创建的数据集的度量值；期望是随着噪声的增加，分数会增加，这确实发生了。该小组还将他们的度量结果与人类评价进行了比较，发现他们的度量与人类判断之间的相关性，并且他们的新度量与人类法官的一致性比其他常用的度量更强。

标签：

免责声明：本文由用户上传，如有侵权请联系删除！