谷歌的AutoFlip使用人工智能为你裁剪视频

2022-08-31 23:21:40 编辑：柯珠鸿来源：

导读为电视拍摄和编辑的视频通常是在景观中创建和观看的，但问题是，像16：9和4：3这样的纵横比并不总是适合用于观看的显示器。幸运的是，谷...

为电视拍摄和编辑的视频通常是在景观中创建和观看的，但问题是，像16：9和4：3这样的纵横比并不总是适合用于观看的显示器。幸运的是，谷歌正在处理这件事。它今天详细介绍了自动翻转，一个开源工具的智能视频重构。给定一个视频和一个目标维度，它分析视频内容，并制定最优的跟踪和裁剪策略，然后在期望的纵横比中产生相同持续时间的输出视频。

正如Google Research高级软件工程师Nathan Frey和高级软件工程师郑孙在一篇博客文章中指出的那样，传统的视频重构方法通常涉及静态裁剪，这往往导致不满意的结果。更多的定制方法是优越的，但它们通常需要视频策划者手动识别每个帧中的突出内容，跟踪它们从帧到帧的转换，并在整个视频中相应地调整作物区域。

相比之下，由于AI对象检测和跟踪技术智能地理解视频内容，自动翻转是完全自动的。该系统检测表示场景变化的构图的变化，以便隔离场景进行处理。在每个镜头中，它使用视频分析来识别突出的内容，然后再重新绘制场景，主要是通过选择一个优化的相机模式和路径。

为了检测视频中的镜头何时发生变化，自动翻转计算每个帧的颜色直方图，并将其与先前的帧进行比较。如果帧颜色的分布以与滑动历史窗口不同的速度变化，则发出镜头变化信号。自动翻转缓冲视频，直到场景完成，然后再进行重构决策，以优化整个场景的重构。

自动翻转还点击基于AI的对象检测模型，在框架中找到有趣的内容，比如人、动物、文本覆盖、标识和运动。人脸和对象检测模型与通过媒体管道的自动翻转集成在一起，这是一个框架，可以开发用于处理多模态数据的管道，该框架使用Google的处理器上的TensorFlowLite机器学习框架。根据谷歌的说法，这种结构允许Auto Flip是可扩展的，因此开发人员可以为不同的用例和视频内容添加检测算法。

自动翻转自动选择一个重构策略-静止的，恐慌的，或跟踪-取决于对象在场景中的行为方式。在静止模式下，重构的摄像机视口固定在一个位置(就像一个固定的三脚架)，在那里可以在整个场景中查看重要内容。另一方面，恐慌模式以恒定的速度移动视口，而跟踪模式则提供连续和稳定的跟踪对象，因为它们在帧内移动。

在选择重构策略的基础上，自动翻转为每个帧确定一个裁剪窗口，同时保留感兴趣的内容。配置图提供了重新绘制的设置，以便如果不可能覆盖所有所需区域，系统将自动切换到一个不那么激进的策略，通过应用字母框效果，填充图像来填充框架。自动翻转将绘制背景颜色(如果是纯色)，以确保填充混合，或以其他方式使用模糊版本的原始框架。

研究人员留给未来的工作，以提高自动翻转的能力，以检测“与视频意图相关的对象”，如扬声器检测采访或动画人脸检测卡通，并确保输入视频与覆盖在屏幕边缘(如文本或徽标)是不从视图裁剪。但他们断言，即使以目前的形式，自动翻转也将“减少设计创造力的障碍”。

“通过结合文本/徽标检测和图像修复技术，我们希望未来版本的自动翻转能够重新定位前景对象，以更好地适应新的纵横比。 [而且]在需要填充的情况下，深度非裁剪技术可以提供更好的扩展能力，超越原来的可视区域，“弗雷和Sun写道。 “我们很高兴能将这个工具直接发布给开发人员和电影制作人，减少他们设计创造力的障碍，并通过视频编辑的自动化来实现。随着视频内容消费设备的多样性继续迅速增加，使任何视频格式适应各种纵横比的能力越来越重要。

标签：

免责声明：本文由用户上传，如有侵权请联系删除！