Facebook的新AI模式可以同时分辨五种声音

2022-07-16 10:11:21 编辑：狄婷凡来源：

导读 Facebook研究人员创建了一个AI模型，该模型可以区分一个麦克风上同时讲话的五个语音，而不是任何现有系统。新方法可以改善嘈杂空间中的...

Facebook研究人员创建了一个AI模型，该模型可以区分一个麦克风上同时讲话的五个语音，而不是任何现有系统。新方法可以改善嘈杂空间中的音频技术，包括助听器和语音助手。

人群中的声音

研究人员在一篇名为《语音分离与多名发言人数量未知》的论文中解释了他们的模型，并将在2020年国际机器学习大会上进行介绍。科学家教会了AI如何使用递归神经网络上的新变量来区分不同的声音，以模拟内存并分析音频，以确定在编码器网络适当组织声音之前有多少人在说话。模型训练在2至5个并发扬声器上，所有扬声器都只有一个麦克风。

研究人员在论文中解释说：“从同时发生的多个对话中分离出单个声音的能力构成了具有挑战性的感知任务。”“人类的能力激发了许多计算尝试，早期的许多工作都集中在多个麦克风和无监督学习上，例如独立成分分析方法。在这项工作中，我们着重于从单个麦克风进行有声语音分离的问题，随着深度神经网络的出现，在性能上有了飞跃。”

听着

Facebook的研究人员指出，他们的模型可以在几个不同的领域增强现有的音频技术，例如助听器。尽管当今的助听器已经超越了简单地使声音变大的优点，但是使用它们的人仍然很难在嘈杂的情况下听到与之交谈的人的声音。对于在聚会上或有风的地方使用助听器的人来说，隔离不同的声音并消除多余的声音是理想的选择。同样的技术还可以为语音助手的重大升级奠定基础。一旦AI可以自己分析不同的语音，它便能够知道是否使用了它的唤醒词，并且说话者提出的请求比当前模型要准确得多。

目前，额外的噪音，甚至一次只有两个语音通话，都会使智能扬声器上的语音助手感到困惑，这就是为什么多家公司追求类似目标的原因。例如，谷歌花了很长时间开发“降噪器”，以过滤掉Google Meet电话中不相关的噪音。为嘈杂和复杂的音频环境开发软件已经吸引了像AudioTelligence这样的初创公司，从风险投资家那里获得了数百万美元的资金，用于开发可以在嘈杂的情况下让人听得见的软件。同时，TalkTo噪声过滤软件创建的DSP Concepts已通过亚马逊认证用于Alexa内置设备。Facebook的研究人员现在正在努力将该新模型应用于现实情况，大概是供Facebook最终用于商业用途，也许将该模型集成到该公司当前正在开发的语音助手中。

标签：

免责声明：本文由用户上传，如有侵权请联系删除！