您的位置: 首页 >科技 >

亚马逊的人工智能改善了语音的情感检测

2022-09-01 03:56:51 编辑:印福茗 来源:
导读 从某人声音的音调中可以得到很多东西,这是一种自然的情感管道。 情绪有一系列的应用:它可以通过帮助检测痴呆或心脏病发作的早期迹象来帮...

从某人声音的音调中可以得到很多东西,这是一种自然的情感管道。 情绪有一系列的应用:它可以通过帮助检测痴呆或心脏病发作的早期迹象来帮助健康监测,它有可能使会话AI系统更吸引人和更有反应。 总有一天,情感甚至可能提供隐性反馈,帮助谷歌助理、苹果Siri和亚马逊Alexa等语音助理从错误中吸取教训。

情绪分类人工智能并不是什么新的东西,但传统的方法是受监督的,这意味着他们摄入根据说话者的情绪状态标记的训练数据。 亚马逊的科学家们最近采取了一种不同的方法,他们在一篇预定在声学、语音和信号处理国际会议上发表的论文中描述了这一点。 他们没有提供一个详尽注释的“情感”语料库来教授一个系统,而是提供了一个对抗性的自动编码器,一个公开可用的数据集,其中包含来自10个不同说话者的10,000个话语。 结果呢? 神经网络在判断人们声音中的价态或情感价值方面的准确性高达4%。

这项研究基于亚马逊Alexa团队正在进行的努力,从用户的声音中可靠地确定用户的情绪或情绪状态。

正如论文合著者和Alexa语言组高级应用科学家Viktor Rozgic在一篇博客文章中解释的那样,对抗性自动编码器是由编码器组成的两部分模型,它学习产生编码训练示例所有属性的输入语音的紧凑(或潜在)表示,以及一个解码器,它从紧凑表示中重建输入。

研究人员的情绪表示由三个网络节点组成,三个情绪度量中的每一个节点:价态、激活(无论说话人是警觉的、参与的还是被动的)和支配(无论说话人是否感觉到控制了情况)。 培训分三个阶段进行,第一阶段包括使用没有标签的数据单独培训编码器和解码器。 在第二阶段,对抗性训练-一种技术,在这种技术中,对抗性鉴别器试图区分编码器产生的真实表示调整编码器。 在第三阶段,编码器被调谐以确保潜在的情感表示预测训练数据的情感标签。

在涉及句子级特征表示的“手工工程”来捕获关于语音信号的信息的实验中,研究人员报告说,他们的人工智能系统在评估价态方面比常规训练的网络了3%的更好的准确性。 此外,他们说,当网络被提供一系列表示20毫秒帧或音频片段的声学特性时,改进是4%。

亚马逊不是唯一一家研究改进的基于语音的情感检测的公司,值得注意。 麻省理工学院媒体实验室SpinoffAffectiva最近展示了一个神经网络,SoundNet,它可以在1.2秒内从音频数据中对愤怒进行分类-就在人类感知愤怒所需的时间内-而不管说话者的语言如何。 同时,创业公司Cogito的AI被退伍事务部用来分析创伤后应激障碍退伍的声音,以确定他们是否需要立即帮助。


免责声明:本文由用户上传,如有侵权请联系删除!

精彩推荐

图文推荐

点击排行

2016-2022 All Rights Reserved.平安财经网.复制必究 联系QQ280 715 8082   备案号:闽ICP备19027007号-6

本站除标明“本站原创”外所有信息均转载自互联网 版权归原作者所有。