您的位置: 首页 >互联网 >

一种克服深度神经网络中多模型遗忘的新方法

2019-06-03 10:50:25 编辑: 来源:
导读 近年来,研究人员开发了深度神经网络,可以执行各种任务,包括视觉识别和自然语言处理(NLP)任务。尽管这些模型中的许多都取得了显着的成果

近年来,研究人员开发了深度神经网络,可以执行各种任务,包括视觉识别和自然语言处理(NLP)任务。尽管这些模型中的许多都取得了显着的成果,但由于所谓的“灾难性遗忘”,它们通常只能在一项特定任务上表现良好。

从本质上讲,灾难性遗忘意味着当最初在任务A上训练的模型后来在任务B上进行训练时,其在任务A上的表现将显着下降。在arXiv上发表的一篇论文中,Swisscom和EPFL的研究人员发现了一种新的遗忘方法,并提出了一种新的方法,可以通过统计学上合理的重量塑性损失来帮助克服它。

“当我们第一次开始研究我们的项目时,自动设计神经架构对于大多数公司而言计算成本昂贵且不可行,”该研究的主要研究人员Yassine Benyahia和Kaicheng Yu通过电子邮件告诉TechXplore。“我们研究的最初目的是确定减少这种费用的新方法。当项目开始时,Google的一篇论文声称使用称为重量分担的新方法大大减少了构建神经架构所需的时间和资源。使autoML对没有巨大GPU集群的研究人员可行,鼓励我们更深入地研究这个话题。“

EWC与WPL的比较。每个子图中的椭圆表示对应于低误差的参数区域。(左上)两种方法都以单个模型开始,参数θA= {θs,θ1},在单个数据集D1上训练。(左下)EWC基于p(θA| D1)对所有参数进行调整,以在新数据集D2上训练相同的初始模型。(右上)相比之下,WPL利用初始数据集D1并仅基于p(θA| D1)和v>Ωv对共享参数θs进行正则化,而参数θ2可以自由移动。图片来源:Benyahia,Yu等人。

在研究基于神经网络的模型时,Benyahia,Yu和他们的同事发现了体重分担的问题。当他们按顺序训练两个模型(例如A和B)时,模型A的性能下降,而模型B的性能上升,反之亦然。他们表明,这种被称为“多模型遗忘”的现象可能会阻碍几种自动mL方法的表现,包括Google的高效神经架构搜索(ENAS)。

“我们意识到,体重分享导致模型相互影响,这导致架构搜索过程更接近随机,”Benyahia和Yu解释说。“我们在架构搜索方面也有自己的储备,只有最终的结果才能明白,而且没有良好的框架来公平地评估架构搜索的质量。我们的方法可以帮助解决这个遗忘问题,如它与几乎所有最近的autoML论文所依赖的核心方法有关,我们认为这种影响对社区来说是巨大的。“

在他们的研究中,研究人员模拟了多模型在数学上的遗忘并得出了一种新的损失,称为重量可塑性损失。这种损失可以通过根据模型的共享参数的先前模型的重要性来规范学习模型的共享参数来大大减少多模型遗忘。

从严格到松散的收敛。研究人员使用共享参数对模型A和B进行MNIST实验,并在训练模型B(基线,绿色)之前报告模型A的准确性,并在训练模型B时使用(橙色)或不使用(蓝色)训练模型A和B的准确性)WPL。在(a)中,它们显示了严格收敛的结果:A最初训练为收敛。然后,他们放松了这个假设并将A训练到其最佳准确度的55%(b),43%(c)和38%(d)。当A训练至少达到最优性的40%时,WPL非常有效; 在下面,Fisher信息变得太不准确,无法提供可靠的重要性权重。因此,即使权重不是最优的,WPL也有助于减少多模型遗忘。WPL减少(a)和(b)的遗忘率高达99.99%,(c)减少高达2%。信用:

“基本上,由于神经网络的过度参数化,我们的损失会减少首先对最终损失”不太重要“的参数,并保持更重要的参数不变,”Benyahia和Yu说。“模型A的性能因此不受影响,而模型B的性能不断提高。在小型数据集上,我们的模型可以减少高达99%的遗忘,而对于autoML方法,在训练过程中高达80%。”

在一系列测试中,研究人员证明了他们的方法在减少多模型遗忘方面的有效性,无论是在顺序训练两个模型还是进行神经结构搜索的情况下。他们的研究结果表明,在神经结构搜索中增加重量可塑性可以显着提高NLP和计算机视觉任务上多个模型的性能。

由Benyahia,Yu和他们的同事进行的研究揭示了灾难性遗忘的问题,特别是当多个模型按顺序训练时发生的问题。在用数学方法对这个问题进行建模之后,研究人员引入了一种可以克服它的解决方案,或者至少可以大大降低其影响。

神经架构搜索中的误差差异。对于每个体系结构,研究人员计算RNN误差差异err2-err1,其中err1是在训练该体系结构之后的错误,并且err2是在当前时期训练所有体系结构之后的错误。它们绘制了(a)所有采样模型的平均差异,(b)具有最低err1的5个模型的平均差异,以及(c)所有模型的最大差异。在(d)中,他们将采样架构的平均奖励绘制为训练迭代的函数。尽管WPL最初导致较低的奖励,但由于等式(8)中的权重α较大,通过减少遗忘,以后允许控制器对更好的架构进行采样,如下半部分中的较高奖励所示。图片来源:Benyahia,Yu等人。

“在多模式遗忘中,我们的指导原则是在公式中思考而不仅仅是通过简单的直觉或启发式思考,”Benyahia和Yu说。“我们坚信,这种'公式思考'可以引导研究人员获得伟大的发现。这就是为什么进一步的研究,我们的目标是将这种方法应用于机器学习的其他领域。此外,我们计划将我们的损失调整到最近的状态最先进的autoML方法,以证明其有效解决我们观察到的体重分担问题。“


免责声明:本文由用户上传,如有侵权请联系删除!

精彩推荐

图文推荐

点击排行

2016-2022 All Rights Reserved.平安财经网.复制必究 联系QQ280 715 8082   备案号:闽ICP备19027007号-6

本站除标明“本站原创”外所有信息均转载自互联网 版权归原作者所有。