谷歌首次在谷歌翻译解决性别偏见的人工智能

2022-09-01 16:40:31 编辑：嵇韵厚来源：

导读谷歌今天宣布在谷歌翻译中发布了从英语到西班牙语、芬兰语、匈牙利语和波斯语到英语的性别翻译，该翻译利用了一种新的范式，通过重写或后期...

谷歌今天宣布在谷歌翻译中发布了从英语到西班牙语、芬兰语、匈牙利语和波斯语到英语的性别翻译，该翻译利用了一种新的范式，通过重写或后期编辑最初的翻译来解决性别偏见。这家科技巨头声称，这种方法比之前支持谷歌Translate将性别特定性的土耳其语翻译成英语的技术更具可扩展性，主要是因为它不依赖于数据密集型的性别中立检测器。

谷歌Research的高级软件工程师梅尔文·约翰逊写道:“自从我们推出以来，我们已经取得了显著的进步，我们提高了性别翻译的质量，并将其扩大到4对以上的语言对。”“我们致力于进一步解决谷歌翻译中的性别偏见，并计划将这项工作扩展到文档级翻译。”

正如约翰逊所解释的那样，用于将突厥语翻译成英语的性别分类器很难适应新语言，因此无法使用神经机器翻译(NMT)系统独立地生成男性化和女性化的翻译。此外，在多达40%的符合条件的查询中，它无法显示针对性别的翻译，因为除了与性别相关的现象外，这两种翻译通常并不完全相同。

相比之下，这种基于重写的新方法首先生成翻译，然后对其进行审查，以确定在哪些情况下，性别中立的源短语生成了性别特定的翻译。如果是这样的话，一个句子层次的改写者会抛出一个替代的性别化翻译，第一个和重写的翻译都会被审查，以确保性别是唯一的区别。

根据谷歌，构建改写器涉及生成数百万个由词组对组成的训练示例，每个词组都包含阳性和阴性的翻译。因为数据不容易获得,谷歌翻译团队必须想出候选人重写交换性别代词从男性女性(或者相反),从一个大单语数据集。重写这个语料库,工程师运用内部语言模型训练在数以百万计的英语句子选择最好的候选人,进了训练数据,从一个女性男性化的输入输出,反之亦然。

在合并来自两个方向的训练数据之后，团队使用它来训练一个基于单层转换的序列到序列模型。然后，他们在训练数据中引入标点符号和大小写变体，以增强模型的鲁棒性，从而使最终的模型在99%的情况下都能可靠地生成所要求的阳性或阴性重写。

谷歌度量称为偏见减少评估,衡量之间的相对减少偏见新的翻译系统和现有系统(“偏见”被定义为在性别选择翻译未指明的来源),约翰逊说,新方法导致偏见减少≥90%翻译来自匈牙利、芬兰,波斯英语。现有的突厥语-英语翻译系统的偏差减少率从60%提高到95%，该系统引发性别差异翻译的平均准确率为97%。在，当它决定显示性别特定的翻译时，97%的正确率。

改进后的谷歌翻译系统推出的几个月前，谷歌通过其云视觉API取消了在图像中将人标记为“男人”或“女人”的功能。另外，在2018年1月，谷歌屏蔽了Smart Compose(一项Gmail功能，当用户键入句子时，它会自动为用户推荐句子)和基于性别的代词。

对语言翻译和计算机视觉采取中性态度，是谷歌在减轻人工智能系统偏见方面所做的更大努力的一部分。这家山景城(Mountain View)的公司利用其人工智能道德团队开发的测试来发现偏见，并禁止其预测技术中出现咒骂、种族歧视、提及商业竞争对手和悲剧事件等字眼。

标签：

免责声明：本文由用户上传，如有侵权请联系删除！