美媒揭秘大模型训练数据集部分内容可能有些脏

2023-04-21 13:29:46 编辑：夏侯燕朗来源：

导读在美国当地时间的周三，艾伦人工智能研究院在《华盛顿邮报》发表了一篇调查结果，在调查结果中表明研究院的工作人员拆除了谷歌的C4数据集，...

在美国当地时间的周三，艾伦人工智能研究院在《华盛顿邮报》发表了一篇调查结果，在调查结果中表明研究院的工作人员拆除了谷歌的C4数据集，这也是很多非常有名的英语AI大模型的训练材料，调查人员在拆除完成之后使用了SimilarWeb的网站针对数据进行分类，由于C4的数据集中，有1/3的网站目前已经不存在了，因此经过实际统计之后，发现大约有1万个网站，艾伦人工智能研究院的工作人员表示，在这些统计过的数据集里面发现了一部分内容有些脏。

根据调查研究，发现包括了全球专利信息的谷歌专利网，以及维基百科和订阅至数字图书馆的资料权重位列整体的前，三但随着列表不断的往下翻之后就发现了很多，让你意想不到的的名字也出现在数据集里面，已经被美国司法部门查封的盗版电子书网站，在数据集里面竟然排在了第190位，像这种因为侵犯版权而被美国查封的网站，在数据集中至少出现了27次。

除此之外，魔兽世界的玩家论坛在数据集里面排在了第181位，创立了《赫芬顿邮报》创始人阿里安娜赫芬顿的行为转变成课程网站，也排在了第175位，病人最意想不到的是有两个美国投票人数数据库网站竟然排在了前100位，虽然投票的数据本身就是需要公开的，但大模型竟然将这些个人数据用在这里，究竟怎样？又有谁能说得清楚呢？