您的位置: 首页 >商业新闻 >

美媒揭秘大模型训练数据集 部分内容可能有些脏

2023-04-21 13:29:46 编辑:夏侯燕朗 来源:
导读 在美国当地时间的周三,艾伦人工智能研究院在《华盛顿邮报》发表了一篇调查结果,在调查结果中表明研究院的工作人员拆除了谷歌的C4数据集,...

在美国当地时间的周三,艾伦人工智能研究院在《华盛顿邮报》发表了一篇调查结果,在调查结果中表明研究院的工作人员拆除了谷歌的C4数据集,这也是很多非常有名的英语AI大模型的训练材料,调查人员在拆除完成之后使用了SimilarWeb的网站针对数据进行分类,由于C4的数据集中,有1/3的网站目前已经不存在了,因此经过实际统计之后,发现大约有1万个网站,艾伦人工智能研究院的工作人员表示,在这些统计过的数据集里面发现了一部分内容有些脏。

根据调查研究,发现包括了全球专利信息的谷歌专利网,以及维基百科和订阅至数字图书馆的资料权重位列整体的前,三但随着列表不断的往下翻之后就发现了很多,让你意想不到的的名字也出现在数据集里面,已经被美国司法部门查封的盗版电子书网站,在数据集里面竟然排在了第190位,像这种因为侵犯版权而被美国查封的网站,在数据集中至少出现了27次。

除此之外,魔兽世界的玩家论坛在数据集里面排在了第181位,创立了《赫芬顿邮报》创始人阿里安娜赫芬顿的行为转变成课程网站,也排在了第175位,病人最意想不到的是有两个美国投票人数数据库网站竟然排在了前100位,虽然投票的数据本身就是需要公开的,但大模型竟然将这些个人数据用在这里,究竟怎样?又有谁能说得清楚呢?

接下来调查的数据中还显示了,AI大模型还潜在着侵权的问题,这一问题甚至比你们想象中的要更加严重很多,商业和行业网站作为数据集里面比重最大的一部分,创意产品众筹网站在榜单中也排在了极高的位置,这也就引发了一个新的问题出现AI向用户提供了很多创意和市场营销方案,很有可能本身所使用的就是现成的作品。

令人无比担忧的是,在训练集中还能够找到医学先生种族主义和右翼阴谋论的网页,甚至在数据集里面还出现了很多组织网络暴力的匿名聊天网站,有些脏的数据相比大模型处理数据的态度显得更加的扑朔迷离。


免责声明:本文由用户上传,如有侵权请联系删除!

最新文章

精彩推荐

图文推荐

点击排行

2016-2022 All Rights Reserved.平安财经网.复制必究 联系QQ   备案号:

本站除标明“本站原创”外所有信息均转载自互联网 版权归原作者所有。

邮箱:toplearningteam#gmail.com (请将#换成@)