2016-2022 All Rights Reserved.平安财经网.复制必究 联系QQ 备案号:
本站除标明“本站原创”外所有信息均转载自互联网 版权归原作者所有。
邮箱:toplearningteam#gmail.com (请将#换成@)
在美国当地时间的周三,艾伦人工智能研究院在《华盛顿邮报》发表了一篇调查结果,在调查结果中表明研究院的工作人员拆除了谷歌的C4数据集,这也是很多非常有名的英语AI大模型的训练材料,调查人员在拆除完成之后使用了SimilarWeb的网站针对数据进行分类,由于C4的数据集中,有1/3的网站目前已经不存在了,因此经过实际统计之后,发现大约有1万个网站,艾伦人工智能研究院的工作人员表示,在这些统计过的数据集里面发现了一部分内容有些脏。
根据调查研究,发现包括了全球专利信息的谷歌专利网,以及维基百科和订阅至数字图书馆的资料权重位列整体的前,三但随着列表不断的往下翻之后就发现了很多,让你意想不到的的名字也出现在数据集里面,已经被美国司法部门查封的盗版电子书网站,在数据集里面竟然排在了第190位,像这种因为侵犯版权而被美国查封的网站,在数据集中至少出现了27次。
除此之外,魔兽世界的玩家论坛在数据集里面排在了第181位,创立了《赫芬顿邮报》创始人阿里安娜赫芬顿的行为转变成课程网站,也排在了第175位,病人最意想不到的是有两个美国投票人数数据库网站竟然排在了前100位,虽然投票的数据本身就是需要公开的,但大模型竟然将这些个人数据用在这里,究竟怎样?又有谁能说得清楚呢?
接下来调查的数据中还显示了,AI大模型还潜在着侵权的问题,这一问题甚至比你们想象中的要更加严重很多,商业和行业网站作为数据集里面比重最大的一部分,创意产品众筹网站在榜单中也排在了极高的位置,这也就引发了一个新的问题出现AI向用户提供了很多创意和市场营销方案,很有可能本身所使用的就是现成的作品。
令人无比担忧的是,在训练集中还能够找到医学先生种族主义和右翼阴谋论的网页,甚至在数据集里面还出现了很多组织网络暴力的匿名聊天网站,有些脏的数据相比大模型处理数据的态度显得更加的扑朔迷离。
2016-2022 All Rights Reserved.平安财经网.复制必究 联系QQ 备案号:
本站除标明“本站原创”外所有信息均转载自互联网 版权归原作者所有。
邮箱:toplearningteam#gmail.com (请将#换成@)