您的位置: 首页 >互联网 >

研究人员使用统计模型跟踪两个数据集中用户的位置标记

2019-06-05 17:34:21 编辑: 来源:
导读 麻省理工学院研究人员的一项新研究发现,编写关于人类运动模式的大规模匿名数据集的不断增长的做法是一把双刃剑:虽然它可以提供对人类研究

麻省理工学院研究人员的一项新研究发现,编写关于人类运动模式的大规模匿名数据集的不断增长的做法是一把双刃剑:虽然它可以提供对人类研究行为的深刻见解,但它也可能使人们的私人数据处于危险之中。

公司,研究人员和其他实体开始收集,存储和处理包含用户“位置标记”(地理坐标和时间戳)的匿名数据。可以从手机记录,信用卡交易,公共交通智能卡,Twitter帐户和移动应用程序中获取数据。合并这些数据集可以提供有关人类旅行方式的丰富信息,例如,优化交通和城市规划等。

但是大数据带来了很大的隐私问题:位置标记非常特定于个人,可用于恶意目的。最近的研究表明,在移动数据集中只有少数随机选择的点,有人可以识别和学习有关个人的敏感信息。使用合并的移动数据集,这变得更加容易:代理可能会将来自一个数据集的匿名数据中的用户轨迹与另一个数据集中的去匿名数据进行匹配,以取消屏蔽匿名数据。

在今天发表在IEEE大数据交易的一篇论文中,麻省理工学院的研究人员展示了如何在新加坡的两个大型数据集中首次分析所谓的用户“匹配性”,一个来自移动网络运营商和一个来自当地的交通系统。

研究人员使用统计模型跟踪两个数据集中用户的位置标记,并提供两组数据点来自同一个人的概率。在实验中,研究人员发现该模型可以在一周的数据中匹配大约17%的个体,并且在一个月的收集数据后超过55%的个体。这项工作展示了一种有效,可扩展的方式来匹配数据集中的移动轨迹,这可以成为研究的福音。但是,研究人员警告说,这样的过程可以增加对真实用户数据进行去匿名化的可能性。

“作为研究人员,我们相信使用大规模数据集可以发现有关人类社会和流动性的前所未有的见解,使我们能够更好地规划城市。然而,重要的是要证明识别是否可行,以便人们意识到潜力分享移动数据的风险,“新加坡麻省理工学院研究与技术联盟未来城市交通小组的博士后Daniel Kondor说。

麻省理工学院城市系教授Carlo Ratti补充说:“在公布结果时 - 特别是对数据进行去匿名化的后果 - 我们感觉有点像'白帽'或'道德'黑客。”麻省理工学院Senseable City Lab的研究和规划以及主任。“我们认为重要的是要警告人们[数据合并]和[考虑]我们如何对其进行监管的新可能性。”

消除误报

要了解匹配位置标记和潜在的去异常化的工作方式,请考虑以下情况:“我两天前在新加坡的圣淘沙岛,昨天来到迪拜机场,今天在迪拜的朱美拉海滩。我不太可能看到另一个人的轨迹完全相同。简而言之,如果某人有我的匿名信用卡信息,也许是我在Twitter的开放位置数据,他们就可以对我的信用卡数据进行匿名化,“拉蒂说。

存在类似的模型来评估数据中的去异义化。但是那些使用计算密集型方法进行重新识别,这意味着将匿名数据与公共数据合并以识别特定个体。这些模型仅适用于有限的数据集。麻省理工学院的研究人员使用更简单的统计方法 - 测量误报的概率 - 有效地预测大量数据集中用户的数量之间的匹配。

在他们的工作中,研究人员编制了两个匿名的“低密度”数据集 - 每天一些记录 - 关于新加坡的移动电话使用和个人交通,2011年记录了一周。移动数据来自大型移动网络运营商和包含来自超过200万用户的超过4.85亿条记录的时间戳和地理坐标。运输数据包含超过7000万条记录,其中包含个人在城市中移动的时间戳。

给定用户在两个数据集中都有记录的概率将随着合并数据集的大小而增加,但误报概率也会增加。研究人员的模型从一个数据集中选择用户,并从具有大量匹配位置标记的其他数据集中查找用户。简单地说,随着匹配点的数量增加,假阳性匹配的概率降低。在沿着轨迹匹配一定数量的点之后,该模型排除了匹配是误报的可能性。

他们关注典型用户,估计一周编译数据的匹配成功率为17%,四周为55%。根据11周的数据编制,这一估计数跃升至95%左右。

研究人员还估计了在一周内匹配大多数用户需要多少活动。通过查看具有30到49个个人交通记录和大约1,000个移动记录的用户,他们估计一周的编译数据成功率超过90%。此外,通过将两个数据集与GPS跟踪相结合 - 由智能手机应用程序主动和被动地定期收集 - 研究人员估计,他们可以使用不到一周的数据匹配95%的个别轨迹。

更好的隐私

通过他们的研究,研究人员希望提高公众意识并促进更严格的共享消费者数据的法规。“所有带有位置标记的数据(这是今天收集的大部分数据)都可能非常敏感,我们都应该就我们与谁共享它做出更明智的决定,”Ratti说。“我们需要继续思考处理大规模数据,个人以及提供足够保障以保护隐私的正确方法所面临的挑战。”

为此,Ratti,Kondor和其他研究人员一直在广泛研究大数据的伦理和道德问题。2013年,麻省理工学院的Senseable City Lab启动了一项名为“参与数据”的计划,该计划涉及政府,隐私权组织,学术界和企业界的领导者,他们研究如何在今天的数据收集公司中使用移动数据。

“今天的世界充斥着大数据,”Kondor说。“在2015年,人类产生的信息与人类文明前几年创造的信息一样多。尽管数据意味着更好地了解城市环境,但目前大部分信息都是由少数公司和公共机构掌握的。很多关于我们的事情,虽然我们对它们知之甚少。我们需要注意避免数据垄断和滥用。“


免责声明:本文由用户上传,如有侵权请联系删除!

最新文章

精彩推荐

图文推荐

点击排行

2016-2022 All Rights Reserved.平安财经网.复制必究 联系QQ   备案号:

本站除标明“本站原创”外所有信息均转载自互联网 版权归原作者所有。

邮箱:toplearningteam#gmail.com (请将#换成@)