墨尔本研究人员在运输数据集中发现隐私
墨尔本大学的研究人员已经设法从作为数据科学竞争的一部分发布的公共交通数据集中重新识别杀戮。
数据集包括多个数据点 - 例如登机和上升地点,以及卡片类型 - 从墨尔本的火车,电车和公共汽车上旅行的通勤者和2015年间维多利亚其他地区的通勤者使用的呼叫者使用的卡片类型收集。
虽然未包括在数据集中的卡片ID的Myki卡号,但研究人员能够在维多利亚州识别自己,共同旅行者和议会(MP)的成员,以及他们日常生活的细节。
为了识别MP,研究人员将来自Myki DataSet的数据相关联,包括火车站位置和国家议员卡的使用,MP的关于火车旅行的推文。
“只有一些关于某人董事会或出口公共交通工具的信息,可以指示他们的生活或工作,他们的常规旅行模式,他们旅行,或者他们独自旅行 - 例如当墨尔本大学的计算和信息系统学院的主导研究员克里斯卡纳尼说,孩子们单独出院。
“我们的分析提高了严肃的隐私,安全和安全问题。很容易想象如何用可能想要造成伤害的人如何使用这种信息,“他补充道。
Culnane建议通过使用差异隐私等框架来更好地完成数据发布,这使得可以在维护用户隐私的同时收集和共享关于用户习惯的聚合信息。
例如,墨尔本的研究人员指出,新南威尔士州的运输方式涉及类似的数据集,其中包括每个位置和时间的“触摸”或“触摸”事件的总数。
“即使您对某人了解了几个精确的事件,也无法检索同一卡上的其他事件,”他们在研究论文中写道。“这些总数被聚集成四分之时的时间块,然后应用来自差异隐私的机制来模糊精确的总数。”
但研究人员承认隐私保护的这种技术可以删除细节和连接,这将使难以在MYKI数据的水平下进行旅行或旅程分析。
为了回应研究人员的调查结果,维多利亚语信息专员(Ovic)的办公室今天发布了一份报告,并指出“治理和风险管理与数据的风险管理可能破坏保护隐私,即使项目良好意向“。
维多利亚时代信息专员Sven Bluemmel在Ovic报告中在一条前言留言中表示:“该报告还强调了一些关于数据去识别和几年前发布的一些假设需要重新审视。
“如果数据集包含有关inpidual的单位级别数据,特别是在包含关于行为的纵向单元级数据的情况下,即使已经进行了广泛的尝试,也可能不适合开放的研究。它。”
为了防止类似的失误在保护开放数据举措中保护杀戮的隐私,ovic建议制定数据发布决策的政策,在维多利亚公共部门的建立数据能力以及实施数据治理计划等措施。