人工数据能提供与真实数据相同的结果,而且不影响隐私

   日期:2020-06-21     浏览:38    评论:0    
核心提示:人工数据能提供与真实数据相同的结果,而且不影响隐私麻省理工学院的Stefanie Koperniak著学分:麻省理工学院尽管数据科学家可以

人工数据能提供与真实数据相同的结果,而且不影响隐私
麻省理工学院的Stefanie Koperniak著

学分:麻省理工学院
尽管数据科学家可以从大数据集中获得巨大的洞察力——并且最终可以利用这些洞察力解决重大挑战——但实现这一点说起来容易做起来难。许多这样的努力从一开始就受到阻碍,因为隐私问题使科学家很难获得他们想要使用的数据。


在一篇发表于IEEE国际会议数据科学和先进的分析方法,数据成员的麻省理工学院人工智能实验室信息与决策系统实验室(盖子)Kalyan Veeramachaneni,主要研究科学家在盖子和研究所的数据,系统,和社会(ids)和合作者Neha Patki和罗伊楔描述一个机器学习系统,自动创建合成数据和使数据科学的目标努力,由于缺乏获取真实数据的途径,可能已经离开了地面。虽然使用真实数据会引起严重的隐私问题,但这种合成数据与真实用户生成的数据完全不同——但仍然可以用于开发和测试数据科学算法和模型。

Veeramachaneni说:“一旦我们建立了整个数据库的模型,我们就可以对数据进行采样和重新创建一个合成版本的数据,从统计学上来说,它非常像原始数据库。”“如果原始数据库中有一些缺失的值和一些噪音,我们也会将这些噪音嵌入到合成版本中……在某种程度上,我们是在使用机器学习来实现机器学习。”

本文描述了合成数据库(SDV),一个从真实数据库构建机器学习模型以创建人工或合成数据的系统。该算法称为“递归条件参数聚合”,利用所有数据库共有的数据分层组织。例如,它可以取一个customer-transactions表,并根据每个客户的事务为其形成一个多元模型。

此模型捕获那些事务中的多个字段之间的关联——例如,购买数量和类型、事务发生的时间,等等。算法为每个客户建模并装配好参数后,就可以为这些参数本身形成一个多元模型,然后递归地为整个数据库建模。一旦模型被学习,它就可以合成一个充满人工数据的整个数据库。

 

结果和影响

在建立SDV之后,该团队使用它为五个不同的公开数据集生成合成数据。然后,他们雇佣了39名自由数据科学家,分成四组,开发预测模型,作为众包实验的一部分。他们想要回答的问题是:“给予合成数据的数据科学家的工作与那些能够获得真实数据的科学家的工作有什么区别吗?”为了验证这一点,其中一组得到了原始数据集,而另外三组得到了合成数据集。每个小组使用他们的数据来解决一个预测建模问题,最终在5个数据集上进行15次测试。最后,当他们的解决方案进行比较时,15次测试中有11次(70%的情况下),使用真实数据的小组和使用合成数据的小组的解决方案没有显示出显著的性能差异。

这些结果表明,在软件的编写和测试中,合成数据可以成功地取代真实数据——这意味着数据科学家可以使用它来克服进入的巨大障碍。Veeramachaneni说:“使用合成数据可以摆脱‘隐私瓶颈’,这样就可以开始工作了。”

 
打赏
 
更多>同类资讯
0相关评论

推荐图文
推荐资讯
点击排行
 
鄂ICP备20001238号-1号