大型技术全都集中在不同的隐私上。这是Google隐私沙箱中的基本概念;苹果将其用于诊断设备,健康状况和网络浏览数据的研究;就在上周,Facebook使用差异化隐私保护了它提供给研究人员的大量数据,以分析共享错误信息对选举的影响。Uber利用差异性隐私来检测其用户群中的统计趋势,而不会暴露个人信息。亚马逊的人工智能系统可以利用它来防止数据泄漏。Snapchat使用差异隐私来训练机器学习模型。Salesforce在其报告日志中使用DP过滤器。但是,尽管差异隐私最初是一种学术观念,但如今已被大佬所采用,但广告技术公司也需要了解这一点,甚至有些公司甚至将其视为隐私保护的未来。
什么是DP?
差异隐私由Microsoft研究人员于2006年首次发明,它是一种用于数据分析的隐私安全模型。差异隐私不是算法本身,而是一组密码属性,可以将其应用于机器学习算法,以设置对可以得出有关个人的推断之前可以从数据中提取多少信息的限制。换句话说,它将“合理的可否认性”引入数据集,宾夕法尼亚大学工程大学计算机和信息科学教授,《社会算法》一书的合著者亚伦·罗斯说。意识算法设计。实际上,这意味着数据所有者有意向数据集中添加了噪声或随机性,因此可以同时从数据中了解有关人口的某些信息,而无需识别组中包含的任何个人。考虑一个民意调查人员,该人员收集有关尴尬行为(如吸毒或作弊)的统计信息。为了保护自己的隐私,受访者在回答问题之前先掷硬币而不向民意测验者透露结果。如果硬币落在尾巴上,则要求他们如实回应。如果是正面,他们会掷第二枚硬币,正面为“是”,反之为“否”。这将随机性或合理的可否认性引入了研究的最终结果。但是,由于研究人员知道错误是如何引入的,因此他或她以后可以向后进行工作,以系统地将这些错误从总体中删除,并仍然从数据中收集有用的信息,Roth解释说。他说:“我没有办法知道答案是否是随机的。” “但是,由于我知道将噪声添加到响应的过程,因此有可能减去噪声并了解平均值。”大规模地,机器学习算法可以应用该原理来进行估计并从数据集中收集信息,而不会损害特定的个人。需要注意的是,研究人员需要更大的数据集来进行研究,以弥补故意的随机性。如今,差异隐私的最普遍用途是将大数据集随机化的一种方式,以便研究人员可以使用它们,例如在Facebook错误信息示例中。分析公司Victory Medium的创始人Zach Edwards说:“从某种意义上说,这是关于数据所有者保护自己免受合作伙伴的伤害。“差异性隐私使您能够以不降低自己组织的价值的方式,使人们可以访问数据,或者创建另一个小型Cambridge Analytica。”
输入广告技术?
但是,为什么广告技术公司应该关心诸如差异性隐私之类的神秘学术概念?爱德华兹说,因为这是未来,所以广告技术生态系统是否愿意接受它。在线数据收集和共享将越来越受到浏览器API的控制,这些API的目的是限制在线数据收集和共享。Google的“隐私”沙箱中的许多建议都基于不同的隐私框架。“显然,没有其他解决方法的空间,”爱德华兹说。“尽管如此,实际上只有大公司才真正承认这一点。”Chrome的工程总监Justin Schuh 在博客文章中宣布Chrome打算在2022年之前弃用第三方Cookie,明确指出差异隐私是未来的基础,未来广告可以投放到“大批类似的人,让个人识别数据永远不会离开您的浏览器。”其中一项名为TURTLEDOVE的提案(代表“然后在胜利时本地执行决策”)要求将所有用户行为(包括兴趣数据)存储在浏览器中,从而有效地消除分析。度量和报告也将是总体级别的,因此粒度要比广告客户习惯的要小得多。不过,Thunder首席执行官Victor Wong表示,在广告技术环境中,差异性隐私的一项卓有成效的应用可能是为数据洁净室的数据透明性服务。该公司去年成立了一个行业工作组,称为Truth in Measurement,用于测试不同的DP模型。 Wong说,对洁净室的主要批评是它们是不透明的,由出售广告的媒体公司运营,这造成了内在的利益冲突。他说:“它们不允许您进行独立的归因[或]测量以验证,验证或自定义。” “通过差异隐私提供的隐私保护来启用数据导出,使研究人员和分析人员可以在自己的环境中运行自己的模型。”而且,至少从理论上讲,广告技术公司没有理由不能将差分隐私模型应用于其自己的数据分析。MediaMath数据政策和治理高级副总裁Alice Lincoln表示,例如,DSP可以用来帮助客户获得有关其广告的消费者参与度的综合见解,而无需透露任何个人信息。据林肯所知,还没有广告技术公司利用差异隐私,并且业内对DP和相关概念的了解还很低。但她说:“鉴于Chrome浏览器在“隐私沙箱”中强调了[差异性隐私],因此兴趣迅速增长,而且MediaMath本身也有兴趣探索差异性隐私方法。不过,You&Jones拥有的数据代理机构美国五十五岁的美国常务董事Hugo Loriot对广告技术公司很快将差异隐私应用于自己的算法的前景并不乐观。Loriot说:“广告技术世界中ID解析的目的是与第三方共享匿名的个人数据,例如,Facebook或Google广告的CRM入门,这需要在双方之间共享完全相同的方法来匿名化数据。” 。他说,这就是为什么广告技术公司都都使用相同的哈希算法的原因,而撇开了与哈希相关的数据泄漏风险。Loriot说:“如果您应用差异化隐私,您就是不希望另一方能够解密它,并且您必须与每个合作伙伴创建1:1协议以让他们解密数据和添加的噪音,” 。“我不确定这是否真的可行。”
不保证
同样,罗斯说,差异性隐私不是对隐私的保证,也不会在以前不存在的地方创造隐私。它还不一定能够阻止针对人群的侵犯隐私行为。例如,健身应用Strava在2018年发布了一条看似良性的流行跑步路线热图时,无意间透露了秘密军事基地的位置。没有一个人的隐私受到损害,但仍然非常尴尬。在这种情况下,差异性隐私无济于事。使用差异隐私的算法中的隐私保护级别还取决于部署的严格程度。罗斯说:“您可以拨出完美的隐私,但随后您几乎无法对数据进行任何有用的处理,或者您可以朝另一个方向发展,而没有真正的保护措施。” “这是一个折衷,因为隐私保护总是要付出代价的。”他说,仍然令人鼓舞的是,差异化隐私终于开始被大型科技公司应用于现实情况。罗斯说:“在最初的10年中,差异性隐私是一种学术上的好奇心,像我这样的人会写关于它的论文,也许其他五个像我这样的人也会读。” “这不是灵丹妙药,但是看到公司真正开始考虑这是一件非常好的事情。”