个人隐私保护之殇:所谓的匿名化数据,十足可以演变成“Dark Data”

前情提要

今年在拉斯维加斯举行的DEFCON会议上,有嘉宾发表了一篇关于“Dark Data”(暗数据)的文章,一石激起千层浪,各大媒体争相报道。归根结底,是由于目前公民个人信息泄露问题太过严峻,互联网用户使用者无不受到个人隐私泄露的影响,无论是财产利益、甚或人身安全,都与人们的切身利益相关,所以很容易引起关注和共鸣。

本文试图梳理一下关于“Dark Data”与“匿名化”相关的话题。

根据可搜索到的信息,“Dark Data”相关论文第一次公开发表的时间是在去年,一位德国研究员在汉堡举行的第33届Chaos Computer Club会议上公布的研究成果。当时这名德国研究员为演讲议题起的题目比DEF CON的版本更酷:Build your own NSA

数字碎片

简单描述一下德国研究人员做的工作。

首先,他们建立了一家虚假的从事营销咨询业务的公司,并假装公司位于Tel Aviv特拉维夫,以色列第二大城市)。

然后,他们使用网上的“市场小道消息”,寻找那些声称能提供点击流数据的网站分析公司。

“点击流”(Clickstreams)能够保持网站的日志记录,包括所有你浏览过的站点信息、浏览顺序和精确的URL细节。如果你感兴趣的是客户在网站上的行为方式,那么这种数据似乎还不够。事实上,点击流通常是指浏览器元数据的模糊名字,好像并不包含什么重要的、隐私的信息。

研究人员很快获取了一个免费的web分析试验的机会,对方提供给他们一份约3000000德国人一个月的近实时访问的Web点击流。

在理论上,这种点击流数据被认为是无害的,因为它是匿名的(这表明真正的名字被剥离出来,并替换成了一些无意义的标识符,例如用随机生成的文本字符串4vdp0­qoi2k­jaqgb替代用户名Paul Ducklin)

至少,Web分析公司是这样宣称的,但是这些所谓的匿名数据,却有潜力演变成一个隐私泄露的金矿。

匿名化

你知道的,匿名数据通常不是真的匿名了,在很多情况下,匿名化的数据可以被逆转。

请允许我们暂时忽略关于收集并从点击流数据中获利这些做法是否合法的讨论。问题的关键是,营销公司喜欢细节,相应的Web分析公司也乐意提供它们。

仅仅知道有人访问你的网站是不够的,也应当认真分析用户到达后的行为方式,这有助于回答关于你的网站工作效果如何的问题。

一旦用户进行了搜索,他们会坚持到底,还是沮丧地离开?如果他们浏览了牛仔裤,那么他们会同时考虑一下购买运动鞋吗?A城市的人比B城市的人花更多的时间在网上吗?

理论上讲,如果你不在细节上追究什么人做了什么事,数据只关注人们的一般,表现,那么如果你卖出(或买入)这种点击流数据,都不会涉及到别人的隐私。

比如,你知道用户t588z­1cn4cc­6xw8g在一个月内浏览了某个食谱页面37次,而用户61xlr­w0now­3g644浏览了29种产品但什么都没买。但你不知道这些随机命名的用户实际上谁,所以这不会有什么害处,只要没有获得一个映射表,可以将这些随机标识符关联到真实的用户名。

然而,不幸的是,用户浏览历史中的URLs令人惊讶地暴露出来了,“Dark Data”的研究人员能够依据这些URL中的线索直接找出3%的用户(3000000个用户的话,就有100000个)。

例如,如果您登录到Twitter,并转到分析页面,URL看起来如下所示:

https://analytics.twitter.com/user/[TWITTERHANDLE]/tweets

所以,如果看到点击流数据类似下边这个样子:

usr=PI38H1H7JGX2HZH utc=2017-08-01T13:00Z uri=https://analytics.twitter.com/user/[TWITTERHANDLE]/tweets

那么立刻就能知道PI38H1H7JGX2HZH是谁,根本不需要做任何更多的侦探工作

公开的 VS 隐私的

研究人员还展示了如何从一个人公开发布的信息中获取到其匿名化操作的细节。

例如,检查你最近发布的Twitter信息,从中提取出你在上个月内公开推荐过的网站列表(利用Twitter提供的接口可以自动化的完成这项工作)。

假设你在社交媒体上公开推荐了以下网站信息:

github.com

www.change.org

fxexperience.com

community.oracle.com

paper.li

javarevisited.blogspot.de

www-adam-bien.com

rterp.wordpress.com

正常的推理以下,在推荐之前,你大概浏览过这些网站,所以这些网站都会记录你的点击流信息。

当然了,关键一点是,有多少人访问了同样的网站集合(如果他们访问其他网站的话也没关系,只要他们访问过的网站中跟你的列表有重合)。

研究人员发现,数量少于十个的不同域名就足以让你暴露。

数以百万计的人可能已经访问了你推荐的两个或三个网站。

只有少数人有五个或六个网站与你提供的名单有重合。

但是除非你是名人,否则你可能是唯一一个在最近访问了你自己最喜欢的网站的人,这就是你匿名的原因

实现细节

读到这里,你肯定想知道,“点击流里的详细信息是如何获取到的?“

例如,访问的Web页面中嵌入了cookie设置的JavaScript是否可以做到?幸运的是,它不能。研究人员发现,浏览器插件是匿名化问题的一个重要组成部分。网站的维护者在服务器端决定是否添加JavaScript;另一方面,您可以在自己的浏览器中决定允许安装并使用哪些插件。

浏览器插件是一个安全风险,一个恶意的、粗心的或肆无忌惮的插件能记录你点击的每个链接,你的点击数据会泄露或被出售给数据点击流聚合工具。

而且似乎有很多Web插件都属于这些类别中的一种,研究人员发现,在他们实验中“购买”到的数据流中,95%的数据是由10种不同的流行的Web插件生成的。

有一个简单的方法,可以验证一个插件是否会直接泄露数据给点击流:

  • 安装一个插件
  • 开启这个插件,并访问一个可识别模式的web站点;
  • 关闭插件,再次访问上述站点;
  • 反复操作并观察2、3步骤

不过插件开启时,点击流中显示了流量;插件关闭时,点击流中没有流量;那么可以作出一个合理的假设,这一插件直接向点击流中传送 URL 数据。

值得一提的是,最严重的一个数据泄漏插件的案例发生在2016年8月份,插件的名称是WOT,讽刺的是,这个名称是“Web Of Trust”(信任网站)的首字母简写,这个插件标榜自己是一个“为你的浏览保驾护航,能够警示用户注意那些包含恶意软件、钓鱼和其他危险的恶意网站。“

应对策略

这里有一些简单的防护措施,实施它们有助于减少你的数字碎片,或者说少一些隐私泄露:

  • 卸载不需要的浏览器插件

有些插件确实有助于安全性,例如可以阻止广告、限制跟踪行为、限制您访问的Web页面中JavaScript的能力。但即使是所谓的“安全插件”(上文中提到的WOT的案例),最终也可能会降低你的安全。如果有疑问,从你认识和信任的专业人士那里接受建议。

  • 尽可能使用隐私模式

浏览器cookie可以在浏览器标签之间共享,允许广告商在一个网站中嵌入一个设置cookie的脚本,并从另一个网站读取它。将浏览器设置为隐身模式,使数据在每个Web选项卡分离。

  • 退出时自动清除cookie和Web数据

这并不能阻止你被跟踪或被黑客攻击,但它确实使你成为一个更移动的目标,因为你的浏览器经常会收到新的跟踪cookie,而不是几个星期或几个月都显示为同一个人。

  • 当不再使用的时候,记得退出(Logout)已登录的站点

随时登录常用的网站当然比较方便,但这样做也更容易引发错误地共享、上传或泄露数据。

  • 了解你使用的所有浏览器和应用程序的隐私和安全设置

在iPhone上清除Safari中的cookie的方式,与在Windows上清除Firefox中的cookie做法完全不同。从移动APP上注销脸谱网与通过浏览器登出网站的方法也是不同的。学习并践行如何做到这一切。

  • 避免使用HTTP,尽量选择HTTPS站点,即使您不需要登录

当你访问一个HTTP网页时,同一网络上的任何其他人都可能嗅出你浏览到的整个URLs。当你访问一个HTTPS页面时,尽管域名信息可以通过网络查找到,但完整的URL是加密的(所以骗子无法知道你浏览了哪些页面或你做了什么操作)。

  • 条件允许,使用匿名化浏览器,比如Tor

Tor不会自动让你的浏览匿名,比如登录到Tor的脸谱网时,仍然必须告诉脸谱网你是谁。但它让你看起来好像每次都来自不同国家的不同城市,这让你更难去追踪或定型。

你可能觉得上边的操作太复杂了,难道就没有一个更简单的、容易实行的解决方案吗?

从另一个角度考虑,似乎有一个“明显的”解决方案,可以提高你在线浏览的匿名性,那就是增加额外的、模糊的用于混淆真实浏览操作的浏览记录,甚至可以使用自动化工具完成这一点,故意撑爆点击流,让它们迷失在数据海洋里。

然而,正如上文中提到的,这样做并不起作用。例如,通过你最近在推特上推荐的网站来跟踪你的技巧取决于是否有其他人访问过这些网站,而不是你是否访问了其他网站。

当涉及到产生、收集和使用点击流数据的安全话题时,“越少越好”

当然了,没有是最好的,尽管不现实。

更多资料

https://media.defcon.org/DEF%20CON%2025/DEF%20CON%2025%20presentations/DEFCON-25-Svea-Eckert-Andreas-Dewes-Dark-Data.pdf

原创文章,作者:M0tto1n,如若转载,请注明出处:http://www.mottoin.com/104505.html

发表评论

登录后才能评论

联系我们

021-62666911

在线咨询:点击这里给我发消息

邮件:root@mottoin.com

工作时间:周一至周五,9:30-18:30,节假日休息

QR code