剑桥分析“滥用”Facebook的泄露数据只是一个必然

这一周Facebook的估价下跌了13%，百亿美元的市值就这么蒸发掉了。

引用一下媒体的报道：

据《纽约时报》和《伦敦观察员》上周六的报道称，Cambridge Analytica（剑桥分析）从2014年开始通过欺骗用户和Facebook的方式收集数据，总共获得了5000万Facebook用户的个人数据。

根据告密者克里斯托夫·维利的指控，Cambridge Analytica在2016年美国总统大选前获得了5000万名Facebook用户的数据。这些数据最初由亚历山大·科根通过一款名为“this is your digital life”的心理测试应用程序收集。通过这款应用，Cambridge Analytica不仅从接受科根性格测试的用户处收集信息，还获得了他们好友的资料，涉及数千万用户的数据。能参与科根研究的Facebook用户必须拥有约185名好友，因此覆盖的Facebook用户总数达到5000万人。

这家公司的业务，涉及到一个很有意思的人Michal Kosinski，一位组织行为学学者，他在2014年获得博士学位，在斯坦福大学和剑桥大学都任过教职。他的研究领域在于使用网络数据去研究人的心理和行为。

结合最近几年互联网的发展和大数据应用的风潮，Kosinski作为学者可以说是非常时髦。

如果对于他过往的研究作品没有太多印象，他最近还用深度学习发表过另一篇极有争议的论文《在通过面部照片判断个人性取向的问题上，深度神经网络比人类更准确》(Deep neural networks are more accurate than humans at detecting sexual orientation from facial images)

Kosinski在2012年使用Facebook的点赞数据建立了一个心理学侧写模型（注1），模型通过用户对什么事情点赞去学习他的性格。数据量级达到一定程度，大约70个点赞以后，模型对于用户五型人格的判断上有比一般人更高的性能。

这就是剑桥分析的理论依据：他们认为人类通过人格特质对事物的判断行事，因此基于Facebook数据对用户的性格建模，并据此进行对应的媒体信息投放，影响用户的信息接收和判断。

这看起来比传统的根据人口地理学特征去进行投放要更科学，毕竟我们都知道广东人爱吃福建人只是无稽之谈。

是这样吗？我们看一下Kosinski的模型：

Kosinski的建模.png

用户-物品矩阵，奇异值分解，线性回归，很经典的计量方法，对于数据从业者来说都是相当熟悉的名词。这不是什么高深的技术，一个懂得使用python的本科生，对着文档敲代码，几个小时就能复制出这个模型。在2017年，企业如果不提深度学习这个词，都不敢说自己是大数据公司。

我是个单身狗，但是微信朋友圈会给我推送女士香水的广告。我买的猫粮都收货确认了，淘宝过了两个月都还一直给我推送猫粮店铺。精准投放这件事本来就没那么精准。

说回剑桥分析这件事，剑桥分析获得的其实只有27万用户的数据，只是通过每个用户至少要拥有185名好友，达到“最多5000万人”的覆盖范围。说他影响了美国大选，基本上只是自己的公关说辞罢了。

这件事其实最有意思的事情，在于剑桥分析钻了“授权”的漏洞。

当时的Facebook对用户数据授权并没有很严格的控制，剑桥分析通过伪装成学术研究网页的方式，获得用户授权后，进而获取了用户的历史消息、关联好友、互动行为等。说到底，其实是一个大型的爬虫。

Facebook现在仍然允许获得授权的应用获取很多信息，只是集中于提供授权的用户信息，不至于连他好友的信息都能获取。从开发者文档看来，目前允许获取的数据仍然有相当的想象空间，如：

用户基本属性：基本资料如生日地域，一些一度好友关系；
用户活动：书籍、运动、点赞、发文；
用户创建的活动和管理的小组；

老实说，我觉得Facebook真是厚道。换作国内的微博或微信或支付宝，给你获取用户名就不错了，怎么可能还让你能获取用户的推文？我再附上微博授权登录的开发者文档作为对比。

Facebook的登录授权信息

微博的登录授权信息

大众对于这件Facebook数据被“滥用”的事件非常敏感，还发起了删除Facebook的活动。现实版的钢铁侠Elon Musk也响应了一下，删除了他的Facebook账号。

但是坦白说，这其实不是什么新鲜事。不止我前面所说的Kosinski的五型人格模型其实大部分是经典方法，对公开数据的爬虫产业现在早已经非常发达。两三年前大数据这个词还很火的时候，网上随便搜索数据分析的入门文章，都是关于如何使用python进行爬虫。

利用信息差通过公开数据赚美元的小众细分产品案例

就如我之前写过的一篇文章所说，利用爬虫获取公开数据，通过信息差去赚钱，已经是很常见的生意。

私人数据呢？

不客气地说，国内大部分的大数据公司，其实都是在贩卖私人数据。我前面提到淘宝给我推送猫粮广告，但是我其实是在京东上买的猫粮，淘宝如何知道这件事？懂的人自然已经懂了。

这是信息时代的人类的现实。信息技术的发展和应用不仅仅让我们能够获取更多的信息，我们自身也在成为信息。

人类文明这几千年来的突飞猛进，与其说是生理上的进化，不如说是人类通过文字、宗教、国家这些架构来组织信息，使人类的智慧能够规模化进步，脱离个体基因演化客观上需要的时间局限。

获得了计算机这个新的信息运算工具，又建立了互联网这种巨大的信息架构，未来人类的生活不可避免地会继续作用于信息和被信息反作用。

而现在，公司这种灵活的组织得以在国家之前抢先适应时代，获取了大量的数据，而国内大型公司对于数据的获取和使用比美国的同行只会更过分。读者朋友们，你们都应该注意个人数据保护这件事。

Facebook自己受益于信息时代得以诞生，它也是世界上第一家使用算法改变实时信息流的公司，通过广告获取了大量的收入。最终他也被他所拥有的数据所反噬。

并非说这是一个坏时代，我们每个人都在有意无意，或被动或主动地散步自己的数据，这会获得类似推荐系统这样的方便，也会被人利用比如信息流上的操作。

我们应该客观唯物地认知到这个事实。

剑桥分析“滥用”Facebook的泄露数据只是一个必然

剑桥分析“滥用”Facebook的泄露数据只是一个必然

相关阅读更多精彩内容

友情链接更多精彩内容