剑桥分析“滥用”Facebook的泄露数据只是一个必然

这一周Facebook的估价下跌了13%,百亿美元的市值就这么蒸发掉了。

引用一下媒体的报道:

据《纽约时报》和《伦敦观察员》上周六的报道称,Cambridge Analytica(剑桥分析)从2014年开始通过欺骗用户和Facebook的方式收集数据,总共获得了5000万Facebook用户的个人数据。

根据告密者克里斯托夫·维利的指控,Cambridge Analytica在2016年美国总统大选前获得了5000万名Facebook用户的数据。这些数据最初由亚历山大·科根通过一款名为“this is your digital life”的心理测试应用程序收集。通过这款应用,Cambridge Analytica不仅从接受科根性格测试的用户处收集信息,还获得了他们好友的资料,涉及数千万用户的数据。能参与科根研究的Facebook用户必须拥有约185名好友,因此覆盖的Facebook用户总数达到5000万人。

这家公司的业务,涉及到一个很有意思的人Michal Kosinski,一位组织行为学学者,他在2014年获得博士学位,在斯坦福大学和剑桥大学都任过教职。他的研究领域在于使用网络数据去研究人的心理和行为。

结合最近几年互联网的发展和大数据应用的风潮,Kosinski作为学者可以说是非常时髦。

如果对于他过往的研究作品没有太多印象,他最近还用深度学习发表过另一篇极有争议的论文《在通过面部照片判断个人性取向的问题上,深度神经网络比人类更准确》(Deep neural networks are more accurate than humans at detecting sexual orientation from facial images)

Kosinski在2012年使用Facebook的点赞数据建立了一个心理学侧写模型(注1),模型通过用户对什么事情点赞去学习他的性格。数据量级达到一定程度,大约70个点赞以后,模型对于用户五型人格的判断上有比一般人更高的性能。

这就是剑桥分析的理论依据:他们认为人类通过人格特质对事物的判断行事,因此基于Facebook数据对用户的性格建模,并据此进行对应的媒体信息投放,影响用户的信息接收和判断。

这看起来比传统的根据人口地理学特征去进行投放要更科学,毕竟我们都知道广东人爱吃福建人只是无稽之谈。

是这样吗?我们看一下Kosinski的模型:


Kosinski的建模.png

用户-物品矩阵,奇异值分解,线性回归,很经典的计量方法,对于数据从业者来说都是相当熟悉的名词。这不是什么高深的技术,一个懂得使用python的本科生,对着文档敲代码,几个小时就能复制出这个模型。在2017年,企业如果不提深度学习这个词,都不敢说自己是大数据公司。

我是个单身狗,但是微信朋友圈会给我推送女士香水的广告。我买的猫粮都收货确认了,淘宝过了两个月都还一直给我推送猫粮店铺。精准投放这件事本来就没那么精准。

说回剑桥分析这件事,剑桥分析获得的其实只有27万用户的数据,只是通过每个用户至少要拥有185名好友,达到“最多5000万人”的覆盖范围。说他影响了美国大选,基本上只是自己的公关说辞罢了。

这件事其实最有意思的事情,在于剑桥分析钻了“授权”的漏洞。

当时的Facebook对用户数据授权并没有很严格的控制,剑桥分析通过伪装成学术研究网页的方式,获得用户授权后,进而获取了用户的历史消息、关联好友、互动行为等。说到底,其实是一个大型的爬虫。

Facebook现在仍然允许获得授权的应用获取很多信息,只是集中于提供授权的用户信息,不至于连他好友的信息都能获取。从开发者文档看来,目前允许获取的数据仍然有相当的想象空间,如:

  1. 用户基本属性:基本资料如生日地域,一些一度好友关系;

  2. 用户活动:书籍、运动、点赞、发文;

  3. 用户创建的活动和管理的小组;

老实说,我觉得Facebook真是厚道。换作国内的微博或微信或支付宝,给你获取用户名就不错了,怎么可能还让你能获取用户的推文?我再附上微博授权登录的开发者文档作为对比。

Facebook的登录授权信息

微博的登录授权信息

大众对于这件Facebook数据被“滥用”的事件非常敏感,还发起了删除Facebook的活动。现实版的钢铁侠Elon Musk也响应了一下,删除了他的Facebook账号。

但是坦白说,这其实不是什么新鲜事。不止我前面所说的Kosinski的五型人格模型其实大部分是经典方法,对公开数据的爬虫产业现在早已经非常发达。两三年前大数据这个词还很火的时候,网上随便搜索数据分析的入门文章,都是关于如何使用python进行爬虫。

利用信息差通过公开数据赚美元的小众细分产品案例

就如我之前写过的一篇文章所说,利用爬虫获取公开数据,通过信息差去赚钱,已经是很常见的生意。

私人数据呢?

不客气地说,国内大部分的大数据公司,其实都是在贩卖私人数据。我前面提到淘宝给我推送猫粮广告,但是我其实是在京东上买的猫粮,淘宝如何知道这件事?懂的人自然已经懂了。

这是信息时代的人类的现实。信息技术的发展和应用不仅仅让我们能够获取更多的信息,我们自身也在成为信息。

人类文明这几千年来的突飞猛进,与其说是生理上的进化,不如说是人类通过文字、宗教、国家这些架构来组织信息,使人类的智慧能够规模化进步,脱离个体基因演化客观上需要的时间局限。

获得了计算机这个新的信息运算工具,又建立了互联网这种巨大的信息架构,未来人类的生活不可避免地会继续作用于信息和被信息反作用。

而现在,公司这种灵活的组织得以在国家之前抢先适应时代,获取了大量的数据,而国内大型公司对于数据的获取和使用比美国的同行只会更过分。读者朋友们,你们都应该注意个人数据保护这件事。

Facebook自己受益于信息时代得以诞生,它也是世界上第一家使用算法改变实时信息流的公司,通过广告获取了大量的收入。最终他也被他所拥有的数据所反噬。

并非说这是一个坏时代,我们每个人都在有意无意,或被动或主动地散步自己的数据,这会获得类似推荐系统这样的方便,也会被人利用比如信息流上的操作。

我们应该客观唯物地认知到这个事实。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,189评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,577评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,857评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,703评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,705评论 5 366
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,620评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,995评论 3 396
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,656评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,898评论 1 298
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,639评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,720评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,395评论 4 319
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,982评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,953评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,195评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,907评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,472评论 2 342

推荐阅读更多精彩内容

  • 每天进步一点点点点点点点点点点点点点点点点点点点点点点点点点点点点点点~~从开始只能写几句话、模仿别人的观点,到现...
    一个帅气的名字呀阅读 18,033评论 4 31
  • ――缘不知何起,一往情深 阿大从来都知道这个世界很现实,没有人会无缘无故的对你好,可是阿大还是希望,嗯,是的,阿大...
    阿大的短发女孩阅读 229评论 0 5
  • 不久前,学校进行创新技能分申请,我才想起去查4月份考的韩语成绩。结果很美好。 突然就想起那段时间的自己,每天戴着耳...
    飞鸟云青阅读 281评论 0 1
  • 不知道怎么说好 昨天晚上应该是我们两个都最生气的一次了 我以为我理直气壮地没有他我也可以好好的 可是后来我发现我还...
    青衫不华阅读 166评论 0 0
  • 世事 神说,人的眼睛由黑白两部分组成,可为什么只能透过黑色的部份看东西呢?因为人生必须透过黑暗才能看到光明。 沧海...
    浅木sun阅读 467评论 1 6