2024-02-19

感恩!六点签到

大数据的一个获取方式很不起眼,人们往往没有留意到。就拿看电影来说吧。1980年,你去看电影,只能用现金买票。你这次消遣产生的唯一数据就是票房收入。

1990年,你去当地的录像带租赁店租碟回家看,店老板那时最多有台电脑做个记录,或者直接用纸笔记录你租了什么碟。

即使老板那时有电脑,估计也没连接什么数据库。但到了21世纪,只要你在网飞或亚马逊一登录,你的数据就进入一个庞大而相互联系的数据世界,你的数据很容易就被拿来分析、对比,或在条件允许的情况下与数据供应商共享。

你申请借书证、缴纳所得税、签手机上网合同或申请护照时,情况也大抵如此。

过去,这样的数据只会以小纸条的形式存在于一个按字母顺序排列的巨大档案本里,它们不是为像人口普查那样的统计分析而设计的,只是为政府管理需要而存在的。

随着时间的推移、行政数字化和查询算法的改进,这些数据越来越成为统计分析、数据补充,甚至民意测验的一个个小分母。

但“一个都不少”更多是一种理想,而不是事实。

正如我们所看到的,政府数据经常会要求你填写谁是户主、谁养家这样的家庭信息,那些本来就对政府敬而远之的人就躲得更远了。

此外,不要忘记“一个都不少”和“每个人都在”不是一回事。

例如,网飞对它的用户拥有海量数据,但对于不是它用户的人,就没什么数据了,如果它用自己用户的数据去推断别的用户群体,就会酿成大错。

除了政府掌握我们的数据,大数据悄悄窃取我们数据的另一个重要来源是“留痕数据”——我们留下自己的数据时都没有察觉。

大家现在走到哪儿都用智能手机、谷歌搜索、在线支付,在推特上发帖,在脸书上晒照,或者在手机上用智能温控App(应用程序)为房间加热。

所以,你不只给了网飞你的名字和信用卡的详细信息,只要你在流媒体上看过东西,你什么时候看的、什么时候停的,或者别的信息,一切的一切,都会在网上留下痕迹。

如果有不怀好意的人从网上窃取了这些信息,他们就可以利用这些信息兴风作浪、为非作歹。获得这些信息一点也不难。

例如,我们想掌握舆情动向,可以在推特上运行一个情绪分析算法,就知道哪些人提哪些意见了,连民意调查的钱都省了。

推特上可以提供每一条信息供你分析,尽管在实际中,大多数研究员使用的是大数据中的一小部分。

但即使我们分析了每一条推特消息,仍然只是了解了推特用户的想法,而不是整个世界的想法。

推特用户并不能代表整个世界。例如,在美国,推特用户大概率是年轻人、城市居民、受过高等教育的人和黑人。

与此同时,女性更倾向于使用脸书和Instagram,较少使用领英。

西班牙裔比其他白人更喜欢使用脸书,而领英、推特和Instagram在黑人族群中比在白人族群更受欢迎。这都是藏在细节中的信息。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 我抬头,却不敢说我爱你 夜,这无尽的长河里 亮着无数盏灯 我推门而入 只敢 怯懦的站着 一天,你打开门 抬起头望了...
    荒人拂柳剑阅读 73评论 0 0
  • 2024年2月18日 星期日 晴天 人有的时候,会感觉被什么东西卡住。 就好像,冬季的溪流,被渐渐寒冷的空气冻住,...
    Diana05阅读 75评论 0 0
  • 凡是重复过的字眼 都是流氓发酵的屁 暴力夺权利 想当奴隶主 苍蝇不叮无缝蛋 流氓不盯工具人 破解诅咒 早睡早起 洗...
    yM_aad9阅读 37评论 0 0
  • 文章总结。1.凭感觉,平均水准以上,自我感觉良好;2.感觉存在偏差,是造成自我感觉良好的原因;3.“井底之蛙”——...
    Leslie91阅读 42评论 0 1
  • 神马是“hiStarter初创招聘”? 学渣没前途,学霸不过瘾,打工亦无趣?创业公司适合你!hiStarter主打...
    hiStarter阅读 428评论 0 2