python爬虫实战——人人网大作战

这两天实在是被毕设折磨的够呛!哎,经常在卡壳,写一点,再卡壳,再写一点的循环中慢慢前进。老崔死催着十号前交稿,真是焦头烂额。今天就换换脑子,做一点好玩的事儿。干什么呢?来爬一爬人人网吧,看看能不能找出一些有意思的东西来。

人人网作为一个过气的社交网站,其用户数据还是比较可观的。之所以选择人人网的一个原因是,人人网不像QQ空间一样中二:你可以禁止你的好友访问你的空间。那么,开始吧!

由于人人网没有类似于微博大厅的功能,所有的数据必须要登录以后才能看到。我又不是什么黑客干坏事,光明正大的去,就登陆我自己的账号。

由于不知道人人网这个登录后台是怎么做的,所以登陆的同时我们需要抓个包,看看HTTP头里面带了多少cookie。在这里笔者用的抓包软件是wireshark。



真是巧,第12个数据包就是登录包。右键看一下完整的通信记录。



由于不知道这一大串cookie中具体是哪一个或哪几个做登录验证用,就干脆把这些cookie全部拷贝到程序中去。至于下面的那一串POST方式提交的数据就不用管了。



接着,我们观察一下人人网的个人界面吧,看看有没有我们感兴趣的信息。随意找一个好友的主页登陆进去,我们可以发现人人网可以查看任意好友的全部好友信息。如下图,我选取了我人人好友中的一个公众号“交大有思”来举例子。



通过浏览器右键查看网页源代码我们可以发现网页中并没有这些好友信息的静态信息,说明这些好友信息一定是通过网页上的脚本代码动态获取的。怎么证实呢?我们还是来抓个包吧。通常这种异步获取信息的脚本代码都是通过调用网站后台的某个api来实现的,有些不注重用户隐私的公司就直接把这些信息在网络上明文传送。像这种api通常都会有一个比较通俗易懂的名字,例如getfriendslist这种。



果然,在第443个数据包中找到了一个疑似的。从命名上看这太像我们所要找的那个接口了。我们右键看一下完整的通信记录,来确认一下我们的猜想。



服务器针对这个接口调用返回的数据是一堆乱码。但是光凭这一堆乱码我们也能看得出来,人人网的这个接口的数据是完全没有加密的,之所以出现乱码是因为编码格式的错误。这并不是什么大问题,通常用浏览器调用一次就能够解决。我们仔细观察了这个接口所需要的参数以后直接用浏览器调用看看结果。在这里笔者调用接口打印自己好留列表的前20个好友的基本信息。



如上图,人人网果然是这样一种节奏:所有的用户信息完全不加密,赤身裸体地在网络上飞奔,而且还是这么格式良好的json数据,真是呵呵呵!这个接口的调用很简单,只用传入人人网的ID,数据的分页信息和一些登录验证信息就可以了。接下来,我们用python程序来调用这个接口试试看,还是调用接口打印我自己的全部人人好友。



如图,整个接口调用成功,json数据解析成功。该函数通过传入用户的ID值可以打印出这个用户全部的好友基本信息,为了保护隐私笔者将用户ID数据全部隐去了。仔细观察一下这些用户基本数据吧,上面除了一些不知所云的字段以外还有一些很有意思的信息。



这些信息中包含了用户的大头像图片地址,小头像图片地址,真实的姓名,与查询用户是否为好友关系,基础的学校地区信息等等。一些牛掰的黑客仅仅依靠这些基础的数据完全就可以完成一次社会工程学实践,这对个人信息保护来说是一个很大的安全隐患。OK,接下来我们来验证一下著名的“六度分割”理论吧,这理论是说在现代社会,不论两个人物理上相隔多远,都可以通过至多六个人建立联系。今天,我们就来遍历一下我们全部好友的好友,看一下这个人际关系树仅仅深入到第二层能达到多大的规模。在编程上,我们使用递归。使用一个集合来存储所有遍历到的用户信息。由于集合的特殊性质:集合不能存储两个相同的数据。因此我们就避免了重复统计一个人信息的问题。实验的结果非常惊人,仅仅是笔者人人网好友圈的71个好友的所有好友就达到了12726人,几乎是以指数2的级别向上增长。



都到这儿了就再进一步吧,通过csv文件将所有的这些用户信息保存下来,并且将笔者71个好友的全部好友的用户头像都保存下来。





接下来,我们还可以遍历所有好友的相册。人人网在这里又为爬虫提供了非常好的便利机会。不但用户的相册信息在网页上静态写明,毫无加密,而且还是便于解析的json格式。以下是笔者公众号好友“交大有思”的全部相册信息:



获取了这些信息后只用解析json数据,然后就可以对相册中的相片进行下载了。噗~,写到这笔者就不打算继续下去了。这次的博客就到这儿吧!以后看到好玩的网站还是会用爬虫爬一爬。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,670评论 5 460
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,928评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,926评论 0 320
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,238评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,112评论 4 356
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,138评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,545评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,232评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,496评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,596评论 2 310
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,369评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,226评论 3 313
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,600评论 3 299
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,906评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,185评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,516评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,721评论 2 335

推荐阅读更多精彩内容

  • Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...
    passiontim阅读 171,073评论 25 707
  • 社交红利阅读笔记 书名:社交红利(修订升级版) 作者:徐志斌 出版社:中信出版社 正文前笔记: 推荐序1摘要 社交...
    凫水阅读 8,864评论 4 26
  • 1. Java基础部分 基础部分的顺序:基本语法,类相关的语法,内部类的语法,继承相关的语法,异常的语法,线程的语...
    子非鱼_t_阅读 31,505评论 18 399
  • 今年夏季联赛,除了尤恩首次带队出现在赛场外,当然也能看到今年状元西蒙斯和榜眼英格拉姆的首次登场。 对刚进入联盟的新...
    zoneball阅读 386评论 0 0
  • 诗说:从为了一颗美丽的种子,到诗中最后一首长成了一棵大树,是每一种情感在诗中的表现。爱情,亲情,是紧竹诗中的两大主...
    紧竹阅读 290评论 0 0