【视频】快来get新技能--抓包+cookie,爬微博不再是梦


 今天给大家录制了一个爬新浪微博的爬虫,也用到了抓包分析网址,但相较于以前,单纯的使用抓包分析网址在新浪微博是无效的。

cookie是什么

某些网站为了辨别用户身份、进行 session 跟踪而储存在用户本地终端上的数据(通常经过加密)。

目前有些 Cookie 是临时的,有些则是持续的。临时的 Cookie 只在浏览器上保存一段规定的时间,一旦超过规定的时间,该 Cookie 就会被系统清除。

持续的 Cookie 则保存在用户的 Cookie 文件中,下一次用户返回时,仍然可以对它进行调用。

注意:

微博中的cookie有时间限制,如果运行有问题,可以更换下cookie

如何使用cookie

Cookie = {‘Cookie’: ’UM_distinctid=15ab64ecfd6592-0afad5b368bd69-1d3b6853-13c680-15ab64ecfd7b6; remember_user_token=W1sxMjEzMTM3XSwiJDJhJDEwJHhjYklYOGl2eTQ0Yi54WC5seVh2UWUiLCIxNDg5ODI2OTgwLjg4ODQyODciXQ%3D%3D---ac835770a030c0595b2993289e39c37d82ea27e2; CNZZDATA1258679142=559069578-1488626597-https%253A%252F%252Fwww.baidu.com%252F%7C1489923851’}

我们要构造成字典格式,如上。这样应用到请求网址的时候添加到请求头中去即可(不懂也没关系,继续往下看,有视频讲说的)。

requests库

Requests  is  an  elegant  and  simple  HTTP  library  for Python,  built  for  human  beings.  Requests是一个优雅简洁的Python HTTP库,给人类使用。

使用方法如下

r  = requests.get(url,cookiess = Cookie)

实战分析

孔庆东微博

那么我们打开开发者工具,抓包分析下网址验证我们的网址规律思路

抓包分析

接下来我只是测试下,抓孔庆东微博博文的标题,如下图红色方框对应的html标签是h4

代码及运行图部分

关注公众号:大邓带你玩转python

关注后回复“孔庆东”即可得到项目源码


【python爬虫】抓包+cookie爬新浪数据 - 腾讯视频
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...
    passiontim阅读 173,008评论 25 708
  • HTTP cookie(也称为web cookie,网络cookie,浏览器cookie或者简称cookie)是网...
    留七七阅读 18,044评论 2 71
  • 在和黄先生恋爱之前,对今后的期许,就是找一个有聊的人,过一生。可心里明白,其实并不简单。 那时候已经独居好几年,爱...
    洛小之a阅读 284评论 0 0
  • 战狼2上映这么久,口碑一直不错,经常看到新闻说票房突破多少亿,心里始终痒痒的。今天终于有机会跟朋友一起去影院看完了...
    小馒头0601阅读 164评论 1 1
  • 真的,有时候脑子一热起来就不行了,都说是坑,为什么就要自己往里跳。mark一下吧,看多久就脱坑了,说不定2017一...
    生活中的我们阅读 523评论 0 0