登录注册写文章

【视频】快来get新技能--抓包+cookie,爬微博不再是梦

大邓和他的python

【视频】快来get新技能--抓包+cookie,爬微博不再是梦

今天给大家录制了一个爬新浪微博的爬虫，也用到了抓包分析网址，但相较于以前，单纯的使用抓包分析网址在新浪微博是无效的。

cookie是什么

某些网站为了辨别用户身份、进行 session 跟踪而储存在用户本地终端上的数据（通常经过加密）。

目前有些 Cookie 是临时的，有些则是持续的。临时的 Cookie 只在浏览器上保存一段规定的时间，一旦超过规定的时间，该 Cookie 就会被系统清除。

持续的 Cookie 则保存在用户的 Cookie 文件中，下一次用户返回时，仍然可以对它进行调用。

注意：

微博中的cookie有时间限制，如果运行有问题，可以更换下cookie

如何使用cookie

Cookie = {‘Cookie’: ’UM_distinctid=15ab64ecfd6592-0afad5b368bd69-1d3b6853-13c680-15ab64ecfd7b6; remember_user_token=W1sxMjEzMTM3XSwiJDJhJDEwJHhjYklYOGl2eTQ0Yi54WC5seVh2UWUiLCIxNDg5ODI2OTgwLjg4ODQyODciXQ%3D%3D---ac835770a030c0595b2993289e39c37d82ea27e2; CNZZDATA1258679142=559069578-1488626597-https%253A%252F%252Fwww.baidu.com%252F%7C1489923851’}

我们要构造成字典格式，如上。这样应用到请求网址的时候添加到请求头中去即可（不懂也没关系，继续往下看，有视频讲说的）。

requests库

Requests is an elegant and simple HTTP library for Python, built for human beings. Requests是一个优雅简洁的Python HTTP库，给人类使用。

使用方法如下

r = requests.get(url,cookiess = Cookie)

实战分析

孔庆东微博

那么我们打开开发者工具，抓包分析下网址验证我们的网址规律思路

抓包分析

接下来我只是测试下，抓孔庆东微博博文的标题，如下图红色方框对应的html标签是h4

代码及运行图部分

关注公众号：大邓带你玩转python

关注后回复“孔庆东”即可得到项目源码

【python爬虫】抓包+cookie爬新浪数据 - 腾讯视频

最后编辑于：2017.12.06 04:54:38

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

相关阅读更多精彩内容

Android - 收藏集
Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...
passiontim阅读 179,920评论 25赞 708
前端必备HTTP技能之cookie技术详解
HTTP cookie(也称为web cookie,网络cookie,浏览器cookie或者简称cookie)是网...
留七七阅读 18,438评论 2赞 71

找一个有聊的人，过一生
在和黄先生恋爱之前，对今后的期许，就是找一个有聊的人，过一生。可心里明白，其实并不简单。那时候已经独居好几年，爱...
洛小之a阅读 353评论 0赞 0
《战狼2》
战狼2上映这么久，口碑一直不错，经常看到新闻说票房突破多少亿，心里始终痒痒的。今天终于有机会跟朋友一起去影院看完了...
小馒头0601阅读 192评论 1赞 1
Android学习路线图
真的，有时候脑子一热起来就不行了，都说是坑，为什么就要自己往里跳。mark一下吧，看多久就脱坑了，说不定2017一...
生活中的我们阅读 567评论 0赞 0

友情链接更多精彩内容

4赞5赞

赞赏

手机看全文