requests 读取 cookies

import requests
from requests.cookies import RequestsCookieJar
s = requests.session()
s.verify = False
    s.headers = {
        "User-Agent": "Mozilla/5.0 (iPhone; CPU iPhone OS 11_0 like Mac OS X) AppleWebKit/604.1.38 (KHTML, like Gecko) Version/11.0 Mobile/15A372 Safari/604.1"
    }
s.get("http://www.baidu.com")

#这里我们使用cookie对象进行处理
jar = RequestsCookieJar()
with open("cookies.txt", "r") as fp:
    cookies = json.load(fp)
    for cookie in cookies:
        jar.set(cookie['name'], cookie['value'])

#百度个人中心
r = s.get("https://www.baidu.com/p/setting/profile/basic", cookies=jar)

# 也可以使用字典设置
cookies_dict = dict()
with open("cookies.txt", "r") as fp:
    cookies = json.load(fp)
    for cookie in cookies:
        cookies_dict[cookie['name']] = cookie['value']
r = s.get("https://www.baidu.com/p/setting/profile/basic", cookies=cookies_dict)

r.encoding = "utf-8"
print(r.text)

requests 库可以使用 cookies 对象和 dict 对象来指定 cookies，这个可以看一下源码

[

sttps://upload-images.jianshu.io/upload_images/13378161-95880d2f097946a9.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)

通过 requests 读取 cookies 的使用，我们知道在 cookies 中我们一般只使用 name 和 value，像 domain、path 等值都是不需要使用的，而且上面传入 cookies 字典的例子我们知道，只要保存了 cookies 中的 name 和 value，无论你以什么样的方式保存，文件、或者数据库等，最后读取出来只要生成对应的字典格式就行了。

requests 保存 cookies

import requests
s = requests.session()
s.verify = False
s.headers = {
        "User-Agent": "Mozilla/5.0 (iPhone; CPU iPhone OS 11_0 like Mac OS X) AppleWebKit/604.1.38 (KHTML, like Gecko) Version/11.0 Mobile/15A372 Safari/604.1"
    }

# 这里可以是模拟登陆的步骤
s.get("http://www.baidu.com")

cookies = requests.utils.dict_from_cookiejar(s.cookies)
with open("cook.txt", "w") as fp:
    json.dump(cookies, fp)
print(cookies)

首先我们看一下 requests.session 里面的 cookies，它是一个 RequestsCookieJar 对象，这就是我们在上面使用的时候用 RequestsCookieJar 对象读取 cookies 的原因了

image

下面我们看到 requests.utils.dict_from_cookiejar 方法，这是 requests 库提供的一个方法，把上面的 RequestsCookieJar 对象转换为一个字典（字典里只有 name 和 value），这就是我上面说的，requests 库只使用 name 和 value 值，而我们 selenium 中保存的 cookies 中包含 domain、path 等信息。

另外还有一个方法 requests.utils.cookiejar_from_dict(cookie_dict, cookiejar=None, overwrite=True) 这个方法，根据字典生成一个 RequestsCookieJar 对象，为什么需要这样一个方法呢，可能在上面的应用中有些人会有疑问，我们的 cookies 是通过 get/post 方法的参数传进去的，那么在访问其他网页的时候都要去传递这样一个参数吗？这样很不方便而且容易遗忘。看上图的 s.cookies 变量，它是 requests.session 对象中的变量，而且是一个 RequestsCookieJar 类型的对象，那么我们就可以使用这个函数把读取的字典信息转换为 RequestsCookieJar 对象，然后把值直接设置给 s.cookies，就像上面代码里的 headers 一样，这样就方便很多了吧。

request 中保持 Cookies 一直有效

在使用 request 模块写爬虫时，cookie 过一段时间便会自动失效，这时爬虫程序就无法继续运行，让人很是无奈。
我们知道，cookie 里面保存着我们的身份信息，网站服务器通过 cookie 来识别我们的身份，为了安全，一般 cookie 都会有有效时间，过了这个时间，则 cookie 会自动失效，此时，服务器便无法识别我们身份，这时如果我们请求一个需要登录才能查看的资源，网站会自动跳转到登录界面。

request 中提供了一个高级用法来解决这个问题：session
session 会话对象让你能够跨请求保持某些参数。它也会在同一个 Session 实例发出的所有请求之间保持 cookies。
也就是 session 可以自动更新请求时的 headers，但是事实很残酷，虽然我们使用了 session 对象，cookie 依旧会失效。
这是因为 session 确实会根据服务器响应的信息自动更新下次请求的 headers，但是，它并不是简单的覆盖原来的 headers，而是与程序中我们自己设置的原来的 headers 合并，而且，用户设置的优先度更高，也就是说，合并时，新的 cookie 被丢弃了，而我们设置的旧的 cookie 却保留下来了。所以程序中的 cookie 依旧会失效，因为 cookie 一直没有更新嘛！
找到了问题出现的原因，也就找到了解决方法：请求后自行更新 cookie，代码如下：

s = requests.session()
s.headers.update(headers)

r = s.get(url='https://www.arrow.com')
if r.cookies.get_dict():
    s.cookies.update(r.cookies.get_dict())
print s.cookies

这样 cookie 即可保持一直有效。

关于requests请求时cookie无法持久化问题的解决方式

关于requests请求时cookie无法持久化问题的解决方式

requests 读取 cookies

requests 保存 cookies

request 中保持 Cookies 一直有效

推荐阅读更多精彩内容