urllib request 网络请求库使用

urllib介绍

urllib.request 提供了一个 urlopen 函数，来实现获取页面。支持不同的协议、基本验证、cookie、代理等特性。
urllib 有两个版本 urllib 以及 urllib2。
urllib2 能够接受 Request 对象，urllib 则只能接受 url。
urllib 提供了 urlencode 函数来对GET请求的参数进行转码，urllib2 没有对应函数。
urllib 抛出了一个 URLError 和一个 HTTPError 来处理客户端和服务端的异常情况。

urllib中包括四个模块

urllib.request,urllib.error,urllib.parse,urllib.robotparser
urllib.request可以用来发送request和获取request的结果
urllib.error包含了urllib.request产生的异常
urllib.parse用来解析和处理URL
urllib.robotparse用来解析页面的robots.txt文件
url, \目标url
data=None, \默认为None表示是get请求,如果不为None说明是get请求
timeout 设置请求的超时时间
cafile=None, capath=None, cadefault=False,:证书相关参数
context=None :忽略证书认证
urlopen不能添加请求头
response = request.urlopen(url=url,timeout=10)

urllib.request.urlopen post请求携带参数

    data = {
       'name' = 'name',
       'age' = 18
    }
    bianliang = urllib.parse.urlencode(data).encode()
    request = urllib.request.Request(url=url, data=bianliang,headers=headers)

import urllib.request

    response = urllib.request.urlopen('http://www.baidu.com')
    content = response.read().decode('utf-8')
    print(content)

requests是python实现的最简单易用的HTTP库，建议爬虫使用requests

获取某个网页

    import requests
    r = requests.get("https://api.github.com/events")
    print(r)

各种请求

    # 发送一个 HTTP POST 请求：
  r = requests.post("http://httpbin.org/post",data = {'key':'value'})
  r = requests.delete('http://httpbin.org/delete')    # 发送一个 HTTP delete 请求：
  r = requests.head('http://httpbin.org/get')         # 发送一个 HTTP head 请求：
  r = requests.options('http://httpbin.org/get')      # 发送一个 HTTP options 请求：

requests提供了params关键字参数来传递参数

    parameter = {
        "key1":"value1",
        "key2":"value2"
        }
    response2 = requests.get("http://httpbin.org/get",params = parameter)
    print(response2.url)
    #话可以将一个列表作为值传入
    parameter = {"key2":["value21","value22"]}
    #注意字典里值为 None 的键都不会被添加到 URL 的查询字符串里。
   parameter = { "key2":None}

POST请求

发送一些编码为表单形式的数据——非常像一个 HTML 表单。要实现这个，只需简单地传递一个字典给 data 参数。数据字典在发出请求时会自动编码为表单形式：通过在发送post请求时添加一个data参数，这个data参数可以通过字典构造成，这样对于发送post请求就非常方便

    payload = {
        "key1":"value1",
        "key2":"value2"
    }
    response = requests.post("http://httpbin.org/post",data = payload)
    print(response.text)

响应

可以通过response获得很多属性，例子如下

    import requests

    response = requests.get("http://www.baidu.com")
    print(type(response.status_code),response.status_code)          #< class 'int'> 200
    print(type(response.headers),response.headers)                  # 头部信息
    print(type(response.cookies),response.cookies)                  #<class 'requests.cookies.RequestsCookieJar'> <RequestsCookieJar[<Cookie BDORZ=27315 for .baidu.com/>]>
    print(type(response.url),response.url)                          # <class 'str'> http://www.baidu.com/
    print(type(response.history),response.history)                  # <class 'list'> []

Cookie

如果某个响应中包含一些 cookie，可以快速访问它们：

    import requests

    response = requests.get("http://www.baidu.com")
    print(response.cookies)

    for key,value in response.cookies.items():
print(key+"="+value)

要想发送的cookies到服务器，可以使用 cookies 参数：

    import requests

    url = 'http://httpbin.org/cookies'
    cookies = dict(cookies_are='working')
    response = requests.get(url, cookies=cookies)
    print(response.text)

超时

可以告诉 requests 在经过以 timeout 参数设定的秒数时间之后停止等待响应。基本上所有的生产代码都应该使用这一参数。如果不使用，的程序可能会永远失去响应：

    response1 = requests.get('http://github.com', timeout=100)
    print(response1)            #<Response [200]>

    response2 = requests.get('http://github.com', timeout=0.1)
    print(response2)            # 报错ReadTimeout

SSL 证书验证

Requests 可以为 HTTPS 请求验证 SSL 证书，就像 web 浏览器一样。SSL 验证默认是开启的，如果证书验证失败，Requests 会抛出 SSLError:

    response = requests.get('https://requestb.in')
    print(response)         # 抛出异常  SSLError:
    response = requests.get('https://github.com', verify=True)
    print(response)

为了避免这种情况的发生可以通过verify=False但是这样是可以访问到页面，但是会提示：InsecureRequestWarning: Unverified HTTPS request is being made. Adding certificate verification is strongly advised. See: https://urllib3.readthedocs.io/en/latest/advanced-usage.html#ssl-warnings InsecureRequestWarning)

解决方法：

    import requests
    from requests.packages import urllib3
    urllib3.disable_warnings()    # 就这一句就可以解决
    response = requests.get("https://www.12306.cn",verify=False)
    print(response.status_code)

可以为 verify 传入 CA_BUNDLE 文件的路径，或者包含可信任 CA 证书文件的文件夹路径：

    requests.get('https://github.com', verify='路径')

或者将其保存在会话中：

    s = requests.Session()
    s.verify = '路径'

代理

如果需要使用代理，你可以通过为任意请求方法提供 proxies 参数来配置单个请求:

  import requests

  proxies = {
      "http": "http://10.10.1.10:8000",
      "https": "http://10.10.1.10:8080",
  }

    requests.get("http://example.org", proxies=proxies)