urllib、xpath、bs4的语法和使用

Handler处理器和自定义Opener

opener是 urllib.request.OpenerDirector 的实例，我们之前一直都在使用的urlopen，它是一个特殊的opener（也就是模块帮我们构建好的）。
但是基本的urlopen()方法不支持代理、cookie等其他的HTTP/HTTPS高级功能。所以要支持这些功能：
1. 使用相关的 Handler处理器来创建特定功能的处理器对象；
2. 然后通过 urllib.request.build_opener()方法使用这些处理器对象，创建自定义opener对象；
3. 使用自定义的opener对象，调用open()方法发送请求。
如果程序里所有的请求都使用自定义的opener，可以使用urllib.request.install_opener() 将自定义的 opener 对象定义为全局opener，表示如果之后凡是调用urlopen，都将使用这个opener（根据自己的需求来选择）

小案例：

import urllib.request

    # 构建一个HTTPHandler 处理器对象，支持处理HTTP请求
    http_handler = urllib.request.HTTPHandler()

    # 构建一个HTTPHandler 处理器对象，支持处理HTTPS请求
    # http_handler = urllib.request.HTTPSHandler()

    # 调用urllib.request.build_opener()方法，创建支持处理HTTP请求的opener对象
    opener = urllib.request.build_opener(http_handler)

    # 构建 Request请求
    request = urllib.request.Request("http://www.baidu.com/")

    # 调用自定义opener对象的open()方法，发送request请求
    response = opener.open(request)

    # 获取服务器响应内容
    print (response.read().decode())

代理的基本原理：

基本原理：代理实际上指的就是代理服务器，英文叫作proxy server，它的功能是代理网络用户去取得网络信息。形象地说，它是网络信息的中转站。在我们正常请求一个网站时，其实是发送了请求给Web服务器，Web服务器把响应传回给我们。如果设置了代理服务器，实际上就是在本机和服务器之间搭建了一个桥，此时本机不是直接向Web服务器发起请求，而是向代理服务器发出请求，请求会发送给代理服务器，然后由代理服务器再发送给Web服务器，接着由代理服务器再把Web服务器返回的响应转发给本机。这样我们同样可以正常访问网页，但这个过程中Web服务器识别出的真实IP就不再是我们本机的IP了，就成功实现了IP伪装，这就是代理的基本原理

代理的作用：

1.突破自身IP访问限制，访问一些平时不能访问的站点。
2.访问一些单位或团体内部资源：比如使用教育网内地址段免费代理服务器，就可以用于对教育网开放的各类FTP下载上传，以及各类资料查询共享等服务。
3.提高访问速度：通常代理服务器都设置一个较大的硬盘缓冲区，当有外界的信息通过时，同时也将其保存到缓冲区中，当其他用户再访问相同的信息时，则直接由缓冲区中取出信息，传给用户，以提高访问速度。
4.隐藏真实IP：上网者也可以通过这种方法隐藏自己的IP，免受攻击。对于爬虫来说，我们用代理就是为了隐藏自身IP，防止自身的IP被封锁。

小案例：

#由于ｕｒｌｏｐｅｎ不支持代理，而爬虫往往需要设置代理方对方的服务器
#所以我们需要自定义ｏｐｅｎｅｒ，让我们发起请求的时候可以携带代理
from urllib import request
#第一步创建handler处理器
proxy_handler = request.ProxyHandler(
   { 'http':'61.135.217.7:80',
    'https':'106.75.164.15:3128',
   }
)
# 自定义ｏｐｅｎｅｒ
opener = request.build_opener(proxy_handler)

#使用ｏｐｅｎｅｒ.open()方法发送请求，就会携带我们设置的代理了
req = request.Request('https://www.httpbin.org/get')

response = opener.open(req)
print(response.status)
print(response.read())

Cookie:

Cookie 是指某些网站服务器为了辨别用户身份和进行Session跟踪，而储存在用户浏览器上的文本文件，Cookie可以保持登录信息到用户下次与服务器的会话。

Cookie应用

Cookies在爬虫方面最典型的应用是判定注册用户是否已经登录网站，用户可能会得到提示，是否在下一次进入此网站时保留用户信息以便简化登录手续。

cookiejar库和 HTTPCookieProcessor处理器

在Python处理Cookie，一般是通过cookiejar模块和 urllib模块的HTTPCookieProcessor处理器类一起使用。
cookiejar模块：主要作用是提供用于存储cookie的对象
HTTPCookieProcessor处理器：主要作用是处理这些cookie对象，并构建handler对象。
cookiejar 库
该模块主要的对象有CookieJar、FileCookieJar、MozillaCookieJar、LWPCookieJar。其实大多数情况下，我们只用CookieJar()，如果需要和本地文件交互，就用 MozillaCookjar()

CookieJar：

管理HTTP cookie值、存储HTTP请求生成的cookie、向传出的HTTP请求添加cookie的对象。整个cookie都存储在内存中，对CookieJar实例进行垃圾回收后cookie也将丢失。
MozillaCookieJar (filename,delayload=None,policy=None)：从FileCookieJar派生而来，创建与Mozilla浏览器 cookies.txt兼容的FileCookieJar实例。

Xpath解析器：

什么是XPath？

XPath (XML Path Language) 是一门在 XML 文档中查找信息的语言，可用来在 XML 文档中对元素和属性进行遍历。

什么是XML?

XML 指可扩展标记语言（EXtensible Markup Language）
XML 是一种标记语言，很类似 HTML
XML 的设计宗旨是传输数据，而非显示数据
XML 的标签需要我们自行定义。
XML 被设计为具有自我描述性。
XML 是 W3C 的推荐标准

选取节点
XPath 使用路径表达式来选取 XML 文档中的节点或者节点集。这些路径表达式和我们在常规的电脑文件系统中看到的表达式非常相似。

下面列出了最常用的路径表达式：

nodename ：选取此节点的所有子节点。
/ ：从根节点选取。
// ：从匹配选择的当前节点选择文档中的节点，而不考虑它们的位置。
. ：选取当前节点。
.. ：选取当前节点的父节点。
@ ：选取属性。
在下面的表格中，我们已列出了一些路径表达式以及表达式的结果：

bookstore ：选取 bookstore 元素的所有子节点。
/bookstore ：选取根元素 bookstore。注释：假如路径起始于正斜杠( / )，则此路径始终代表到某元素的绝对路径！
bookstore/book ：选取属于 bookstore 的子元素的所有 book 元素。
//book ：选取所有 book 子元素，而不管它们在文档中的位置。
bookstore//book ：选择属于 bookstore 元素的后代的所有 book 元素，而不管它们位于 bookstore 之下的什么位置。
//@lang ：选取名为 lang 的所有属性。

小案例:

案例：使用XPath的爬虫 现在我们用XPath来做一个简单的爬虫，我们尝试爬取某个贴吧里的所有帖子，并且将该这个帖子里每个楼层发布的图片下载到本地。

    import requests
    from lxml import etree
    import json

    class Tieba:

        def __init__(self,tieba_name):
            self.tieba_name = tieba_name #接收贴吧名
            #设置为手机端的UA,也可以是指为浏览器的UA
            self.headers = {"User-Agent": "Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143 Safari/601.1"}

        def get_total_url_list(self):
            '''获取所有的urllist'''
            url = "https://tieba.baidu.com/f?kw="+self.tieba_name+"&ie=utf-8&pn={}&"
            url_list = []
            for i in range(100): #通过循环拼接100个url
                url_list.append(url.format(i*50))
            return url_list #返回100个url的urllist

        def parse_url(self,url):
            '''一个发送请求，获取响应，同时etree处理html'''
            print("parsing url:",url)
            response = requests.get(url,headers=self.headers,timeout=10) #发送请求
            html = response.content.decode() #获取html字符串
            html = etree.HTML(html) #获取element 类型的html
            return html

        def get_title_href(self,url):
            '''获取一个页面的title和href'''
            html = self.parse_url(url)
            li_temp_list = html.xpath("//li[@class='tl_shadow']") #分组，按照li标签分组
            total_items = []
            for i in li_temp_list: #遍历分组
                href = "https:"+i.xpath("./a/@href")[0] if len(i.xpath("./a/@href"))>0 else None
                text = i.xpath("./a/div[1]/span[1]/text()")
                text = text[0] if len(text)>0 else None
                item = dict(  #放入字典
                    href = href,
                    text = text
                )
                total_items.append(item)
            return total_items #返回一个页面所有的item

        def get_img(self,url):
            '''获取一个帖子里面的所有图片'''
            html = self.parse_url(url) #返回elemet累心的html，具有xpath方法
            img_list = html.xpath('//div[@data-class="BDE_Image"]/@data-url')
            img_list = [i.split("src=")[-1] for i in img_list] #提取图片的url
            img_list = [requests.utils.unquote(i) for i in img_list]
            return img_list

        def save_item(self,item):
            '''保存一个item'''
            with open("teibatupian.txt","a") as f:
                f.write(json.dumps(item,ensure_ascii=False,indent=2))
                f.write("\n")

        def run(self):
            #1、找到了url规律，url list
            url_list = self.get_total_url_list()
            for url in url_list:
            #2、遍历urllist 发送请求，获得响应，etree处理html
            # 3、提取title，href
                total_item = self.get_title_href(url)
                for item in total_item:
                    href = item["href"]
                    img_list = self.get_img(href) #获取到了帖子的图片列表
                    item["img"] = img_list
                    # 4、保存到本地
                    print(item)
                    self.save_item(item)

    if __name__ == "__main__":
            tieba = Tieba("美女")
            tieba.run()

BeautifulSoup4解析器

和 lxml 一样，Beautiful Soup 也是一个HTML/XML的解析器，主要的功能也是如何解析和提取 HTML/XML 数据。
lxml 只会局部遍历，而Beautiful Soup 是基于HTML DOM的，会载入整个文档，解析整个DOM树，因此时间和内存开销都会大很多，所以性能要低于lxml。

BeautifulSoup 用来解析 HTML 比较简单，API非常人性化，支持CSS选择器、Python标准库中的HTML解析器，也支持 lxml 的 XML解析器。

Beautiful Soup 3 目前已经停止开发，推荐现在的项目使用Beautiful Soup 4。使用 pip 安装即可：pip install beautifulsoup4

四大对象种类
Beautiful Soup将复杂HTML文档转换成一个复杂的树形结构,每个节点都是Python对象,所有对象可以归纳为4种:

Tag ：Tag 通俗点讲就是 HTML 中的一个个标签
NavigableString
BeautifulSoup：BeautifulSoup 对象表示的是一个文档的内容
Comment：Comment 对象是一个特殊类型的 NavigableString 对象，其输出的内容不包括注释符号。

遍历文档树

直接子节点：.contents .children 属性
所有子孙节点: .descendants 属性 .contents 和 .children 属性仅包含tag的直接子节点，.descendants 属性可以对所有tag的子孙节点进行递归循环，和 children类似，我们也需要遍历获取其中的内容。
节点内容: .string 属性如果tag只有一个 NavigableString 类型子节点,那么这个tag可以使用 .string 得到子节点。如果一个tag仅有一个子节点,那么这个tag也可以使用 .string 方法,输出结果与当前唯一子节点的 .string 结果相同。

小案例

# bs4_tencent.py


from bs4 import BeautifulSoup
import urllib
import json    # 使用了json格式存储

def tencent():
    url = 'http://hr.tencent.com/'
    request = urllib.request.Request(url + 'position.php?&start=10#a')
    response =urllib.request.urlopen(request)
    resHtml = response.read()

    output =open('tencent.json','w')

    html = BeautifulSoup(resHtml,'lxml')

# 创建CSS选择器
    result = html.select('tr[class="even"]')
    result2 = html.select('tr[class="odd"]')
    result += result2

    items = []
    for site in result:
        item = {}

        name = site.select('td a')[0].get_text()
        detailLink = site.select('td a')[0].attrs['href']
        catalog = site.select('td')[1].get_text()
        recruitNumber = site.select('td')[2].get_text()
        workLocation = site.select('td')[3].get_text()
        publishTime = site.select('td')[4].get_text()

        item['name'] = name
        item['detailLink'] = url + detailLink
        item['catalog'] = catalog
        item['recruitNumber'] = recruitNumber
        item['publishTime'] = publishTime

        items.append(item)

    # 禁用ascii编码，按utf-8编码
    line = json.dumps(items,ensure_ascii=False)

    output.write(line.encode('utf-8'))
    output.close()

if __name__ == "__main__":
    tencent()

urllib、xpath、bs4的语法和使用