05 页面解析
一、BeautifulSoup
BeautifulSoup 是一个可以从HTML或XML文件中提取数据的Python库,它的使用方式相对于正则来说更加的简单方便,常常能够节省我们大量的时间。
官方中文文档的:https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html
BeautifulSoup的安装也是非常方便的,pip安装即可。
pip install beautifulsoup4
1、简单例子
# 实例BeautifulSoup对象
soup = BeautifulSoup(html_doc,'lxml')
print(soup.title) # 获取title标签
print(soup.title.name) # 获取title标签的标签名
print(soup.title.string) # 获取title标签的文字内容
print(soup.title.parent.name) # 获取title标签父标签的标签名
print(soup.a) # 获取第一个a标签 # <a href="homepage.html">首页</a>
print(soup.a.attrs) # 获取属性 {'href': 'homepage.html'}
print(soup.a.string) # 首页
print(soup.p['class'])
print(soup.find_all('a')) # 获取所有的a标签
print(soup.find(id='link3')) # 获取id为link3的标签
print(type(soup)) # <class 'bs4.BeautifulSoup'>
print(soup.name) # [document]
print(soup.attrs) # {}
print(soup.li) # <li><a href="homepage.html"><!--首页--></a></li>
print(soup.li.string) # 首页
2、指定解析器
BeautifulSoup解析网页需要指定一个可用的解析器,以下是主要几种解析器:
由于这个解析的过程在大规模的爬取中是会影响到整个爬虫系统的速度的,所以推荐使用的是lxml,速度会快很多,而lxml需要单独安装:
pip install lxml
soup = BeautifulSoup(html_doc, 'lxml') # 指定
提示:如果一段HTML或XML文档格式不正确的话,那么在不同的解析器中返回的结果可能是不一样的,所以要指定某一个解析器。
3、节点对象
5、Tag与遍历文档树
tag对象可以说是BeautifulSoup中最为重要的对象,通过BeautifulSoup来提取数据基本都围绕着这个对象来进行操作。
首先,一个节点中是可以包含多个子节点和多个字符串的。例如html节点中包含着head和body节点。所以BeautifulSoup就可以将一个HTML的网页用这样一层层嵌套的节点来进行表示。
6、find_all()
上方这种直接通过属性来进行访问属性的方法,很多时候只能适用于比较简单的一些场景,所以BeautifulSoup还提供了搜索整个文档树的方法find_all()。
通过name搜索,find_all('b')可以直接查找出整个文档树中所有的b标签,并返回列表
通过属性搜索,我们在搜索的时候一般只有标签名是不够的,因为可能同名的标签很多,那么这时候我们就要通过标签的属性来进行搜索。这时候我们可以通过传递给attrs一个字典参数来搜索属性。
soup.find_all(attrs={'class': 'sister'})
通过文本搜索,在find_all()方法中,还可以根据文本内容来进行搜索。soup.find_all(text="Elsie")
限制查找范围为子节点
find_all()方法会默认的去所有的子孙节点中搜索,而如果将recursive参数设置为False,则可以将搜索范围限制在直接子节点中。 soup.html.find_all("title", recursive=False)
通过正则表达式来筛选查找结果在BeautifulSoup中,也是可以与re模块进行相互配合的,将re.compile编译的对象传入find_all()方法,即可通过正则来进行搜索。
tags = soup.find_all(re.compile("^b"))
7、css选择器查找
在BeautifulSoup中,同样也支持使用CSS选择器来进行搜索。使用select(),在其中传入字符串参数,就可以使用CSS选择器的语法来找到tag。
print(soup.select('.top .menu'))
# [<ul class="menu">
# <li><a href="homepage.html"><!--首页--></a></li>
# <li><a href="online.html">在线课堂</a></li>
# <li><a href="consult.html">付费咨询</a></li>
# <li><a href="search.html">搜索</a></li>
# </ul>]
二、xpath
XPath 是一门在 XML 文档中查找信息的语言。XPath 可用来在 XML 文档中对元素和属性进行遍历。
相比于BeautifulSoup,Xpath在提取数据时会更有效率。
在python中很多库都提供XPath的功能,但是最流行的还是lxml这个库,效率最高。在之前BeautifulSoup中我们也介绍了lxml是如何安装的。
pip install lxml
1、语法
XPath 使用路径表达式在 XML/HTML 文档中选取节点。节点是通过沿着路径或者 step 来选取的。
nodename 选取当前节点的所有nodename子节点
/ 从根节点选取
// 从匹配选择的当前节点选择文档中的节点,而不考虑它们的位置。
. 选取当前节点
.. 选取当前节点的父节点
@ 选取属性
例子
//bookstore/book[1] 选取属于 bookstore 子元素的第一个 book 元素。
//bookstore/book[last()] 选取属于 bookstore 子元素的最后一个 book 元素。
//bookstore/book[last()-1] 选取属于 bookstore 子元素的倒数第二个 book 元素。
//bookstore/book[position()<3] 选取最前面的两个属于 bookstore 元素的子元素的 book 元素。
//title[@lang] 选取所有拥有名为 lang 的属性的 title 元素。
//title[@lang='eng'] 选取所有 title 元素,且这些元素拥有值为 eng 的 lang 属性。
//bookstore/book[price>35.00] 选取 bookstore 元素的所有 book 元素,且其中的 price 元素的值须大于 35.00。
//bookstore/book[price>35.00]/title 选取 bookstore 元素中的 book 元素的所有 title 元素,且其中的 price 元素的值须大于 35.00。
- 匹配任何元素节点 //bookstore/* 选取bookstore元素的所有子元素。
- 匹配任何属性节点 //* 选取文档中国的所有元素
de() 匹配任何类型的节点 //title[@*] 选取所有带有属性的title元素
- 匹配任何属性节点 //* 选取文档中国的所有元素
选取多个路径
通过在路径表达式中使用"|"运算符,您可以选取若干个路径。
在下面的表格中,我们列出了一些路径表达式,以及这些表达式的结果:
//book/title | //book/price 选取book元素的所有title和price元素
//title | //price 选取文档中所有的title和price元素
//bookstore/book/title | //price 选取bookstore元素的book元素的所有title元素,以及文档中所有的price元素
用text()获取某个节点下的文本
用string()获取某个节点下所有的文本
2、例子
from lxml import etree
import requests
# 获取网页源代码
resp = requests.get('http://www.baidu.com').content.decode()
# 实例化
selector = etree.HTML(resp)
print(selector.xpath('//div[@id="u1"]/a[@class="mnav"]/@href'))
print(selector.xpath('//div[@id="u1"]/a[@class="mnav"]/text()')) # ['新闻', 'hao123', '地图', '视频', '贴吧']
print(selector.xpath('//a/text()'))
# 模糊匹配 匹配 id中含有“a“的标签
print(selector.xpath('//div[contains(@id,"a")]'))
print(selector.xpath('//a[1]/text()'))