XPath简介
一种XML路径语言(XML Path Language),它是一种用来确定XML文档中某部分位置的语言。
XPath基于XML的树状结构,提供在数据结构树中找寻节点的能力。起初XPath的提出的初衷是将其作为一个通用的、介于XPointer与XSL间的语法模型。但是XPath很快的被开发者采用来当作小型查询语言。
可以阅读该文档了解更多关于Xpath的知识。
Xpath解析网页的流程
- 通过Requests库获取网页数据
- 通过网页解析,得到想要的数据或者新的链接
-
网页解析可以通过Xpath或者其它解析工具进行,Xpath在是一个非常好用的网页解析工具
Xpath的使用
1、从lxml导入etree
2、解析数据,返回xml结构
3、使用.xpath()寻找和定位数据
获取Xpath的方法
1、手写
适用情况:查看源代码发现网页结构非常清晰,比如豆瓣
- 选择某个标签,使用 /,也可以多层查找,如/html/body/h2
- 获取所有信息,使用 //,如//p,将p标签的所有信息都提取出来
- 获取文本内容:text()
- 获取注释:comment()
- 获取其它任何属性:@xx,如:@href、@src、@title
- 获取某个标签下所有的文本(包括子标签下的文本),使用string
如”< p>123< a>来获取我啊< /a>< /p>”,这边如果想要得到的文本为”123来获取我啊”,则需要使用string - starts-with 匹配字符串前面相等
- contains 匹配任何位置相等://p[contains(@class,"comments")]text()
2、浏览器复制
对于结构复杂的网站可以直接右击内容---检查--源代码中右击--copy---copy Xpath
本文爬取电影【红海行动】的短评
代码:
# -*- coding: utf-8 -*-
# __author__ = 'Carina'
import requests
from lxml import etree
url = "https://movie.douban.com/subject/26861685/comments"
r = requests.get(url).text
#print(r)
s = etree.HTML(r)
# 浏览器复制
print(s.xpath('//*[@id="comments"]/div[14]/div[2]/p/text()')) # 评论
print(s.xpath('//*[@id="comments"]/div[14]/div[2]/p/a/img/@title'))
print(s.xpath('//*[@id="comments"]/div[14]/div[2]/p/a/img/@src'))
print(s.xpath('//*[@id="comments"]/div[14]/div[2]/p/a/@href')) # 链接地址
# 手写xpath
i = 0
# while i <= len(comments):
# print('第', i+1, '个短评:', s.xpath('//div[@class="comment"] /p/text()')[i])
# i += 1
for i in range(len(comments)):
# print(i)
print('第', i+1, '个短评:', s.xpath('//div[@class="comment"]/p/text()')[i])
i += 1
总结:
1、批量注释代码快捷键Ctrl+/,也可以用一对3个单引号
2、range() 函数可以创建一个整数列表,一般用在 for 循环中,默认是从 0 开始,但不含end,例如:range(0, 5) 是[0, 1, 2, 3, 4]没有5
3、拷贝路径后 //*[@id="comments"]/div[14]/div[2]/p/a/img/@src,但这只是针对单条数据,如果想获取全部,把数字去掉即可,因为“[]”括号中的数字代表对应的第几条评论
//*[@id="comments"]/div/div/p/a/img/@src
4、div[14]等同于div[position() = 14]
5、基数行:div[position() mod2 =1,偶数行同理
6、最后一条:last()
7、获取2个数据:使用 |
//*[@id="comments"]/div[14]/div[2]/p/a/img/@src | //*[@id="comments"]/div[14]/div[2]/p/a/@href
运行结果如下:
仔细观察结果发现好莱坞叙事那条是div[10],copy xpath时没有text,输出时直接是空了,内容到下一行去了,又回到评论页看3行数据信息,原来”比《战狼2》”那条数据是手机评论
查看手机图标的xpath://*[@id="comments"]/div[9]/div[2]/p/a/img,是包含在p里面的,因此需要对xpath进行过滤
每页评论总数即为comment中的p值长度:
//*[@id="comments"]/div/div[@class="comment"]/p
待处理问题:
1、若爬取全部评论,思考如何结束循环,有2条思路,但还不知道怎么写代码
(1)找到后页按钮不能点击时,当前页的最后一条评论
(2)回到电影页面,查看全部评论的数字
2、怎么剔除手机评论输出的空值,数据显示顺序错乱
观察URL每页评论是显示20个,通过start来实现,于是对URL设置参数访问,在这里指定访问20页,但实际输出只有11页,直接修改网址将start修改为240(12页)提示【你没有权限访问这个页面。】,可能是我没有注册账号的关系吧。
代码如下:
j = 0
i = 0
while j < 20:
url = "https://movie.douban.com/subject/26861685/comments?start=" + str(j * 20)
r = requests.get(url).text
s = etree.HTML(r)
# 手写xpath
comments = s.xpath('//*[@id="comments"]/div/div[@class="comment"]/p')
for i in range(len(comments)):
print('第', j+1, '页', '第', i+1, '个短评:', s.xpath('//div[@class="comment"]/p/text()')[i])
i += 1
j += 1
遇到的问题:
1、报错信息:ValueError: can only parse strings,原因没有获取文本内容,
改成s = etree.HTML(r.text) 或者 r = requests.get(url).text
r = requests.get(url)
s = etree.HTML(r)
2、报错信息:requests.exceptions.SSLError: HTTPSConnectionPool(host='movie.douban.com', port=443): Max retries exceeded with url: /subject/26861685/comments?start=0 (Caused by SSLError(SSLError(1, '[SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed (_ssl.c:645)'),))
一开始还以为是爬的太频繁了,加了headers也没用,后来用百度试了下,提示变的很明确,原来是开了Fiddler,设了代理的缘故