【Python爬虫】xpath爬取豆瓣电影短评

XPath简介

一种XML路径语言(XML Path Language),它是一种用来确定XML文档中某部分位置的语言。

XPath基于XML的树状结构,提供在数据结构树中找寻节点的能力。起初XPath的提出的初衷是将其作为一个通用的、介于XPointer与XSL间的语法模型。但是XPath很快的被开发者采用来当作小型查询语言。

可以阅读该文档了解更多关于Xpath的知识。

Xpath解析网页的流程

  • 通过Requests库获取网页数据
  • 通过网页解析,得到想要的数据或者新的链接
  • 网页解析可以通过Xpath或者其它解析工具进行,Xpath在是一个非常好用的网页解析工具


    图片.png

Xpath的使用

1、从lxml导入etree
2、解析数据,返回xml结构
3、使用.xpath()寻找和定位数据

获取Xpath的方法

1、手写
适用情况:查看源代码发现网页结构非常清晰,比如豆瓣

  • 选择某个标签,使用 /,也可以多层查找,如/html/body/h2
  • 获取所有信息,使用 //,如//p,将p标签的所有信息都提取出来
  • 获取文本内容:text()
  • 获取注释:comment()
  • 获取其它任何属性:@xx,如:@href、@src、@title
图片.png
  • 获取某个标签下所有的文本(包括子标签下的文本),使用string
    如”< p>123< a>来获取我啊< /a>< /p>”,这边如果想要得到的文本为”123来获取我啊”,则需要使用string
  • starts-with 匹配字符串前面相等
  • contains 匹配任何位置相等://p[contains(@class,"comments")]text()

2、浏览器复制
对于结构复杂的网站可以直接右击内容---检查--源代码中右击--copy---copy Xpath

本文爬取电影【红海行动】的短评

图片.png

代码:

# -*- coding: utf-8 -*-
# __author__ = 'Carina'

import requests
from lxml import etree

url = "https://movie.douban.com/subject/26861685/comments"
r = requests.get(url).text
#print(r)
s = etree.HTML(r)
# 浏览器复制
print(s.xpath('//*[@id="comments"]/div[14]/div[2]/p/text()'))   # 评论
print(s.xpath('//*[@id="comments"]/div[14]/div[2]/p/a/img/@title'))
print(s.xpath('//*[@id="comments"]/div[14]/div[2]/p/a/img/@src'))
print(s.xpath('//*[@id="comments"]/div[14]/div[2]/p/a/@href'))   # 链接地址
# 手写xpath
i = 0
# while i <= len(comments):
#     print('第', i+1, '个短评:', s.xpath('//div[@class="comment"]   /p/text()')[i])
#     i += 1

for i in range(len(comments)):
   # print(i)
   print('第', i+1, '个短评:', s.xpath('//div[@class="comment"]/p/text()')[i])
   i += 1

总结:
1、批量注释代码快捷键Ctrl+/,也可以用一对3个单引号
2、range() 函数可以创建一个整数列表,一般用在 for 循环中,默认是从 0 开始,但不含end,例如:range(0, 5) 是[0, 1, 2, 3, 4]没有5
3、拷贝路径后 //*[@id="comments"]/div[14]/div[2]/p/a/img/@src,但这只是针对单条数据,如果想获取全部,把数字去掉即可,因为“[]”括号中的数字代表对应的第几条评论
//*[@id="comments"]/div/div/p/a/img/@src
4、div[14]等同于div[position() = 14]
5、基数行:div[position() mod2 =1,偶数行同理
6、最后一条:last()
7、获取2个数据:使用 |
//*[@id="comments"]/div[14]/div[2]/p/a/img/@src | //*[@id="comments"]/div[14]/div[2]/p/a/@href

运行结果如下:


运行结果.png

仔细观察结果发现好莱坞叙事那条是div[10],copy xpath时没有text,输出时直接是空了,内容到下一行去了,又回到评论页看3行数据信息,原来”比《战狼2》”那条数据是手机评论
查看手机图标的xpath://*[@id="comments"]/div[9]/div[2]/p/a/img,是包含在p里面的,因此需要对xpath进行过滤

每页评论总数即为comment中的p值长度:
//*[@id="comments"]/div/div[@class="comment"]/p

image.png

待处理问题:

1、若爬取全部评论,思考如何结束循环,有2条思路,但还不知道怎么写代码
(1)找到后页按钮不能点击时,当前页的最后一条评论


image.png

(2)回到电影页面,查看全部评论的数字

2、怎么剔除手机评论输出的空值,数据显示顺序错乱

全部评论.png

观察URL每页评论是显示20个,通过start来实现,于是对URL设置参数访问,在这里指定访问20页,但实际输出只有11页,直接修改网址将start修改为240(12页)提示【你没有权限访问这个页面。】,可能是我没有注册账号的关系吧。

图片.png

代码如下:

j = 0
i = 0
while j < 20:
    url = "https://movie.douban.com/subject/26861685/comments?start=" + str(j * 20)
    r = requests.get(url).text
    s = etree.HTML(r)
    # 手写xpath
    comments = s.xpath('//*[@id="comments"]/div/div[@class="comment"]/p')
    for i in range(len(comments)):
    print('第', j+1, '页', '第', i+1, '个短评:', s.xpath('//div[@class="comment"]/p/text()')[i])
        i += 1
    j += 1


遇到的问题:

1、报错信息:ValueError: can only parse strings,原因没有获取文本内容,
改成s = etree.HTML(r.text) 或者 r = requests.get(url).text

r = requests.get(url)
s = etree.HTML(r)

2、报错信息:requests.exceptions.SSLError: HTTPSConnectionPool(host='movie.douban.com', port=443): Max retries exceeded with url: /subject/26861685/comments?start=0 (Caused by SSLError(SSLError(1, '[SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed (_ssl.c:645)'),))

一开始还以为是爬的太频繁了,加了headers也没用,后来用百度试了下,提示变的很明确,原来是开了Fiddler,设了代理的缘故


image.png
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,723评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,003评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,512评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,825评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,874评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,841评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,812评论 3 416
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,582评论 0 271
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,033评论 1 308
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,309评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,450评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,158评论 5 341
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,789评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,409评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,609评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,440评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,357评论 2 352

推荐阅读更多精彩内容