爬虫实战1.3.7 页面解析-抓取猫眼电影排行(正则解析)

这篇还是继续我们的页面解析,如果承接前面几篇的话,大家可能会认为这次说的是pyquery,经我这一说就不是这样的了,今天介绍一个更加好用的一个库:requests-html

1.request-html介绍

首先先简单介绍一下,requests-html就是requests的作者开发的,将Requests、PyQuery、lxml、BeautifulSoup等库进行了二次封装,本身Requests库已经够简单、够强大了,requests-html又做了一次升级。。。他的强大可见一斑,遗憾的是只支持Python3.6以上版本。想要详细了解的可以去git或文档那看:
源码请看:github地址
中文文档:中文文档地址
重要的可以引用文档开始这几句话来表示:

全面支持解析JavaScript!
CSS 选择器 (jQuery风格, 感谢PyQuery).
XPath 选择器, for the faint at heart.
自定义user-agent (就像一个真正的web浏览器).
自动追踪重定向.
连接池与cookie持久化.
令人欣喜的请求体验,魔法般的解析页面.

2.request-html安装

安装的话使用pip即可

pip install requests-html

3.request-html应用

首先来做个对比:平常做的时候我们是先发出请求,然后再进行解析:

import requests
from pyquery import PyQuery as pq

#获取网页
html = requests.get()
#解析网页
doc = pq(html)

我们再看一下requests-html:

from requests_html import HTMLSession

session = HTMLSession()
html = session.get()

很明显的改变,requests-html将请求跟解析合并到一块了,一步到位。

下面我们还是以猫眼TOP100来看下requests-html的用法
发出请求,获取页面信息:

from requests_html import HTMLSession

session = HTMLSession()
req_html = session.get("https://maoyan.com/board/4")
print(req_html)

看下返回:

<Response [200]>
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

  • HTTP基本原理 URI、URL、URN(Uninform Resource) URI(Identifier):统...
    GHope阅读 2,251评论 2 26
  • 本文转载:静觅 » [Python3网络爬虫开发实战] 4.3-使用pyquery 如果你对Web有所涉及,如果你...
    罗汉堂主阅读 379评论 0 0
  • 基础知识 HTTP协议 我们浏览网页的浏览器和手机应用客户端与服务器通信几乎都是基于HTTP协议,而爬虫可以看作是...
    腩啵兔子阅读 1,636评论 0 17
  • 许三观卖血记[余华] 许三观一共卖了12次血,10次为了家人,1次为了结婚,最后一次为了自己,因为年迈体衰,没有人...
    木木_6088阅读 286评论 0 1
  • 我不爱你,就像我不爱阴雨绵绵的天气, 我不爱你,就像枫叶落去也带不走的思绪。 你不是我,怎会懂我内心的悲伤逆流成河...
    遇子期阅读 440评论 0 3

友情链接更多精彩内容