登录注册写文章

Python爬虫第三天：正则复习及Xpath

Python爬虫第三天：正则复习及Xpath

内容简述:

一:正则

二:Xpath

一:正则复习

find、rfind、replace

字符串处理函数只能处理固定的字符串baby hello

不能处理一类字符串，通过正则表达式来进行处理

正则规则：

单字符：. [abc] \d \D \w \W \s \S

数量修饰：* + ? {m} {m,} {m,n}

边界修饰^ $ \b(词边界) \B（非词边界）

子模式 (.*)

贪婪模式

<div>呵呵<div>哈哈</div>嘿嘿</div>

'<div>.*</div>'

懒惰匹配 .*? .+?

修饰模式

re.S 单行模式 re.M 多行模式 re.I 忽略大小写

【正则复习示例】

【正则批量提取图片链接并下载示例-糗事百科图片】

https://www.qiushibaike.com/pic/page/

二:xpath(参考w3c)

【注】返回的是一个列表，列表中都是对象，记得通过下标进行筛选

什么是xml http://www.w3school.com.cn/xml/

什么是xpath

XPath使用路径表达式在 XML 文档中进行导航

// 从匹配选择的当前节点选择文档中的节点，而不考虑它们的位置

. 选取当前节点

@ 选取属性

打开谷歌浏览器，安装xpath插件，然后使用xpath插件按ctrl + shift + x

属性定位：根据属性查找标签

层级定位：一级一级查找

索引定位：【注】下标从1开始--网上html

查找id是maincontent的div下面的h1节点

//div[@id="maincontent"]/h1

//div[@class="head_wrapper"]/div[@id="u"]/a[1]

逻辑运算 //div[@id="head" and@class="s_down"]

模糊匹配

查找所有的div，id中有he的div

//div[contains(@id, "he")]

查找所有的div，id中以he开头的div

//div[starts-with(@id, "he")]

查找所有的div，id中以he结尾的div

//div[ends-with(@id, "he")]

取文本

//div[@class="head_wrapper"]/div[@id="u"]/a[1]/text()

//div[@class="head_wrapper"]/div[@id="u"]/a[1]

obj.text 将内容获取到

取属性

//div[@class="head_wrapper"]/div[@id="u"]/a[1]/@href

安装模块 lxml库

这个库是解析html的库，主要就是解析和提取数据

pip切换为国内源

http://www.jb51.net/article/98401.htm

pip3 install lxml 安装好

三:程序中使用xpath

from lxml import etree

d_etree = etree.parse('本地html')

d_etree = etree.HTML('网上html字符串(也可以是字节类型)')

d_etree.xpath('xpath路径') 返回的是一个列表

获取到节点对象之后obj obj.xpath('xpath路径')

示例:抓取站长素材部分高清图片

站长素材 http://sc.chinaz.com/

http://sc.chinaz.com/tag_tupian/OuMeiMeiNv.html

http://sc.chinaz.com/tag_tupian/OuMeiMeiNv_2.html

注意懒加载问题

四:作业

1-抓取糗事百科-文字【写入json文件中】

https://www.qiushibaike.com/text/

注意url的拼接和etree对象的另外用法和除去换行

2-XAPTH批量提取图片链接并下载示例-糗事百科图片】

https://www.qiushibaike.com/pic/page/

最后编辑于：2018.10.23 22:03:52

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

爬虫 xpath
一:回顾正则 find、rfind、replace 字符串处理函数只能处理固定的字符串baby hello 不能处...
仙灵儿阅读 3,297评论 0赞 1
python爬虫里信息提取的核心方法: Beautifulsoup Xpath 正则表达式
20170531 这几天重新拾起了爬虫，算起来有将近5个月不碰python爬虫了。对照着网上的程序和自己以前写的...
八神苍月阅读 14,807评论 3赞 44

python爬虫系列之 xpath：html解析神器
一、前言通过前面的文章，我们已经知道了如何获取网页和下载文件，但是前面我们获取的网页都是未经处理的，冗余的信息太...
渔父歌阅读 25,589评论 1赞 19
xpath用法
···lxml用法源自 lxml python 官方文档，更多内容请直接参阅官方文档，本文对其进行翻译与整理。lx...
小丰丰_72a2阅读 4,589评论 0赞 1
细数这些年闹的尴尬和笑话
假期就快结束了，上班的该准备准备进入状态了。顺便呢有什么不开心的事就说出来让我们大家跟着开心开心啊！现在火的都是...
清如徐阅读 2,299评论 0赞 3

赞1赞

赞赏

手机看全文