# 一、div标签文本提取#
# 将学习视频中xpath.html文件中div标签下文本值
# “第一个div” ,“第二个div” 使用xpath结构化提取并打印输出
from lxml import etree
fp=open(r'd:\xpath.html','r',encoding='utf-8')
html=fp.read()
fp.close()
#print(html)
selector=etree.HTML(html)
div=selector.xpath('//div')
print(div[0])
print(div[1])
#
# 二、ul标签文本提取
# 将xpath.html文件中ul标签下“流程” ,“xpath学习”,“流程2”文本值
# 使用xpath结构化提取并打印输出
#
uls=selector.xpath('//ul')
for ul in uls:
ultext=ul.xpath('text()')[0].split()[0]
print(ultext)
# 三、过滤标签
#
# 将xpath.html文件中的第一个div下的前3个a标签的文本及超链接
# 使用xpath结构化提取,打印输出
print('------------')
As =div[0].xpath('//a')
i=0
for a in As:
i=i+1
# print(a,type(a))
text=a.xpath('text()')[0]
url=a.xpath('@href')[0]
print(text,url)
if i>=3 :
break
# 四、requests模块和lxml&xpath结合提取数据
#
# 结合上节课requests模块知识,将阳光电影网导航栏的文本及超链接结构化提取
import requests
url='http://www.ygdy8.com/'
headers=''
req=requests.get(url)
# print(type(req))
ret=req.status_code
req.encoding='gb2312'
html=req.text
print(html)
selector=etree.HTML(html)
lias=selector.xpath('//li/a')
for lia in lias :
text=lia.xpath('text()')
href = lia.xpath('@href')
if len(text)>=1 :
print(text[0],href[0])
else:
print(' ',href[0])
【Python爬虫】第十四次 lxml以及xpath练习
最后编辑于 :
©著作权归作者所有,转载或内容合作请联系作者
- 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
- 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
- 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
推荐阅读更多精彩内容
- 一、lxml模块介绍及安装,Xpath语言了解1. lxml模块是python爬虫中的一个解析器,Xpath是一门...
- # 一、div标签文本提取 # 将学习视频中xpath.html文件中div标签下文本值 from lxml im...
- ~~为什么破坏规矩的往往是那些指定规矩的人~~ 规则的制定者往往是规则的最先破坏者。 这是我们身边普遍存在的一种不...