五、xpath – 实战–爬取瓜子二手车网站(1)
注意事项
1、headers
2、编码
示例代码:
import requests
froml xml import etree
headers
= {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36
(KHTML, like Gecko) Chrome/79.0.3945.79 Safari/537.36','Cookie': '略'}
# 获取详情页面url
def get_detail_urls(url): #定义函数,用来获取详情页面url
resp = requests.get(url, headers = headers)
text = resp.content.decode('utf-8')
html = etree.HTML(text)
ul = html.xpath('//ul[@class = "carlist clearfix js-top"]')[0]
# print(ul)
lis = ul.xpath('./li') # 当前节点下用 ./ 来解析
for li in lis:
detail_url = li.xpath('./a/@href')
detail_url = 'https://www.guazi.com' +detail_url[0] #观察详情页与获取数据的区别,需要拼接
print(detail_url)
# 第一个url
url ='https://www.guazi.com/cs/buy/o1'
# 获取详情页面url
get_detail_urls(url)
# 解析详情页面内容
# 保存数据
# 详情页url举例:
https://www.guazi.com/cs/5217eaea382dddc3x.htm#fr_page=list&fr_pos=city&fr_no=4
上一篇文章 第三章 数据解析(四) 2019-12-14 地址:
https://www.jianshu.com/p/a4bfb1d6c486
下一篇文章 第三章 数据解析(六) 2019-12-16 地址:
https://www.jianshu.com/p/88cb44054ec5
以上资料内容来源网络,仅供学习交流,侵删请私信我,谢谢。