登录注册写文章

陕西省公务员考试时间查询

陕西省公务员考试时间查询

目的

在整个疫情期间，公务员的招生也被推迟了，因为陕西省的招生网址很复杂，自己写个爬虫实时获取信息很方便

网址

陕西人事考试网

操作步骤

1.利用requests库进行请求
2.利用lxml或者bs4或者正则进行信息提取
3.写成程序

程序代码：

首先导入requests, lxml, bs4的库函数

import requests
from lxml import etree
from bs4 import BeautifulSoup

进行请求并且添加headers

url = 'http://www.sxrsks.cn/website/bm_index.aspx'
headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 +'
                      '(KHTML, like Gecko) Chrome/80.0.3987.163 +'
                      'Safari/537.36 Edg/80.0.361.111'
}

html = requests.get(url, headers=headers)
res = etree.HTML(html.text)

利用lxml进行筛选

res = etree.HTML(html.text)
for result in res.xpath('//div[@ class="er_right right"]/div[@class="ksgg_list list_box"]/ul/li'):
    print(result.xpath('.//span/text()'))
    print(result.xpath('.//a/text()'))

运行结果

image.png

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

相关阅读更多精彩内容

urllib、request、正则、xpath、bs4
发起请求url:设置目标urldata=None:默认为None，标识发起的是一个get请求，反之，不为None，...
isMyNickName阅读 3,882评论 0赞 0
urllib、request、正则、xpath、bs4
文件读写模式： r:打开一个文件，只有可读权限rb:以二进制的形式打开一个文件，有可读权限r+:打开一个文件，有读...
crx彭彭阅读 3,362评论 0赞 1

Python网络爬虫（五）- Requests和Beautiful Soup
目录： Python网络爬虫（一）- 入门基础Python网络爬虫（二）- urllib爬虫案例Python网络爬...
一只写程序的猿阅读 14,445评论 17赞 68
python django开发教程 & 机器学习
title: python语法练习参考阮一峰等多个文件用来练习python基本语法 [TOC] import文件...
采香行处蹙连钱阅读 7,148评论 0赞 2
Python 爬虫基础
网络参数 1.header下（1）user-agent：这个是爬虫header里可以说必须的东西，基本网站肯定第一...
dawsonenjoy阅读 4,535评论 0赞 4

友情链接更多精彩内容

2赞3赞

1赞赏

手机看全文