目的
在整个疫情期间,公务员的招生也被推迟了,因为陕西省的招生网址很复杂,自己写个爬虫实时获取信息很方便
网址
操作步骤
1.利用requests库进行请求
2.利用lxml或者bs4或者正则进行信息提取
3.写成程序
程序代码:
- 首先导入requests, lxml, bs4的库函数
import requests
from lxml import etree
from bs4 import BeautifulSoup
- 进行请求并且添加headers
url = 'http://www.sxrsks.cn/website/bm_index.aspx'
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 +'
'(KHTML, like Gecko) Chrome/80.0.3987.163 +'
'Safari/537.36 Edg/80.0.361.111'
}
html = requests.get(url, headers=headers)
res = etree.HTML(html.text)
- 利用lxml进行筛选
res = etree.HTML(html.text)
for result in res.xpath('//div[@ class="er_right right"]/div[@class="ksgg_list list_box"]/ul/li'):
print(result.xpath('.//span/text()'))
print(result.xpath('.//a/text()'))
-
运行结果
image.png
