网页屏蔽,服务器屏蔽
模拟用户进行数据抓取
基于selenium库和selenium.webdriver
抓取数据和网络速度等有关
主要代码如下
import selenium #测试框架
import selennium.webdriver #模拟浏览器
import re
mystr = """<span class \"search_yx_t j\">
共<em>5830</em>个职位满足条件
<span>"""
restr = "<em>(\\d+)</em>"#d+表示和数字有关;():只要里面的对象
regex = re.compile(restr, re. IGNORECASE)
mylist = regex.findall(pagesource)
def getnumberbyname(searchname):
url = "https://sou.zhaopin.com/?jl=613&kw=" + searchname + "&kt=3"
driver = selenium.webdriver.Firefox() #调用火狐浏览器
driver.get(url) #访问链接
pagesource = driver.page_source #抓取网页源代码
driver.close()#关闭
return mylist[0]
# print getnumberbyname("python") 这是测试函数
pythonlist = ["python", "python 运维", "python 测试", "python 数据", "python web"]
for oystr in pythonlist:
print pystr, getnumberbyname(pystr)