抓取智联招聘

网页屏蔽,服务器屏蔽

模拟用户进行数据抓取

基于selenium库和selenium.webdriver

抓取数据和网络速度等有关

视频链接 https://www.bilibili.com/video/av31369828/?p=6

主要代码如下

import selenium #测试框架
import selennium.webdriver #模拟浏览器
import re

mystr = """<span class \"search_yx_t j\">
  共<em>5830</em>个职位满足条件
  <span>"""

restr = "<em>(\\d+)</em>"#d+表示和数字有关;():只要里面的对象
regex = re.compile(restr, re. IGNORECASE)
mylist = regex.findall(pagesource)
def getnumberbyname(searchname):
  url = "https://sou.zhaopin.com/?jl=613&kw=" + searchname + "&kt=3"
  driver = selenium.webdriver.Firefox() #调用火狐浏览器
  driver.get(url) #访问链接
  pagesource = driver.page_source #抓取网页源代码
  driver.close()#关闭
  return mylist[0]

# print getnumberbyname("python") 这是测试函数

pythonlist = ["python", "python 运维", "python 测试", "python 数据", "python web"]
for oystr in pythonlist:
  print pystr, getnumberbyname(pystr)
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 今年一月份,央行发布公示,宣布受理了百行征信有限公司(筹)的个人征信业务申请。根据央行公布的信息,信联取名为"百行...
    Lighthouse_七七阅读 675评论 0 0
  • 感赏给狗狗洗澡,看着它洗的干净感觉好好,和它在一起,真的好幸福,感赏,谢谢,谢谢 感赏妈妈买了一大篮苹果,好感谢宇...
    丽清笑阅读 216评论 1 1
  • 首先要认清自己的思维模式(认识自己),哪些环节是低效的?这些低效的环节,哪些要弥补内心(做事),哪些要修正习惯(要...
    祀laker阅读 471评论 2 0
  • 姓名:于幸欣 公司:扬州市方圆建筑工程有限公司 【日精进打卡第179天】 【知~学习】 《六项精进》5遍共705遍...
    幸欣阅读 77评论 0 0