智联招聘爬虫(简易版本……)

1.主要工具

——————————————————————————————————————
语言使用python3.来实现,主要使用的库(sqlite3、lxml、requests)

2.网页解析部分

——————————————————————————————————————
示例代码用来简单提取智联招聘中职位、公司以及薪资数据,如下图~

image.png
[链接][(https://sou.zhaopin.com/jobs/searchresult.ashx?jl=%E6%9D%AD%E5%B7%9E&kw=%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90&sm=0&p=1),由于时间不是很充裕,这篇文章中将略过文本爬取的介绍,本次示例使用lxml进行网页解析,不是很熟悉的同学可以去看看崔大大的教程,或者到lxml官网去看示例代码。

3.代码

—————————————————————————————————————

import requests 
from lxml import etree

#定义获得html并使用etree加工的函数
def get_html_page(url):
  r = requests.get(url)
  page = etree.HTML(r.text.encode('utf-8').decode('utf-8','ignore'))
  return page
#获得上图中职位信息的函数
def jobs(page):
  jobs_reg = u'//table[@cellpadding="0"]//a[@style="font-weight: bold"]'
  jobs_s = page.xpath(jobs_reg)
  s = [value.xpath('string()') for value in jobs_s]
  return s
#获得公司信息的函数
def companies(page):
  companies_reg = u'//table[@cellpadding="0"]//td[@class="gsmc"]'
  companies_s = page.xpath(companies_reg)
  s = [value.xpath('string()') for value in  companies_s]
  return s
#获得薪水信息的函数
def salary(page):
  salary_reg =u'//table[@cellpadding="0"]//tr/td[@class="zwyx"]' 
  salary_s = page.xpath(salary_reg)
  s = [value.xpath('string()') for value in salary_s ]
  return s

这一段代码主要用来实现网页数据获取以及提取目标数值,因为只是一个简单的示例,所以爬取网页部分不涉及请求分析、header构造以及有可能出现的乱码问题。OK,做一些简单的赋值之后,很容易拿到我们需要的三列数据(实际上是三个列表,ps:最初我尝试过直接使用s = [value.xpath('string()') for value in page.xpath(jobs_reg)]做列表生成式,但是最后得出s不是一个列表,而是一个func,不知是什么原因,希望大家帮忙解决一下)。

OK,拿到数据之后,下一步要进行存储的工作,最简单的方法是使用csv或者pandas这两个包生成CSV文件,进阶的存到数据库里面,这样你后期处理会方便很多,本次示例将使用sqlite3做数据存储。

import sqlite3

global conn
global cursor 
conn = sqlite3.connect('zhilian.db')
cursor = conn.cursor()           
cursor.execute('create table job (id integer PRIMARY KEY autoincrement, jobs varchar(20) ,company varchar(30),salary varchar(15) )')
#运行函数
url = 'https://sou.zhaopin.com/jobs/searchresult.ashx?jl=%E6%9D%AD%E5%B7%9E&kw=%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90&sm=0&p=1'   
page = get_html_page(url)

jobs = jobs(page) 
companies = companies(page)
salary = salary(page)
#数一下生成的列表有多少数
count_num = len(jobs)
#下边就开始保存到数据库 
global i
i = 0
for i in range(count_num):    
    sql = 'insert into job(id ,jobs,company,salary) values(?,?,?,?)'   
    cursor.execute(sql,(i,jobs[i],companies[i],salary[i]))
    i=i+1
conn.commit()

最后找个图形化的数据库处理软件(我用的是DB Browser for sqlite),查一下刚才保存成功的数据~


image.png

后续我会写一个复杂的版本———————待————————填——————————坑————————

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 1、通过CocoaPods安装项目名称项目信息 AFNetworking网络请求组件 FMDB本地数据库组件 SD...
    阳明AI阅读 16,032评论 3 119
  • 发现 关注 消息 iOS 第三方库、插件、知名博客总结 作者大灰狼的小绵羊哥哥关注 2017.06.26 09:4...
    肇东周阅读 12,296评论 4 61
  • 梦 睡意使我昏沉于你肩 无组织的梦言 有你牵手的勇敢 母性般的爱怜 看 你掀起波澜 惊觉了山的浩瀚 重重地压你我之...
    聲名水上書阅读 141评论 2 3
  • 注:详细内容请前往此处。Dingus 是一个网页应用程序,你可以把自已编写的 Markdown 文档转成 XHTM...
    Kevin_简书阅读 213评论 0 0
  • 毕竟是人生一大笔合同,需要不急不躁。多花点时间研究细节。比如中介提供的户型图尺寸对吗?车位比例对吗?周围的环境自己...
    苏那个世界阅读 152评论 0 0