[Python]爬虫抓取大数据职位数据

《纽约时报》2012年2月的一篇专栏中所称,“大数据”时代已经降临,在商业、经济及其他领域中,决策将日益基于数据和分析而作出,而并非基于经验和直觉。随大数据时代一起来来临的,是越来越多的大数据工作岗位。在此,我们利用Python编程,抓取智联招聘、51job等网站上面有关大数据的工作岗位数据。

爬虫基础知识

数据来源

网络爬虫的数据一般都来自服务器的响应结果,通常有html和json数据等,这两种数据也是网络爬虫的主要数据来源。
其中html数据是网页的源代码,通过浏览器-查看源代码可以直接查看,例如:

简书主页部分源码示例

json是一种数据存储格式,往往包含了最原始的数据内容,一般不直接显示在网页中,这里我们可以通过Chrome浏览器-开发者工具中的Network选项捕获到服务器返回的json数据,例如:

简书首页json数据示例

数据请求

数据请求的方式一般有两种:GET方法和POST方法。我们也可以通过Chrome浏览器来捕获我们访问一个浏览器时的所有请求。这里以简书主页为例,打开Chrome浏览器开发者工具(F12),切换到Network选项,在地址栏输入http://www.jianshu.com/, 选择XHR类型,可以看到一条请求的内容,打开Headers,在General中可以看到请求方式为GET方式,
其中的Request Headers便是我们访问这个网页时的请求数据,如下图。

Request Headers

这个Headers可以用Python中的字典来表示,包含了用户请求的一些信息,例如编码、语言、用户登陆信息、浏览器信息等。
下面还有一个Query String Parameters,这里面包含了用户请求的一些参数,也是请求数据的一部分。

  • 利用requests库请求数据
    利用Python构建数据请求的方式有很多,在python3中,主要有urllib和requests两个类库可以实现该功能。urllib是官方标准库,其官方文档传送门。这里我们主要介绍第三方库requests,它是基于urllib编写的,比urllib用起来更加便捷,可以节约时间。
    requests安装方法:
$  pip install requests

利用requests构建数据请求主要方式:

import requests
req = request.get(url)

或者

import requests
req = requests.post(url)

其中,get()与post()中都可以添加headers、params等参数,以字典的形式传递即可。一般来说,简单的网页通过传入url数据即可成功请求数据。不过一些网站采用了反爬虫机制,需要我们传入headers及params等参数,以模拟浏览器访问、用户登陆等行为,才可以正常请求数据。

  • 利用webdriver请求数据
    webdriver是一个用来进行复杂重复的web自动化测试的工具,能够使用chrome、firefox、IE浏览器进行web测试,可以模拟用户点击链接,填写表单,点击按钮等。因此,相对于requests库来说,webdriver在模拟浏览器鼠标点击滑动等事件上有着天然的优势,并且真实模拟了浏览器的操作,不易被反爬虫机制发现,因此是一个很好用的爬虫工具。当然,其缺点在于速度较慢,效率不高。
    webdriver安装:
$ pip install selnium

除了安装selnium库,webdriver的运行还需要进行浏览器驱动的配置。Chrome、火狐和IE浏览器都有其配置方式,具体方法查看链接http://blog.163.com/yang_jianli/blog/static/1619900062014102833427464/
这里我们以IE浏览器为例,做一个简单的示范:

from selenium import webdriver
import os
iedriver = "IEDriverServer.exe"
os.environ["webdriver.ie.driver"] = iedriver
driver = webdriver.Ie(iedriver)

如此,IE浏览器配置完毕,其中"IEDriverServer.exe"是IE浏览器驱动的存储路径。
于是,我们我们访问简书网主页数据只一步:

driver.get(http://www.jianshu.com/)

数据解析

使用requests请求下来的数据,可以利用.text()方法或者.content()方法访问,对于文本请求,二者并无太大差别,主要在于编码问题。具体用法可以参考官方文档,这里不再赘述。使用webdriver请求下来的数据可以用.page_source属性获取。请求下来的数据一般包含了大量的网页源代码,如何将其解析以提取出我们想要的内容呢?

  • html类型数据解析
    html语言即超文本标记语言,它是由一个个html标签构成的,是结构化的语言,因此很容易从中匹配提取信息。这种类型的数据解析的方法有很多,比如利用正则表达式,按照html标签的结构进行字符串匹配,或则利用lxml库中的xpath方法使用xpath路径定位到每一个节点、也有类似jQuery的PyQuery方法。这里我们主要介绍BeautifulSoup方法。
    Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间。该介绍来源于其官方中文文档,传送门。利用BeautifulSoup我们能够将html字符串转化为树状结构,并非常快速地定位到每一个标签。
    目前版本是BeautifulSoup4,pip安装方法:
$ pip install BeautifulSoup4

或者,下载bs4的源码,然后解压并运行:

$ python setup.py install 

利用BeautifulSoup解析html数据的关键步骤为:

from bs4 import BeautifulSoup
soup = BeautifulSoup(req.contents, "html.parser")

如果采用webdriver请求数据,那么则是:

from bs4 import BeautifulSoup
soup = BeautifulSoup(driver.page_source, "html.parser")

如此,便将html数据转换成BeautifulSoup中的树状结构。然后利用BeautifulSoup中的find()、find_all()等方法即可定位到每一个节点。详情请参阅官方文档。

  • json类型数据解析
    json类型的数据已经是高度结构化的数据,跟Python中字典的表示形式一样,因此在解析上十分方便。我们可以通过:
import json
data = json.loads(req.text)

直接读取json数据,且能够返回字典类型。

大数据职位数据爬虫实战

这里我们以51job网站为例,构建大数据相关职位的数据爬虫。其中搜索关键词为:

数据科学家
数据分析师
数据架构师
数据工程师
统计学家
数据库管理员
业务数据分析师
数据产品经理
  • 网页分析
    打开51job首页http://www.51job.com/, 在搜索框中输入“数据科学家”,将搜索框中的地区点开,去掉当前勾选的城市,即默认在全国范围搜索。点击“搜索”按钮,得到搜索结果。这时我们将网址栏URL复制出来:
 http://search.51job.com/list/000000,000000,0000,00,9,99,
%25E6%2595%25B0%25E6%258D%25AE%25E7%25A7%2591%25E5%25AD%25A6%25E5%25AE%25B6,
2,1.html?lang=c&stype=&postchannel=0000&workyear=99&cotype=99&degreefrom=99
&jobterm=99&companysize=99&providesalary=99&lonlat=0%2C0&radius=-1&ord_field=0
&confirmdate=9&fromType=&dibiaoid=0&address=&line=&specialarea=00&from=&welfare=

结果不止一页,点击第二页,同样将URL复制出来:

http://search.51job.com/list/000000,000000,0000,00,9,99,
%25E6%2595%25B0%25E6%258D%25AE%25E7%25A7%2591%25E5%25AD%25A6%25E5%25AE%25B6,
2,2.html?lang=c&stype=1&postchannel=0000&workyear=99&cotype=99&degreefrom=99
&jobterm=99&companysize=99&lonlat=0%2C0&radius=-1&ord_field=0
&confirmdate=9&fromType=&dibiaoid=0&address=&line=&specialarea=00&from=&welfare=

很容易发现,这两段url唯一的不同在于".html"前面的数字1和2,因此它代表了页码。其中:

%25E6%2595%25B0%25E6%258D%25AE%25E7%25A7%2591%25E5%25AD%25A6%25E5%25AE%25B6

是一种URL编码,翻译成中文就是“数据科学家”,转换方式可以使用urllib库中的quote()方法:

import urllib.quote
keyword = '数据科学家'
url = quote(keyword)

我们可以通过第一次的搜索结果获取页码数:

def GetPages(keyword):
    keyword = quote(keyword, safe='/:?=')
    url = 'http://search.51job.com/jobsearch/search_result.php?fromJs=1&jobarea=000000%2C00&district=000000&funtype=0000&industrytype=00&issuedate=9&providesalary=99&keyword='+keyword + \
      '&keywordtype=2&curr_page=1&lang=c&stype=1&postchannel=0000&workyear=99&cotype=99&degreefrom=99&jobterm=99&companysize=99&lonlat=0%2C0&radius=-1&ord_field=0&list_type=0&fromType=14&dibiaoid=0&confirmdate=9'
    html = requests.get(url)
    soup = BeautifulSoup(html.content, "html.parser")
    span = soup.find('div', class_='p_in').find('span', class_='td')
    page_num = span.get_text().replace('共', '').replace('页,到第', '')
    return page_num

由此,便可实现针对特定关键词的所有搜索结果的页面的遍历。

  • URL列表构建
    打开搜索结果页面,我们会发现,点击职位名称可以链接到每个职位的详情页面,也正是我们所需要的数据源。因此,我们只需要获取所有的搜索结果中的职位名称的超链接地址,便可以遍历所有职位的详细数据:
def GetUrls(keyword, page_num):
    keyword = quote(keyword, safe='/:?=')
    urls = []
    p = page_num+1
    for i in range(1, p):
        url = 'http://search.51job.com/jobsearch/search_result.php?fromJs=1&jobarea=000000%2C00&district=000000&funtype=0000&industrytype=00&issuedate=9&providesalary=99&keyword='+keyword + \
            '&keywordtype=2&curr_page=' + \
            str(i) + \
            '&lang=c&stype=1&postchannel=0000&workyear=99&cotype=99&degreefrom=99&jobterm=99&companysize=99&lonlat=0%2C0&radius=-1&ord_field=0&list_type=0&dibiaoid=0&confirmdate=9'
        html = requests.get(url)
        soup = BeautifulSoup(html.content, "html.parser")
        ps = soup.find_all('p', class_='t1')
        for p in ps:
            a = p.find('a')
            urls.append(str(a['href']))
        s = random.randint(5, 30)
        print(str(i)+'page done,'+str(s)+'s later')
        time.sleep(s)
    return urls
  • 数据请求构建
    在获取了所有的职位数据的url之后,我们使用requests访问这些url发现,并不能顺利获取数据。因此,可以考虑在请求中加入headers数据,其中包含cookie和User_Agent:
User_Agent = 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36'
cookie = 'guid=14842945278988500031; slife=indexguide%3D1'
headers = {'User-Agent': User_Agent, 'cookie': cookie}

这样,可以成功请求每个职位的详情页面数据:

  • 数据解析
    数据解析首先是明确数据需求,这里我们将数据尽可能多的抓取下来。
    以职位要求一栏为例,我们通过访问多个页面对比发现,这一栏可能显示的要求个数不一样:

这里包括了经验、学历、招聘人数和发布时间

而这里则没有对于经验的要求。
利用浏览器开发者选项功能,查看这一栏的源码:


这里职位的要求都放在一个class="sp4"的span中,通过查找功能可以发现没有其他的class="sp4"的标签,所以我们利用find_all()方法可以轻松定位到这些职位要求数据。

通过比较可以发现这最多的要求个数为4,所以在个数不确定的情况下,可以先新建一个包含四个空字符串元素的新数组,将所有的要求个数填入该数组,这样可以保证不同网页的数据都能获取完整。

spans = soup.find_all('span', class_='sp4')
num = len(spans)
nav = ['', '', '', '']
for i in range(0, num-1):
    nav[i] = spans[i].get_text().strip()

完整代码如下:

# -*- coding: utf-8 -*-
from urllib.parse import quote
import requests
from bs4 import BeautifulSoup
import time
import random


def GetPages(keyword):
    keyword = quote(keyword, safe='/:?=')
    url = 'http://search.51job.com/jobsearch/search_result.php?fromJs=1&jobarea=000000%2C00&district=000000&funtype=0000&industrytype=00&issuedate=9&providesalary=99&keyword='+keyword + \
        '&keywordtype=2&curr_page=1&lang=c&stype=1&postchannel=0000&workyear=99&cotype=99&degreefrom=99&jobterm=99&companysize=99&lonlat=0%2C0&radius=-1&ord_field=0&list_type=0&fromType=14&dibiaoid=0&confirmdate=9'
    html = requests.get(url)
    soup = BeautifulSoup(html.content, "html.parser")
    span = soup.find('div', class_='p_in').find('span', class_='td')
    page_num = span.get_text().replace('共', '').replace('页,到第', '')
    return page_num


def GetUrls(keyword, page_num):
    keyword = quote(keyword, safe='/:?=')
    urls = []
    p = page_num+1
    for i in range(1, p):
        url = 'http://search.51job.com/jobsearch/search_result.php?fromJs=1&jobarea=000000%2C00&district=000000&funtype=0000&industrytype=00&issuedate=9&providesalary=99&keyword='+keyword + \
            '&keywordtype=2&curr_page=' + \
            str(i) + \
            '&lang=c&stype=1&postchannel=0000&workyear=99&cotype=99&degreefrom=99&jobterm=99&companysize=99&lonlat=0%2C0&radius=-1&ord_field=0&list_type=0&dibiaoid=0&confirmdate=9'
        html = requests.get(url)
        soup = BeautifulSoup(html.content, "html.parser")
        ps = soup.find_all('p', class_='t1')
        for p in ps:
            a = p.find('a')
            urls.append(str(a['href']))
        s = random.randint(5, 30)
        print(str(i)+'page done,'+str(s)+'s later')
        time.sleep(s)
    return urls


def GetContent(url, headers):
    html = requests.get(url, headers=headers)
    soup = BeautifulSoup(html.content, "html.parser")
    PositionTitle = str(soup.find('h1')['title'])
    Location = soup.find('span', class_='lname').string
    Salary = soup.find('strong').string
    CompanyName = soup.find('p', class_='cname').get_text().strip()
    CompanyType = soup.find(
        'p', class_='msg ltype').get_text().strip().replace(' ', '').replace('  ', '').replace('  ', '').replace('  ', '')
    spans = soup.find_all('span', class_='sp4')
    num = len(spans)
    nav = ['', '', '', '']
    for i in range(0, num-1):
        nav[i] = spans[i].get_text().strip()
    Exp = nav[0]
    Degree = nav[1]
    RecruitNum = nav[2]
    PostTime = nav[3]
    Welfare = soup.find('p', class_='t2')
    if str(type(Welfare)) == "<class 'NoneType'>":
        Welfare = ''
    else:
        Welfare = Welfare.get_text().strip().replace('\n', '|')
    PositionInfo = soup.find(
        'div', class_='bmsg job_msg inbox').get_text().strip().replace('\n', '').replace('分享', '').replace('举报', '').replace('  ', '').replace(' ', '').replace('   ', '').replace('    ', '').replace('\r', '')
    PositionType = soup.find('span', class_='el')
    if str(type(PositionType)) == "<class 'NoneType'>":
        PositionType = ''
    else:
        PositionType = PositionType.get_text().strip().replace('\n', '')
    Contact = soup.find('div', class_='bmsg inbox')
    if str(type(Contact)) == "<class 'NoneType'>":
        Contact = ''
    else:
        Contact = Contact.get_text().strip().replace(
            '   ', '').replace('    ', '').replace('地图', '').replace('\n', '')
    ConpanyInfo = soup.find('div', class_='tmsg inbox')
    if str(type(ConpanyInfo)) == "<class 'NoneType'>":
        ConpanyInfo = ''
    else:
        ConpanyInfo = ConpanyInfo.get_text().strip().replace(
            '\n', '').replace('  ', '').replace(' ', '')
    try:
        record = PositionTitle+'\t'+Location+'\t'+Salary+'\t'+CompanyName+'\t'+CompanyType+'\t'+Exp+'\t'+Degree+'\t' + \
            RecruitNum+'\t'+PostTime+'\t'+Welfare+'\t'+PositionInfo + \
            '\t'+str(PositionType)+'\t'+str(Contact)+'\t'+str(ConpanyInfo)
    except Exception as e:
        record = ''
    else:
        pass
    finally:
        pass
    return record


def main():
    with open('keywords.txt', 'r', encoding='utf-8') as f:
        keywords = f.readlines()
    for keyword in keywords[1:]:
        keyword = keyword.strip()
        page_num = int(GetPages(keyword))
        urls = GetUrls(keyword, page_num)
        with open(keyword+'urls.txt', 'w', encoding='utf-8') as f:
            for url in urls:
                f.write(url+'\n')
        User_Agent = 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36'
        cookie = 'guid=14842945278988500031; slife=indexguide%3D1'
        headers = {'User-Agent': User_Agent, 'cookie': cookie}
        with open(keyword+'urls.txt', 'r', encoding='utf-8') as f:
            urls = f.readlines()
        records = []
        i = 0
        for url in urls:
            url = url.strip()
            if url != '':
                records.append(
                    GetContent(url, headers))
                i += 1
                s = random.randint(5, 30)
                print(str(i)+'page done,'+str(s)+'s later')
                time.sleep(s)
        with open(keyword+'.txt', 'w', encoding='utf-8') as f:
            for re in records:
                f.write(re+'\n')
        print(keyword+' Done---------------------------')


if __name__ == '__main__':
    main()

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 205,236评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,867评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,715评论 0 340
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,899评论 1 278
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,895评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,733评论 1 283
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,085评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,722评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,025评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,696评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,816评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,447评论 4 322
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,057评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,009评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,254评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,204评论 2 352
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,561评论 2 343

推荐阅读更多精彩内容

  • 声明:本文讲解的实战内容,均仅用于学习交流,请勿用于任何商业用途! 一、前言 强烈建议:请在电脑的陪同下,阅读本文...
    Bruce_Szh阅读 12,678评论 6 28
  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 134,598评论 18 139
  • http header 消息通常被分为4个部分:general header即头部, request header...
    徐薇薇阅读 31,972评论 0 5
  • Python学习网络爬虫主要分3个大的版块:抓取,分析,存储 另外,比较常用的爬虫框架Scrapy,这里最后也详细...
    楚江数据阅读 1,461评论 0 6
  • 基础知识 HTTP协议 我们浏览网页的浏览器和手机应用客户端与服务器通信几乎都是基于HTTP协议,而爬虫可以看作是...
    腩啵兔子阅读 1,464评论 0 17