拉勾网爬取招聘数据——保姆级教学(新手向)

前言:

在进行这篇文章之前,首先你需要知道一些python的基础知识,以及网页的基础知识。

该项目是,应对AJAX动态加载,并应用表单的交互技术,爬取拉勾网招聘信息,解析网页返回的json数据,存储为DataFrame格式然后导出为csv文件。

网上很多关于拉勾网的教程,都是具有时效性的,拉勾网的网址格式页不断在变。

本文给出爬取的具体操作,不对原理做过多解释,有效时间——2020.6.25.

环境:Python3、jupyter notebook、chrome浏览器

主要模块:requests、pandas、json、time、csv

分析网页

打开拉勾网后,在搜索栏中输入关键字“数据分析”,用来查找“数据分析”相关的职位。

在搜索结果的页面中,我们按照以下的步骤:

  • 右键检查

  • 打开审查元素后默认打开的是Elements,切换到Network标签,并且调整到XHR。

  • 刷新一下页面,将会得到多个反馈连接

页面分析

第一步:获取真实URL

点击第一个反馈连接,在Request Headers中我们找到原始的URL连接。(PS:拉勾网发送POST请求,因为当我们点击下一页的时候,浏览器地址栏的信息没有发生任何的变化)

在这个页面下还有一个请求JSON的URL,是在浏览器地址栏看不到的,但是却很重要。


第二步:请求头信息和表单信息的获取(用来伪装爬虫)

继续深究获取Request Headers中的'origin','accept','user-agent','referer'。

headers头

在Form Data中可以看到POST表单提交的信息。这很重要。

Form Data表单

第三步:分析获取的JSON数据。

POST请求返回的JSON格式数据,可以在Preview中查看。

Preview 查看JSON

在content->positionResult->result路径中,后面将会用json库对其解码。

得到上述信息后,可以开始爬取过程了。

导入准备使用的包

import requests
import json
import time
import pandas as pd
import csv

构造请求头

headers = {
    'origin': 'https://www.lagou.com',
    'accept': 'application/json, text/javascript, */*; q=0.01',
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36'
    ,'referer': 'https://www.lagou.com/jobs/list_%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90?labelWords=&fromSearch=true&suginput='
}

构造表单

params = {
    "first": "true",
    "pn": 1,
    "kd": "数据分析"
}

真实的URL

# 原始网页的URL
url_start = 'https://www.lagou.com/jobs/list_%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90?labelWords=&fromSearch=true&suginput='
#请求JSON数据的URL
url = "https://www.lagou.com/jobs/positionAjax.json?needAddtionalResult=false"

cookies处理

在踩坑第一次包装headers头伪装爬虫,并没有用。第二次踩坑直接登陆账号然后复制cookie加入到headers,发现,虽然可以,但是时效性很短,最多爬取到第十页,于是自动获取cookie吧。代码如下:

# 获取cookies值
def get_cookie():
    # 原始网页的URL,即url_start
    url = 'https://www.lagou.com/jobs/list_%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90?labelWords=&fromSearch=true&suginput='
    s = requests.Session()
    s.get(url, headers=headers, timeout=3)  # 请求首页获取cookies
    cookie = s.cookies  # 为此次获取的cookies
    return cookie

页数处理

返回的JSON中有数据总条数。


totalCount查看总条数

拉勾网每页有15条岗位信息,并默认只有30页,那么我们将返回的信息总数除以15看是否小于30,若小于,总页数取对应结果,不然总页数就等于30,代码如下。

# 定义获取页数的函数
def get_page(url, params):
    html = requests.post(url, data=params, headers=headers, cookies=get_cookie(), timeout=5)
    # 将网页的Html文件加载为json文件
    json_data = json.loads(html.text)
    # 解析json文件,后跟中括号为解析的路径
    total_Count = json_data['content']['positionResult']['totalCount']
    page_number = int(total_Count/15) if int(total_Count/15) < 30 else 30
    # 调用get_info函数,传入url和页数
    get_info(url, page_number)

获取信息并保存到csv文件中

# 定义获取招聘信息函数
def get_info(url, page):
    for pn in range(1, page+1):
        # post请求参数
        params = {
            "first": "true",
            "pn": str(pn),
            "kd": "数据分析"
        }
        # 获取信息 并捕获异常
        try:
            html = requests.post(url, data=params, headers=headers, cookies=get_cookie(), timeout=5)
            print(url, html.status_code)
            # 将网页的Html文件加载为json文件
            json_data = json.loads(html.text)
            # 解析json文件,后跟中括号为解析的路径
            results = json_data['content']['positionResult']['result']
            df = pd.DataFrame(results)
            if pn == 1:
                total_df = df
            else:
                total_df = pd.concat([total_df,df],axis=0)  
            # 睡眠2秒
            time.sleep(2)
        except requests.exceptions.ConnectionError:
            print("requests.exceptions.ConnectionError")
            pass
        total_df.to_csv('招聘信息.csv', sep = ',', header = True, index = False)

至此,整个代码部分就大功告成了。
来实践一下运行效果。





运行结果图

csv文件
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,670评论 5 460
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,928评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,926评论 0 320
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,238评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,112评论 4 356
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,138评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,545评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,232评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,496评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,596评论 2 310
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,369评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,226评论 3 313
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,600评论 3 299
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,906评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,185评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,516评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,721评论 2 335