Python爬虫-拉勾网职位爬取

感觉好久没写python了哈哈,最近都在忙工作,所以也是没有学习python。
刚好凑巧朋友正在找工作,也是java的,所以我也就顺便联系下爬虫,爬下拉勾网的java职位。
以前都是用的bs4,今天来用一下xpath~

找出请求地址

首先打开拉勾网选择一个城市,然后直接点它的java分类
观察地址栏可以看到一个地址

image.png

其实这个地址没什么用,别被它忽悠了,接下来我们到页面最下方选择第二页会发现地址栏地址变了

image.png

再选择第三页第四页会发现,好像也就只是Java后面那个数字变了,那这个地址是不是就是我们需要的呢,其实不是,代码里请求这个地址是拿不到我们想要的东西的,所以我们打开开发者工具,输入java点击搜索

image.png

这个请求返回了一个html,但是往下拉却会发现公司列表是空的,还是没有数据。那么继续往下找

image.png

下面那个companyAjax这个看起来是最像的了,但是不是它,是上面这个position,一开始我以为是下面那个,然后用来请求发现一直提示你访问过于频繁。让我错以为是真的访问过于频繁,然后我用手机4G网访问了下发现也是同样的结果。后来点了下上面这个,发现它就是我们要找的请求地址,它会返回给我们json数据。可以说是相当的齐全了。

image.png

爬取数据

  • url :https://www.lagou.com/jobs/positionAjax.json?city=%E6%B7%B1%E5%9C%B3&needAddtionalResult=false&isSchoolJob=0
  • 请求方式: post
  • 请求数据:
data = {
    'first': False,
    'pn':1,
    'kd': 'java',
}

pn就是页码了,kd应该就是关键字了
注意要设置header

data = {
    'first': False,
    'pn':1,
    'kd': 'java',
}
def get_job(data):
    url = 'https://www.lagou.com/jobs/positionAjax.json?city=%E6%B7%B1%E5%9C%B3&needAddtionalResult=false&isSchoolJob=0'
        page = requests.post(url=url, cookies=cookie, headers=headers, data=data)
    page.encoding = 'utf-8'
    result = page.json()
    jobs = result['content']['positionResult']['result']
    for job in jobs:
        companyShortName = job['companyShortName']
        positionId = job['positionId']  # 主页ID
        companyFullName = job['companyFullName']  # 公司全名

这个返回的信息是挺全面了,当然如果要获取更详细的信息,那就需要到详情页了,随便点一个

image.png

可以看到这串数字,它就是公司的id了吧,也就是上面的json中返回的positionId,我们只要拼一下url就可以请求了

detail_url = 'https://www.lagou.com/jobs/{}.html'.format(positionId)
        response = requests.get(url=detail_url, headers=headers, cookies=cookies)
        response.encoding = 'utf-8'
        tree = etree.HTML(response.text)
        desc = tree.xpath('//*[@id="job_detail"]/dd[2]/div/p/text()')

不知道为什么,有的公司明明是有职位描述的,但是却拿不到,也是有点费劲,原谅我是个菜鸟。谁知道的话烦请告知小弟一下

image.png

完整代码:

# /usr/bin/env python3
# -*- coding:utf-8 -*-

import requests
from lxml import etree


cookie = {
    'Cookie':'JSESSIONID=ABAAABAAAGGABCBF0273ED764F089FC46DF6B525A6828FC; '
             'user_trace_token=20170901085741-8ea70518-8eb0-11e7-902f-5254005c3644; '
             'LGUID=20170901085741-8ea7093b-8eb0-11e7-902f-5254005c3644; '
             'index_location_city=%E6%B7%B1%E5%9C%B3; '
             'TG-TRACK-CODE=index_navigation; _gat=1; '
             '_gid=GA1.2.807135798.1504227456; _ga=GA1.2.1721572155.1504227456; '
             'LGSID=20170901085741-8ea70793-8eb0-11e7-902f-5254005c3644; '
             'LGRID=20170901095027-ed9ebf87-8eb7-11e7-902f-5254005c3644; '
             'Hm_lvt_4233e74dff0ae5bd0a3d81c6ccf756e6=1504227456; '
             'Hm_lpvt_4233e74dff0ae5bd0a3d81c6ccf756e6=1504230623;'
             'SEARCH_ID=a274b85f40b54d4da62d5e5740427a0a'
}

headers = {
    'User-Agent': 'User-Agent:Mozilla/5.0 (Windows NT 10.0; Win64; x64) '
                  'AppleWebKit/537.36 (KHTML, like Gecko) '
                  'Chrome/60.0.3112.90 Safari/537.36',
    'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',
    'Host':'www.lagou.com',
    'Origin':'https://www.lagou.com',
    'Referer':'https://www.lagou.com/jobs/list_java?city=%E6%B7%B1%E5%9C%B3&cl=false&fromSearch=true&labelWords=&suginput=',
}
cookies = {
    'Cookie': 'user_trace_token=20170901085741-8ea70518-8eb0-11e7-902f-5254005c3644;'
              'LGUID=20170901085741-8ea7093b-8eb0-11e7-902f-5254005c3644; '
              'index_location_city=%E6%B7%B1%E5%9C%B3; SEARCH_ID=7277bc08d137413dac2590cea0465e39; '
              'TG-TRACK-CODE=search_code; JSESSIONID=ABAAABAAAGGABCBF0273ED764F089FC46DF6B525A6828FC; '
              'PRE_UTM=; PRE_HOST=; '
              'PRE_SITE=https%3A%2F%2Fwww.lagou.com%2Fjobs%2Flist_java%3Fcity%3D%25E6%25B7%25B1%25E5%259C%25B3%26cl%3Dfalse%26fromSearch%3Dtrue%26labelWords%3D%26suginput%3D; '
              'PRE_LAND=https%3A%2F%2Fwww.lagou.com%2Fjobs%2F3413383.html; _gat=1; _'
              'gid=GA1.2.807135798.1504227456; Hm_lvt_4233e74dff0ae5bd0a3d81c6ccf756e6=1504227456; '
              'Hm_lpvt_4233e74dff0ae5bd0a3d81c6ccf756e6=1504252636; _ga=GA1.2.1721572155.1504227456; '
              'LGSID=20170901153335-dd437749-8ee7-11e7-903c-5254005c3644; '
              'LGRID=20170901155728-336ca29d-8eeb-11e7-9043-5254005c3644',
}
data = {
    'first': False,
    'pn':1,
    'kd': 'java',
}

def get_job(data):
    url = 'https://www.lagou.com/jobs/positionAjax.json?city=%E6%B7%B1%E5%9C%B3&needAddtionalResult=false&isSchoolJob=0'
        page = requests.post(url=url, cookies=cookie, headers=headers, data=data)
    page.encoding = 'utf-8'
    result = page.json()
    jobs = result['content']['positionResult']['result']
    for job in jobs:
        companyShortName = job['companyShortName']
        positionId = job['positionId']  # 主页ID
        companyFullName = job['companyFullName']  # 公司全名
        companyLabelList = job['companyLabelList']  # 福利待遇
        companySize = job['companySize']  # 公司规模
        industryField = job['industryField']
        createTime = job['createTime']  # 发布时间
        district = job['district']  # 地区
        education = job['education']  # 学历要求
        financeStage = job['financeStage']  # 上市否
        firstType = job['firstType']  # 类型
        secondType = job['secondType']  # 类型
        formatCreateTime = job['formatCreateTime']  # 发布时间
        publisherId = job['publisherId']  # 发布人ID
        salary = job['salary']  # 薪资
        workYear = job['workYear']  # 工作年限
        positionName = job['positionName']  #
        jobNature = job['jobNature']  # 全职
        positionAdvantage = job['positionAdvantage']  # 工作福利
        positionLables = job['positionLables']  # 工种

        detail_url = 'https://www.lagou.com/jobs/{}.html'.format(positionId)
        response = requests.get(url=detail_url, headers=headers, cookies=cookies)
        response.encoding = 'utf-8'
        tree = etree.HTML(response.text)
        desc = tree.xpath('//*[@id="job_detail"]/dd[2]/div/p/text()')

        print(companyFullName)
        print('%s 拉勾网链接:-> %s' % (companyShortName, detail_url))

        print('职位:%s' % positionName)
        print('职位类型:%s' % firstType)
        print('薪资待遇:%s' % salary)
        print('职位诱惑:%s' % positionAdvantage)
        print('地区:%s' % district)
        print('类型:%s' % jobNature)
        print('工作经验:%s' % workYear)
        print('学历要求:%s' % education)
        print('发布时间:%s' % createTime)
        x = ''
        for label in positionLables:
            x += label + ','
        print('技能标签:%s' % x)
        print('公司类型:%s' % industryField)
        for des in desc:
            print(des)


def url(data):
    for x in range(1,50):
        data['pn'] = x
        get_job(data)

if __name__ == '__main__':
    url(data)

最后的最后,说来我陆陆续续学习python 的时间也有两个月了差不多,但是学的很皮毛,接下来有时间还是准备好好看看cookbook ,加油

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,362评论 5 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,330评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,247评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,560评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,580评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,569评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,929评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,587评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,840评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,596评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,678评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,366评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,945评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,929评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,165评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 43,271评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,403评论 2 342

推荐阅读更多精彩内容

  • Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...
    passiontim阅读 171,392评论 25 707
  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 134,580评论 18 139
  • 1. Java基础部分 基础部分的顺序:基本语法,类相关的语法,内部类的语法,继承相关的语法,异常的语法,线程的语...
    子非鱼_t_阅读 31,560评论 18 399
  • 郭相麟 思念是风 期待是帆 离别时青春少年 君住长江口 我住黔之山 岁月如梭五十多年 相聚时古稀老人 儿孙满堂享天...
    郭相麟阅读 306评论 0 0
  • RetryAndFollowUpInterceptor拦截器分析 源码地址:https://github.com/...
    逗哥笔记阅读 1,607评论 0 4