(七)Scrapy框架(二) ?python+scrapy爬虫5小时入门

scrapy shell 主要用来调试页面返回的数据, 调试某一个请求, 返回的响应内容.

scrapy shell + url + callback :

shelp(): 返回可操作的对象或方法的简介信息

fetch(): 发送请求. 也可以先构造请求对象再进行发送.

调试大致流程:

  1. 确定你要进行分析的页面的URL
  2. 通过fetch请求该URL
  3. 对返回的Response进行一个自定义的分析
    1. bs4, xpath, re. response.text

4.extract 返回列表,提取的数据以字符串类型保存在列表中; 不是只能提取字符串,而是因为xpath提取的数据返回的结果本身就是字符串类型!

5.如果我们提取的数据保存在列表中,但是提取的数据只有一个,这个时候一般我们会自己索引取值,把这个唯一的数据取出来。

  1. extract_first :返回字符串,返回匹配的第一个数据的字符串格式
xp = response.xpath(" //title/text() ").extract()
xp = response.xpath(" //title/text() ").extract_first()
2019-06-09_150042.png
2019-06-09_150745.png

Scrapy选择器:

css和xpath

2019-06-09_151401.png

1.正则表达式匹配返回的数据就是列表

2.xpath和正则表达式可以一起使用,但是正则表达式必须放到最后

selector:

2019-06-09_152257.png

注:用的最多的是通过 fetch(): 发送请求. ,直接 xpath 匹配结果

scrapy. Spider:

Spider:scrapy爬虫基类

pycharm:

ctrl + 鼠标左键: 点击进入对应的源代码中.

start_requests :

start_requests 该方法可重写:

【start_requests 默认是get请求】,当我们需要自定义第一次请求的时候, 就会重新该方法, 比如登陆请求的发送.

用来构造并发送项目运行的第一次或第一批请求.

parse:

默认的Request对象回调函数,处理返回的response;生成的Item或者Request对象,用户必须实现这个方法。

爬取 51job网站 的指定职位信息

# 职位
//div[@class='el']/p/span/a/@title

# 招聘详情页
//div[@class='el']/p/span/a/@href

# 公司名称
//div[@class='el']/span[@class='t2']/a/text()

# 地点
//div[@class='el']/span[@class='t3']/text()

# 薪资
//div[@class='el']/span[@class='t4']/text()

# 发布时间
//div[@class='el']/span[@class='t5']/text()

# 工作要求
lxml: "".join(xpath("//div[@class='bmsg job_msg inbox']/p/text()"))

# 下一页
//div[@class='p_in']/ul/li[@class='bk'][2]/a/@href

# 终止条件.
还是用下一页的xpath去匹配, 如果匹配的结果为空, 那么就可以结束项目运行了.

51job数据爬取,第一页信息和详情页信息:

def parse(self, response):
        """
        该方法用于处理招聘的每一页.
        :param response:
        :return:
        """
        node_list = response.xpath("//div[@id='resultList']/div[@class='el']")

        # 整个for循环结束代表 当前这一页已经爬完了, 那么就该开始爬取下一页
        for node in node_list:
            item = PawuyijobItem()
            item["position_name"] = node.xpath("./p/span/a/@title").extract_first()
            item["company_name"] = node.xpath("./span[@class='t2']/a/@title").extract_first()
            item["work_place"] = node.xpath("./span[@class='t3']/text()").extract_first()
            item["work_salary"] = node.xpath("./span[@class='t4']/text()").extract_first()
            item["release_date"] = node.xpath("./span[@class='t5']/text()").extract_first()
            detail_url = node.xpath("./p/span/a/@href").extract_first()

            # meta: 由于我们的Item对象中的数据还有职位要求没有获取, 所以在这里不能就直接提交item
            # 需要在详情页处理完后再提交, 所以我们通过meta这个参数, 把当前的Item对象传递给下一个处理方法来进行后续的处理
            # ?: Item有6个字段, 在parse中只获取了5个字段, 难道还剩得的一个字段不管了么?
            # 要管咋办呢? item对象在parse中, 详情页的职位要求数据在parse_detail方法中提取.
            # 如何把职位要求数据添加到parse方法中的item呢? 是不是以之前学的内容 是不是没办法.
            # 那就meta: 就像快递员, 将parse的item发送给parse_detail.
            yield scrapy.Request(url=detail_url, callback=self.parse_detail, meta={"item": item})

        next_url = response.xpath("//div[@class='p_in']//li[@class='bk'][2]/a/@href").extract_first()
        if not next_url:
            return

        yield scrapy.Request(url=next_url, callback=self.parse)

    def parse_detail(self, response):
        """
        该方法用于处理招聘的详情页
        :param response:
        :return:
        """
        item = response.meta["item"]
        item["job_require"] = ''.join(response.xpath("//div[@class='bmsg job_msg inbox']/p/text()").extract())
        yield item
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 217,542评论 6 504
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,822评论 3 394
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 163,912评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,449评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,500评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,370评论 1 302
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,193评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,074评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,505评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,722评论 3 335
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,841评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,569评论 5 345
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,168评论 3 328
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,783评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,918评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,962评论 2 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,781评论 2 354

推荐阅读更多精彩内容