小爬虫实践项目-爬取伯乐在线全部文章信息

新建项目article

mkvirtualenv py3scrapy

安装scrapy

pip install -i https://pypi.douban.com/simple scrapy

新建scrapy工程Article

(article) F:\DjangoExcise>scrapy startproject ArticleNew Scrapy project 'Article', using template directory 'f:\\envs\\article\\lib\\site-packages\\scrapy\\templates\\project', created in:
    F:\DjangoExcise\Article

You can start your first spider with:
    cd Article
    scrapy genspider example example.com
# 使用模板创建爬虫,模板可以自定义,但是我们暂时先用默认模板

使用模板创建爬虫

(article) F:\DjangoExcise>cd article # 先进入工程目录

(article) F:\DjangoExcise\Article>scrapy genspider jobbole blog.jobbole.com
# jobbole  为文件名称  
# blog.jobbole.com 为需要爬取的网站页
Created spider 'jobbole' using template 'basic' in module:
  Article.spiders.jobbole

启动scrapy

(article) F:\DjangoExcise\Article>scrapy crawl jobbole

Windows下可能会报错,提示缺少‘win32api’

(article) F:\DjangoExcise\Article>pip install -i https://pypi.douban.com
/simple pypiwin32

安装完成后再次启动即可
因为我们的开发工具使用Pycharm,但是Pycharm不支持调试scrapy,需
要自定义配置一个调试文件,方便我们实时进行调试
Article主目录下新建py文件main

from scrapy.cmdline import execute
import sys
import os
sys.path.append(os.path.dirname(os.path.abspath(__file__)))
# os.path.abspath(__file__) 获取当前文件路径(main.py)
# os.path.dirname() 获取当前文件的父路径
execute(['scrapy', 'crawl', 'jobbole'])
# execute 传入的是一个列表

修改setting文件的ROBOTSTXT_OBEY值

ROBOTSTXT_OBEY = False
# 这个为True的话,会直接过滤网页中的robots文件中的链接,可能会导

# 致爬虫无法爬取全部页面,需要设置为False

好了,接下来就可以开始我们的爬虫之旅

# -*- coding: utf-8 -*-
import scrapy
import re
from scrapy.http import Request
from urllib import parse


class JobboleSpider(scrapy.Spider):
    name = 'jobbole'
    #allowed_domains = ['blog.jobbole.com/']
    start_urls = ['http://blog.jobbole.com/all-posts/']

    def parse(self, response):
        # 解析列表页中的所欲文章链接交给scrapy
        post_urls = response.css('#archive .floated-thumb .post-thumb a::attr(href)').extract()
        for post_url in post_urls:
            # scrapy 的解析函数
            yield Request(url=parse.urljoin(response.url, post_url), callback=self.parse_detail)
            # 使用parse.urljoin的原因是有些网站的href链接不会给到主域名,需要使用该函数直接获取当前网站的主域名并和当前获取的href进行拼接
            # 函数 parse_detail 作为我们的回调函数(callback),当Request下载完成之后调用,获取详情页信息
        next_urls = response.css('.next.page-numbers::attr(href)').extract_first('')
        if next_urls:
            yield Request(url=parse.urljoin(response.url, post_url), callback=self.parse)

    def parse_detail(self, response):
        # 提取文章的具体字段
        # 获取标题
        title = response.xpath('/html/body/div[1]/div[3]/div[1]/div[1]/h1/text()').extract_first('')
        # text()  获取文本信息
        # extract() 获取值  返回的类型是列表   可以用extract()[0]获取第一个参数

        # 获取文章发布时间
        create_date = response.xpath("//p[@class='entry-meta-hide-on-mobile']/text()").extract()[0].strip().replace("·", "").strip()
        print(create_date)
        # strip()  删除换行,空格等字符
        # replace("·", "")  将"·"替换为空格

        # 获取文章点赞数
        praise_nums = response.xpath("//span[contains(@class,'vote-post-up')]/h10/text()").extract()[0]
        # contains 内置函数  当一个标签有多个class属性值得时候,可以进行筛选  第一个参数是标签  第二个参数是查找的属性值

        # 获取文章收藏数
        fav_nums = response.xpath("//span[contains(@class,'bookmark-btn')]/text()").extract()[0]
        match_fav_re = re.match('(\d+)', fav_nums)
        if match_fav_re == None:
            fav_nums = 0
        else:
            fav_nums = match_fav_re.group(0)

        # 获取文章评论数
        comment_nums = response.css("span.hide-on-480::text").extract_first('')
        match_comment_re = re.match('(\d+)', comment_nums)
        if match_comment_re == None:
            comment_nums = 0
        else:
            comment_nums = match_comment_re.group(0)

        # 获取文章整体信息
        content = response.xpath("//div[@class='entry']").extract()[0]

        # 获取文章领域等
        tag_list = response.xpath("//p[@class='entry-meta-hide-on-mobile']/a/text()").extract()
        for element in tag_list:
            if not element.strip().endswith('评论'):
                tags = ','.join(tag_list)

注意事项:

1.运行前把源文件生成的allowed_domains注释掉

class JobboleSpider(scrapy.Spider):
    name = 'jobbole'
    #allowed_domains = ['blog.jobbole.com/']
    start_urls = ['http://blog.jobbole.com/all-posts/']

不注释的话,会产生的bug
程序在parse函数中进行for循环下载当前页的post_urls,不会调用下面的回调函数parse_detail,直至for循环完毕

for post_url in post_urls:
  # scrapy 的解析函数
  # parse.urljoin(response.url, post_url)
  print(post_url)
  yield Request(url=parse.urljoin(response.url, post_url), callback=self.parse_detail)

回调函数这里不是调用parse_detail函数 不要加括号

正确写法

callback=self.parse_detail

错误示范

callback=self.parse_detail()

2.错误提示:list index out of range

comment_nums = response.css("span.hide-on-480::text").extract()[0]

将extract()[0]改为extract.first()
原因:
当评论数为0时,comment_nums 变量中第一个参数为空,当extract()[0]获取第一个参数时,会报错,而使用extract.first()获取第一个参数时,会返回None

comment_nums = response.css("span.hide-on-480::text").extract_first('')

3.原视频中使用正则表达式获取评论点赞数,经检测,只能获取当前列表的第一个数字,若点赞数为俩位数及以上,则无法准确获取

comment_nums = response.css("span.hide-on-480::text").extract_first('')
        match_comment_re = re.match('.*(\d+).*', comment_nums)
        if match_comment_re == None:
            comment_nums = 0
        else:
            comment_nums = match_comment_re.group(0)

现将文中'.*(\d+).*'改为'(\d+)'

comment_nums = response.css("span.hide-on-480::text").extract_first('')
        match_comment_re = re.match('(\d+)', comment_nums)
        if match_comment_re == None:
            comment_nums = 0
        else:
            comment_nums = match_comment_re.group(0)
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,163评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,301评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,089评论 0 352
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,093评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,110评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,079评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,005评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,840评论 0 273
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,278评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,497评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,667评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,394评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,980评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,628评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,796评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,649评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,548评论 2 352

推荐阅读更多精彩内容