python+scrapy爬虫总结

1.scrapy开始start_url为post请求:

以前的做法:在spider里面定义好start_urls,会调用父类scrapy.Spider的start_requests,这样只适用get请求,当遇到post请求的时候该怎么办呢?
现在的做法:重写父类的start_requests方法

# 当请求参数是json格式
def start_requests(self):

        data = {"request": {"body": {"page": 1, "row": 10}}}

        # FormRequest 是Scrapy发送POST请求的方法
        yield scrapy.Request(self.start_url, method="POST",
                             body=json.dumps(data),
                             headers={'Content-Type': 'application/json'})

# 当请求参数是form表单
def start_requests(self):
    form_data = {'account':'jack123@gmail.com', 'password':'123456'}  # 表单数据,字典格式,注意数字也要用引号引起来,否则报错。
    yield scrapy.FormRequest(url, formdata=form_data) 

⚠️form请求时必须是字符串格式的对象,否则会出现以下问题:


对象中含有int类型

整数类型.png

⚠️form请求时遇到多个相同的参数时,会出现覆盖,scrapy.FormRequest传入的参数必须是键值对,这个时候要把相同key的数据保存在列表中,源码中是这样的:


FormRequest类

对参数进行编码

这里显示是遍历键值对,所以修改为:
修改传递参数
2.scrapy爬取时,parse必须返回的是scrapy.request或者dict:
def parse(self, response):
        # 解析具体的产品
        selector = Selector(response)
        for product_item in selector.xpath("//tbody/tr"):
            item = BankproductItem()
            item['bankCode'] = 'cib'
            item['channel'] = 'web'
            item['proCode'] = re.search('lccp(.*?).png', product_item.xpath('td[9]/img/@src').extract()[0]).group(1)

            # 判断属否有超链接
            proName = re.search('<a[\S\s]*>(.*?)</a>', product_item.xpath('td[1]').extract()[0])
            item['proName'] = proName.group(1) if (proName != None) else product_item.xpath('td[1]/text()').extract()[0]

            item['incomeRate'] = product_item.xpath('td[7]/text()').extract()[0]
            item['currency'] = product_item.xpath('td[4]/text()').extract()[0]
            item['startDate'] = product_item.xpath('td[2]/text()').extract()[0]
            item['endDate'] = product_item.xpath('td[3]/text()').extract()[0]
            # 大额客户参考净收益率(客户要求放在next_income_rate)
            item['nextIncomeRate'] = product_item.xpath('td[8]/text()').extract()[0]

            # 判断是否含有超链接
            href_num = len(product_item.xpath('td[1]/a/@href').extract())
            if href_num > 0:
                next_page_url = "{}{}".format(self.base_url, product_item.xpath('td[1]/a/@href').extract()[0])
                yield scrapy.Request(next_page_url, meta={'item': item}, callback=self.parse_product_detail,
                                     dont_filter=True)
            else:
                yield item
        pass
3.获取response对象的中的request属性中的参数:
#获取body属性,字节转化为字符
str(response.request.body,encoding="utf-8")
4.解析table表格中遇到多行合并的情况(遇到:xpath helper插件和python xpath有区别):
 # 判断是否是购买渠道
        title = title_item.xpath("td[13]/text()").extract()[0]
        if title == '购买渠道':
            # 兼容有的情况下多行合并的情况
            if title_num == child_num:
                item['sellChannel'] = product_item.xpath("td[13]/text()").extract()[0]
            else:
                siblings = len(product_item.xpath("preceding-sibling::tr"))
                for i in range(1, siblings):
                    #  依次向上寻找兄弟节点
                    sibling = product_item.xpath("preceding-sibling::tr["+str(i)+"]")
                    if len(sibling.css("td")) == title_num:
                        item['sellChannel'] = sibling.xpath("td[13]/text()").extract()[0]
                        break
        else:
            if title_num == child_num:
                item['sellChannel'] = product_item.xpath("td[15]/text()").extract()[0]
            else:
                # 兄弟节点的个数
                siblings = len(product_item.xpath("preceding-sibling::tr"))
                for i in range(1, siblings):
                    # 依次向上寻找兄弟节点
                    sibling = product_item.xpath("preceding-sibling::tr["+str(i)+"]")
                    if len(sibling.css("td")) == title_num:
                        item['sellChannel'] = sibling.xpath("td[15]/text()").extract()[0]
                        break
5.python中定义静态的方法:

@staticmethod,可以通过类名直接调用

6.遍历一个list集合,怎么可以得到索引下标
# enumerate将一个可遍历的数据对象(如列表、元组或字符串)组合为一个索引序列
for index, product_item in enumerate(table_selector.xpath("tr[not(contains(td,'产品名称'))]")):
7.python使用pymongo操作mongodb,设置不返回_id
字段的状态设置为0
8.字符串分割

使用python内部字符串的split方法,只能支持单个分隔str.split('/'),要使用多个分隔符,可以使用re库,re.split('/|='),不同的分割符号之间必须使用|分割开来。

9.多个xpath可以一起使用,中间用|分割
# 多个xpath路径可以一起使用
item['incomeRate'] = self.__get_xpath_value(product_item,"td[9]/strong/text()|td[9]/text()").strip()
8.scrapy自动限速扩展

在settings.py配置文件中设置:
启用AutoThrottle扩展(默认是False):AUTOTHROTTLE_ENABLED=True
起用AutoThrottle调试(debug)模式(默认是False):AUTOTHROTTLE_DEBUG=True

9.scrapy爬取的页数过多,漏掉了很多数据

scrapy中默认的页面请求速度与数据下载速度过快,造成服务器返回的数据为空,所以,只要修改配置文件settings.py,将其中的访问速度与下载速度调整一下:

#遵守robots协议
ROBOTSTXT_OBEY = True
#并发请求个数(越小越慢)
CONCURRENT_REQUESTS = 1
#下载延迟时间(越大请求越慢)
DOWNLOAD_DELAY = 5
#默认False;为True表示启用AUTOTHROTTLE扩展
AUTOTHROTTLE_ENABLED = True
#默认3秒;初始下载延迟时间
AUTOTHROTTLE_START_DELAY = 1
#默认60秒;在高延迟情况下最大的下载延迟
AUTOTHROTTLE_MAX_DELAY = 3
#使用httpscatch缓存
HTTPCACHE_ENABLED = True
HTTPCACHE_EXPIRATION_SECS = 1
HTTPCACHE_DIR = 'httpcache'
HTTPCACHE_IGNORE_HTTP_CODES = []
HTTPCACHE_STORAGE = 'scrapy.extensions.httpcache.FilesystemCacheStorage'
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 217,657评论 6 505
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,889评论 3 394
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 164,057评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,509评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,562评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,443评论 1 302
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,251评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,129评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,561评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,779评论 3 335
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,902评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,621评论 5 345
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,220评论 3 328
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,838评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,971评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,025评论 2 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,843评论 2 354

推荐阅读更多精彩内容

  • scrapy学习笔记(有示例版) 我的博客 scrapy学习笔记1.使用scrapy1.1创建工程1.2创建爬虫模...
    陈思煜阅读 12,701评论 4 46
  • 前言 最近一直想维护一个代理IP池,在网上找了三十多个免费提供代理IP的网站,想把这些代理都抓取下来存到本地数据库...
    leeyis阅读 1,742评论 1 4
  • Flask知识点总结 1. Flask Vs Django 参考博客 2. Flask中的请求上下文和应用上下文 ...
    shu_ke阅读 1,242评论 0 1
  • 刚送走一位女士 带着一大胖小子 孩子不愿意多套裤子 妈妈想给他多套点,孩子委屈哭了,妈妈着急帮他顺顺裤子, 妈妈跟...
    绿小夭阅读 107评论 0 0
  • 又到了机器人格斗赛的时间了,上次高中生选手带来了他们的第一个机器人,之前参赛的小朋友也改进了他的机器人,下面是两个...
    剑山阅读 612评论 0 49