python+scrapy爬虫总结

1.scrapy开始start_url为post请求：

以前的做法：在spider里面定义好start_urls，会调用父类scrapy.Spider的start_requests，这样只适用get请求，当遇到post请求的时候该怎么办呢？
现在的做法：重写父类的start_requests方法

# 当请求参数是json格式
def start_requests(self):

        data = {"request": {"body": {"page": 1, "row": 10}}}

        # FormRequest 是Scrapy发送POST请求的方法
        yield scrapy.Request(self.start_url, method="POST",
                             body=json.dumps(data),
                             headers={'Content-Type': 'application/json'})

# 当请求参数是form表单
def start_requests(self):
    form_data = {'account':'jack123@gmail.com', 'password':'123456'}  # 表单数据，字典格式，注意数字也要用引号引起来，否则报错。
    yield scrapy.FormRequest(url, formdata=form_data)

⚠️form请求时必须是字符串格式的对象，否则会出现以下问题：

对象中含有int类型

整数类型.png

⚠️form请求时遇到多个相同的参数时，会出现覆盖，scrapy.FormRequest传入的参数必须是键值对,这个时候要把相同key的数据保存在列表中，源码中是这样的：

FormRequest类

对参数进行编码

这里显示是遍历键值对，所以修改为：

修改传递参数

2.scrapy爬取时，parse必须返回的是scrapy.request或者dict：

def parse(self, response):
        # 解析具体的产品
        selector = Selector(response)
        for product_item in selector.xpath("//tbody/tr"):
            item = BankproductItem()
            item['bankCode'] = 'cib'
            item['channel'] = 'web'
            item['proCode'] = re.search('lccp(.*?).png', product_item.xpath('td[9]/img/@src').extract()[0]).group(1)

            # 判断属否有超链接
            proName = re.search('<a[\S\s]*>(.*?)</a>', product_item.xpath('td[1]').extract()[0])
            item['proName'] = proName.group(1) if (proName != None) else product_item.xpath('td[1]/text()').extract()[0]

            item['incomeRate'] = product_item.xpath('td[7]/text()').extract()[0]
            item['currency'] = product_item.xpath('td[4]/text()').extract()[0]
            item['startDate'] = product_item.xpath('td[2]/text()').extract()[0]
            item['endDate'] = product_item.xpath('td[3]/text()').extract()[0]
            # 大额客户参考净收益率(客户要求放在next_income_rate）
            item['nextIncomeRate'] = product_item.xpath('td[8]/text()').extract()[0]

            # 判断是否含有超链接
            href_num = len(product_item.xpath('td[1]/a/@href').extract())
            if href_num > 0:
                next_page_url = "{}{}".format(self.base_url, product_item.xpath('td[1]/a/@href').extract()[0])
                yield scrapy.Request(next_page_url, meta={'item': item}, callback=self.parse_product_detail,
                                     dont_filter=True)
            else:
                yield item
        pass

3.获取response对象的中的request属性中的参数：

#获取body属性，字节转化为字符
str(response.request.body,encoding="utf-8")

4.解析table表格中遇到多行合并的情况(遇到：xpath helper插件和python xpath有区别）：

 # 判断是否是购买渠道
        title = title_item.xpath("td[13]/text()").extract()[0]
        if title == '购买渠道':
            # 兼容有的情况下多行合并的情况
            if title_num == child_num:
                item['sellChannel'] = product_item.xpath("td[13]/text()").extract()[0]
            else:
                siblings = len(product_item.xpath("preceding-sibling::tr"))
                for i in range(1, siblings):
                    #  依次向上寻找兄弟节点
                    sibling = product_item.xpath("preceding-sibling::tr["+str(i)+"]")
                    if len(sibling.css("td")) == title_num:
                        item['sellChannel'] = sibling.xpath("td[13]/text()").extract()[0]
                        break
        else:
            if title_num == child_num:
                item['sellChannel'] = product_item.xpath("td[15]/text()").extract()[0]
            else:
                # 兄弟节点的个数
                siblings = len(product_item.xpath("preceding-sibling::tr"))
                for i in range(1, siblings):
                    # 依次向上寻找兄弟节点
                    sibling = product_item.xpath("preceding-sibling::tr["+str(i)+"]")
                    if len(sibling.css("td")) == title_num:
                        item['sellChannel'] = sibling.xpath("td[15]/text()").extract()[0]
                        break

5.python中定义静态的方法：

@staticmethod,可以通过类名直接调用

6.遍历一个list集合，怎么可以得到索引下标

# enumerate将一个可遍历的数据对象(如列表、元组或字符串)组合为一个索引序列
for index, product_item in enumerate(table_selector.xpath("tr[not(contains(td,'产品名称'))]")):

7.python使用pymongo操作mongodb，设置不返回_id

字段的状态设置为0

8.字符串分割

使用python内部字符串的split方法，只能支持单个分隔str.split('/'),要使用多个分隔符，可以使用re库,re.split('/|='),不同的分割符号之间必须使用|分割开来。

9.多个xpath可以一起使用，中间用|分割

# 多个xpath路径可以一起使用
item['incomeRate'] = self.__get_xpath_value(product_item,"td[9]/strong/text()|td[9]/text()").strip()

8.scrapy自动限速扩展

在settings.py配置文件中设置：
启用AutoThrottle扩展(默认是False)：AUTOTHROTTLE_ENABLED=True
起用AutoThrottle调试(debug)模式(默认是False):AUTOTHROTTLE_DEBUG=True

9.scrapy爬取的页数过多，漏掉了很多数据

scrapy中默认的页面请求速度与数据下载速度过快，造成服务器返回的数据为空，所以，只要修改配置文件settings.py,将其中的访问速度与下载速度调整一下:

#遵守robots协议
ROBOTSTXT_OBEY = True
#并发请求个数（越小越慢）
CONCURRENT_REQUESTS = 1
#下载延迟时间（越大请求越慢）
DOWNLOAD_DELAY = 5
#默认False;为True表示启用AUTOTHROTTLE扩展
AUTOTHROTTLE_ENABLED = True
#默认3秒;初始下载延迟时间
AUTOTHROTTLE_START_DELAY = 1
#默认60秒；在高延迟情况下最大的下载延迟
AUTOTHROTTLE_MAX_DELAY = 3
#使用httpscatch缓存
HTTPCACHE_ENABLED = True
HTTPCACHE_EXPIRATION_SECS = 1
HTTPCACHE_DIR = 'httpcache'
HTTPCACHE_IGNORE_HTTP_CODES = []
HTTPCACHE_STORAGE = 'scrapy.extensions.httpcache.FilesystemCacheStorage'