爬取干货集中营数据(3)

爬取干货集中营数据(3)

http://gank.io/

改进后的妹纸爬虫 ಠ౪ಠ

1 项目结构


project gank

2 修改 Item

  • title 标题
  • images 妹子图片
  • leftLink 左部导航
  • rightLink 右部导航
 class GankPageItem(scrapy.Item):
        title = scrapy.Field()
        images = scrapy.Field()
        leftLink = scrapy.Field()
        rightLink = scrapy.Field()

3 新建 gankpage_spider.py (spider 目录下)

# -*- coding: utf-8 -*-

import scrapy

from gank.items import GankPageItem


class GnakPageSpider(scrapy.Spider):
    name = "gank"
    allowed_domains = ["gank.io"]
    start_urls = [
        "http://gank.io",
    ]
    url_prefix = "http://gank.io"

    def parse(self, response):

        pageItem = self.extract_item(response)
        yield pageItem

        # 左部导航不为空 则向左部爬取
        leftLinks = pageItem['leftLink']
        if len(leftLinks) == 1:
            leftLink = self.url_prefix + leftLinks[0]
            yield scrapy.Request(leftLink, callback=self.to_left_page)
        # 右部导航不为空 则向右部爬取
        rightLinks = pageItem['rightLink']
        if len(rightLinks) == 1:
            rightLink = self.url_prefix + rightLinks[0]
            yield scrapy.Request(rightLink, callback=self.to_right_page)

    def extract_item(self, response):
        '''
            页面解析
        '''
        selector = scrapy.Selector(response)
        tagTitle = selector.xpath('head/title')
        tagNavDivs = selector.xpath('(//div[contains(@class, "typo")]/div[contains(@class, "container content")]/div[contains(@class, "row")])[1]/div')
        tagPs = selector.xpath('//div[contains(@class, "typo")]/div[contains(@class, "container content")]/div[contains(@class, "outlink")]/p')

        pageItem = GankPageItem()
        # 页面标题
        pageTitle = tagTitle.xpath('text()').extract()[0]
        pageItem['title'] = pageTitle #.encode('utf-8')
        # 妹纸图片
        pageItem['images'] = tagPs.xpath('./img/@src').extract()
        # 导航链接
        if len(tagNavDivs) == 2:
            pageItem['leftLink'] = tagNavDivs[0].xpath('./p/a/@href').extract()
            pageItem['rightLink'] = tagNavDivs[1].xpath('./p/a/@href').extract()
        else:
            pageItem['rightLink'] = tagNavDivs[0].xpath('./p/a/@href').extract()

        return pageItem

    def to_left_page(self, response):
        '''
            左部爬取
        '''
        pageItem = self.extract_item(response)
        yield pageItem

        leftLinks = pageItem['leftLink']
        if len(leftLinks) == 1:
            leftLink = self.url_prefix + leftLinks[0]
            yield scrapy.Request(leftLink, callback=self.to_left_page)

    def to_right_page(self, response):
        '''
            右部爬取
        '''
        pageItem = self.extract_item(response)
        yield pageItem

        rightLinks = pageItem['rightLink']
        if len(rightLinks) == 1:
            rightLink = self.url_prefix + rightLinks[0]
            yield scrapy.Request(rightLink, callback=self.to_right_page)

4 执行爬虫

$> crapy crawl gank

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

  • 爬取干货集中营数据(1) http://gank.io/ 得到妹纸图 ಠ౪ಠ 新建Scrapy项目:在你的scra...
    甚了阅读 3,709评论 1 2
  • 爬取干货集中营数据(2) http://gank.io/ 得到更多妹纸图 ಠ౪ಠ 还记得上一次抓住的妹子吗。爬取干...
    甚了阅读 1,882评论 0 0
  • scrapy学习笔记(有示例版) 我的博客 scrapy学习笔记1.使用scrapy1.1创建工程1.2创建爬虫模...
    陈思煜阅读 14,379评论 4 46
  • 这两天摸索了下scrapy,刚看文档的时候觉得有点生无可恋,scrapy框架个人还是觉得比较难懂的,需要学习的地方...
    Treehl阅读 11,003评论 7 10
  • 厄加特凭借Q的短CD配合上巫妖之祸的加成,E中人之后,QAQA输出还是很高的,对面如果要反打还可以开W,盾还是很厚...
    忘忧蛊soulmate阅读 2,999评论 0 0

友情链接更多精彩内容