scrapy

1.如何在以py文件的方式运行scrapy?

from scrapy import cmdline

cmdline.execute(['scrapy', 'crawl', '爬虫名'])

这样运行py文件即可,不用每次都找到目录在crawl

2.CrawlSpider是什么?

Spider是什么,是scrapy里面的一个爬虫类,CrawlSpider也是一个爬虫类,而且是Spider的子类,所以有自己独有的功能

独有功能:提取链接的功能  extract_links  链接提取器

from scrapy.linkextractors import LinkExtractor

正则,xpath都可以提取

如何使用:在创建爬虫的时候加上 -t crawlSpider就可以创建了

3.爬虫思路:

一、首先确定要爬取的内容和起始url,看看详情页在起始url后的第几级,然后划分好几层函数,比如爬取彼岸除4k以外所有类的所有壁纸,起始url---》提取出所有类的url传给下个函数---》提取每个图片的详情页---》解析详情页,将需要的内容提取出来存入item,这就是三层函数,每层用yield将这一层获取的来传递给下一层。(目前还没写遍历所有页码)

二、配置settings:

配置ua,取消robot协议的遵守,打开节流等等

三、根据目标文件的要求的格式来定义item里面的数据格式,然后将item导入到spider文件中实例化来存入解析详情页提取出来的内容

四、然后再pipeline里面定义下载文件的方式(每个分类为一个文件夹,如果存在该文件夹,则写入,不存在则创建)(今天就写到这里出bug,mongodb下载安装也浪费了好多时间还没弄好,调的太烦了,明天再写)。

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

  • 一春芽探苏寻物, 心夹汗炎夏沁榕。 一镀秋浪帆涌怒, 意雏顷落忽栖冬。 注:平起,平水韵。韵脚:二冬。
    芝初阅读 3,180评论 0 15
  • frame与bounds是我们UI开发中最常用到的,只知道frame使用父类坐标系bounds使用本身坐标系,理解...
    oneday527阅读 4,551评论 0 2
  • 在一个单位呆久了很容易染上这个单位的习气,久而久之,就会把单位的习气误以为是整个社会的习气,周围人的行为方式误...
    天域雪莲阅读 3,696评论 2 3
  • 刺先生最开始不是一个人,刺先生还不是一个人的时候,无处不在。 起初,他们常常会被人误认作是李先生、张先生、或者其他...
    蔡童阅读 3,056评论 0 0
  • 今天学习的是,对于一个店铺,需要制作的一些图片及要求。宝贝必要图:1.宝贝的五张主图,每张的尺寸规格为800 * ...
    乐小Pi孩_VoV阅读 1,220评论 0 0

友情链接更多精彩内容