Scrapy基本流程走通

文章仅供学习，如有错误，欢迎指出

创建我们的第一个spider

C:\Users\Alpaca\Desktop\scrapy\1-伯乐在线\firstspider>scrapy genspider myfirstspider www.baidu.com
Created spider 'myfirstspider' using template 'basic' in module:
  firstspider.spiders.myfirstspider

不同种类的spider

运行创建爬虫的命令时，加入-t 我们会发现他有四种不同的模式

常用的有两种 basic和crawl

文章之后会对这两种模板进行介绍

当我们创建完成一个spider的时候

class MyfirstspiderSpider(scrapy.Spider):
    name = 'myfirstspider'
    allowed_domains = ['www.baidu.com']
    start_urls = ['http://www.baidu.com/']

    def parse(self, response):
        pass

这里用的是basic模板，我会在第三篇博客上介绍crawl的模板(相当方便)

他是继承自spider的

name表示我们蜘蛛的名字在之后我们启动项目会用到他比如

scrapy crawl myfirstspider

后面的两个参数其实没什么用，我们完全可以自己定义

start_urls表示你的第一个进入的网站

scrapy shell

我们做爬虫的时候，大致的流程为，爬取页面。得到相应后用selector(xss,xpath,beautifulsoup)等工具对页面筛选。但是我们不可能一边又一遍的去运行我们的程序。这个时候我们可以使用scrapy shell命令，在终端进行测试

scrapy shell www.baidu.com

小心上当

当我们在用css或者xpath去筛选页面的时候，我们要知道，有一些页面是又js.css3.ajax渲染而成的，因此我们需要得到一个渲染之后的页面，这个时候请使用

view(response)

1.Scrapy基本流程走通

1.Scrapy基本流程走通

Scrapy基本流程走通

文章仅供学习，如有错误，欢迎指出

推荐阅读更多精彩内容