1.Scrapy基本流程走通

Scrapy基本流程走通

文章仅供学习,如有错误,欢迎指出

创建我们的第一个spider

C:\Users\Alpaca\Desktop\scrapy\1-伯乐在线\firstspider>scrapy genspider myfirstspider www.baidu.com
Created spider 'myfirstspider' using template 'basic' in module:
  firstspider.spiders.myfirstspider

不同种类的spider

运行创建爬虫的命令时,加入-t 我们会发现他有四种不同的模式

常用的有两种 basic和crawl

文章之后会对这两种模板进行介绍

当我们创建完成一个spider的时候

class MyfirstspiderSpider(scrapy.Spider):
    name = 'myfirstspider'
    allowed_domains = ['www.baidu.com']
    start_urls = ['http://www.baidu.com/']

    def parse(self, response):
        pass

这里用的是basic模板 ,我会在第三篇博客上介绍crawl的模板(相当方便)

他是继承自spider的

name表示我们蜘蛛的名字 在之后我们启动项目会用到他 比如

scrapy crawl myfirstspider

后面的两个参数其实没什么用,我们完全可以自己定义

start_urls表示你的第一个进入的网站

scrapy shell

我们做爬虫的时候,大致的流程为,爬取页面。得到相应后用selector(xss,xpath,beautifulsoup)等工具对页面筛选。但是我们不可能一边又一遍的去运行我们的程序。这个时候我们可以使用scrapy shell命令,在终端进行 测试

scrapy shell www.baidu.com

小心上当

当我们在用css或者xpath去筛选页面的时候,我们要知道,有一些页面是又js.css3.ajax渲染而成的,因此我们需要得到一个渲染之后的页面,这个时候请使用

view(response)
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容