Scrapy爬虫项目创建

1.新建一个爬虫项目

可以使用 scrapy startproject 项目名称

2.创建一个自己的爬虫文件

scrapy genspider 文件名字+目标网站的域名

3.在items文件中定义自己要爬取的字段

字段的名字自己定义

4.在自己创建的爬虫文件夹下编写爬虫代码

这个自动生成的类中有一个parse方法,这个方法中有自带的response对象(可以直接使用xpath语法),只需要在这个方法中编写自己的爬虫,然后导入自己在items中创建的字段类,把获取到的数据保存到这些字段当中,最后用yield函数返回数据到管道(pipelines)当中

5.在管道中对获取到的数据进行持久化操作

如果保存数据库的话可以在settings文件中提前设置号各个数据库要用到的变量,然后导入这些数据库的信息,构建连接数据库的方式,最后插入数据

6.进入自己创建的爬虫目录下

使用(scrapy crawl +自己爬虫文件的名称)来进行项目的运行

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 序言第1章 Scrapy介绍第2章 理解HTML和XPath第3章 爬虫基础第4章 从Scrapy到移动应用第5章...
    SeanCheney阅读 15,224评论 13 61
  • 坚守自己 ,执着目标。零乱的思绪依然困扰着我,无论有多难,只有克制,突破摆在眼前的目标,许多问题就迎刃而解。目前思...
    南啸阅读 2,187评论 0 0
  • 新年伊始,我鼓足勇气参加了这期焕新班,通过这期焕新打算完成以下目标: 1坚持每天精读一篇经济学人文章。 2每天听...
    Nicole93阅读 1,027评论 0 1
  • 中级写作课程 40节课程,高级水平 写作提升步骤:文章,论文,报告,研究等。 分析任务,规划您的论点,参与起草过程...
    zdtjnfhxmf阅读 3,576评论 1 0
  • 基本配置 其它命令 查看邻居关系 确认路由 只看EIGRP路由 关闭自动汇总 手工汇总
    singed阅读 3,375评论 0 0