1.Scrapy爬虫之静态网页爬取之二初识scrapy框架及几种常见的爬取方式

1.scrapy框架讲解:

1

downloader实际上是一个下载器,给一个网址发起请求,downloader就负责下载
从scheduler力需要爬取的网址丢给downloader。
spiders的作用是啥,我们爬数据时候页面里面还有链接,返回我们需要继续爬取的链接继续爬。spiders把要的数据给pipline然后发现还有些需要的链接给scheduler,然后形成了一个循环。
我们要抓取大型的数据,需要初始化一个项目,像淘宝这种大型网站,数据抓取,处理等等。但是平时我们需要抓取一些量不多的数据,为了方便,我们只写spider.py.
还有注意:有些是静态网站,有些是动态网站(js,ajax)配置downloadermiddlewares来完成
2.了解scrapy spider:
2.1先知道这个命令:
运行蜘蛛的命令:scrapy runspider spider_test1.py
把运行好的数据写入文件命令:scrapy runspider spider_test1.py -o spider_test1.csv
scrapy runspider spider.py -o xxx.csv 运行一个蜘蛛,再写到csv文件中
2.2scrapy spider几种爬取方式:
1.爬取1页内容
2.按照给定列表爬取多页 给多个url,自己拼接,url用脚本生成好了,在一个列表里灌给蜘蛛
3."下一页"类型
4.按照链接进行爬取

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 本文希望达到以下目标: 简要介绍Scarpy 阅读官网入门文档并实现文档中的范例 使用Scarpy优豆瓣爬虫的抓取...
    Andrew_liu阅读 82,251评论 30 177
  • 这两天摸索了下scrapy,刚看文档的时候觉得有点生无可恋,scrapy框架个人还是觉得比较难懂的,需要学习的地方...
    Treehl阅读 10,962评论 7 10
  • 说起Python,我们或许自然而然的想到其在爬虫方面的重大贡献。Python的流行在于其语言的优美以及良好的氛围。...
    TrancyDeng阅读 10,190评论 12 40
  • D市机场,吴浠看着这熟悉又陌生的城市,心中满是激动。七年了,在国外整整待了七年终于回来了,回到这个自己出生、长大的...
    lcat灵猫阅读 3,051评论 0 0
  • 将课程视频切分,反复学习,加深理解,每一次学习都会发现之前有一些忽略掉的内容,这让我想起成人学习的721模型,只是...
    日更飘阅读 1,092评论 0 0