python使用Scrapy框架进行爬虫编程

文档地址 :scrapy-chs.readthedocs.io

1.首先要安装 Scrapy框架

pip install scrapy 进行框架安装

在没有 Scrapy的时候,我们怎么做数据抓取的

urllib和requests 多线程和协程提高速度 等

什么是Scrapy ?

Scrapy 是一套基于Twisted的异步处理框架 是纯python实现爬虫框架 用户只需要定制开发模块就可以轻松的实现一个爬虫

用来抓取网页内容或者图片

2.mongodb安装

3.mongodb的管理工具

Studio 3T 4.新建Scrapy项目

首先生成一个Scrapy框架

你想把框架生成到哪个文件下 就 cd 到那个目录下

然后进行 框架安装

命令:scrapy startproject 项目名称

生成写正则的文件 首先要切换到spiders目录下

命令: scrapy genspider 文件名 你要采集的网址

数据储存命令:scrapy crawl 文件名 -o test.csv/test.json

然后就可以在你生成的文件中进行编写

image.png
image.png
image.png
image.png
image.png
image.png
image.png
image.png
image.png
image.png
image.png

创建一个main文件 然后运行 就会爬到此网站的所有信息


image.png
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容