scrapy从入门到放弃

什么是scrapy

Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。可以应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。

了解scrapy你需要知道的知识

1、xpath。

2、正则表达式。

3、基本的HTML、css知识。

4、selenium。

5、Python的基础语法。对于有编程基础的开发人员来说，这个不是必须的，你可以边写边查询。但是个人建议首先要了解Python的基础语法。

一、第一个scrapy项目（以爬取京东数据为例）

1、scrapy 命令创建项目

scrapy startproject jd jd.com：说明，scrapy startproject 项目名称（这里是空格）要爬取的网站的域名

项目目录结构

jd-|项目的根目录

--spiders|爬虫代码

--items.py|爬虫的模型文件，这里定义了爬取的数据的关键数据（个人认为这个非必须，有了之后维护更加方便）

--middlewares.py|中间件，爬虫爬请求数据可以通过这个进行爬取

--pipelines.py|管道，这个地方主要和数据存储打交道，把模型定义好的数据进行存储

--settings.py|项目的配置文件

scrapy.cfg-项目的主配置文件，定义了项目的入口，爬虫的位置

最后编辑于：2017.12.11 14:01:00

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。