一:创建项目文件
1.创建一个空的文件夹,名字随意,如:爬虫框架scrapy
2.在上面的文件夹下创建一个py文件,名字随意,如:createmain
3.在创建的py文件里导入模块:from scrapy.cmdline import execute
注意:因为我用的是wingide,所以会加第一行#encoding:utf8,其他ide不用这行,注意后面的所有py文件都要再第一行加#encoding:utf8,其他的ide不用
4.在上面的基础上,敲入下面代码,
创建爬虫项目,execute括号里是列表,列表里三个元素,第三个元素是这个py文件同级目录下的文件夹名称,执行后效果如下:
5.点击cnblogs左边>,可以看到这个文件夹下的内容:
items.py 定义爬虫信息字段
middlewares.py 设置中间件配置
piplines.py 保存解析后的数据(保存到文件或者数据库)
settings.py 设置爬虫配置
6.右击下面的cnblogs创建一个文件,随意起名,如spidermain2
不要点到Add Existing File了
7.把前面的复制过来
再写一行:execute(['scrapy','genspider','blog2','www.cnblogs.com'])
执行一下如下图:
spiders文件夹下多了个blog2.py,这个文件用来 接收响应内容,解析响应数据
二、修改文件内容
先看一下整体:
各个模块的含义:
blog2.py 接收响应内容,解析响应数据
items.py 定义爬虫信息字段
middlewares.py 设置中间件配置
piplines.py 保存解析后的数据(保存到文件或者数据库)
settings.py 设置爬虫配置
1.双击打开item.py,出现以下内容
定义需要提取的字段:
2.双击打开blog2.py,出现以下内容
这个文件里需要输入解析数据的代码:
3.双击打开pipelines.py,出现以下内容
修改后如下:
4.双击打开settings.py,设置请求头和pipelines的配置
把请求头添加进去:
5.修改完后,回到spidermain2.py,
加一行代码:execute(['scrapy','crawl','blog2'])
点击运行
运行顺序是:spidermain2.py➡settings.py➡item.py➡blog2.py➡pipelines.py➡➡blog2.py
需要加#encoding:utf8的文件有三个:
spidermain2.py、blog2.py、pipelines.py
因为我用的是wingide,其他的不同加这个