1、创建scrapy项目
在开始爬取之前,我们首先要创建一个scrapy项目,在命令行输入以下命令即可创建
scrapy startproject xxx
xxx是你要新建的项目名称
项目名称必须以字母开头,并且仅包含字母、数字和下划线
运行结果:
创建项目成功后,会看到以下的文件结构:
文件作用:
project_name/
scrapy.cfg:
project_name/
__init__.py
items.py
pipelines.py
settings.py
spiders/
__init__.py
scrapy.cfg 项目的总配置文件,通常无须修改。。(真正爬虫相关的配置信息在settings.py文件中)
items.py 设置数据存储模板,用于结构化数据,通常就是定义 N 个属性,该类需要由开发者来定义。
pipelines 项目的管道文件,它负责处理爬取到的信息。例如存入数据库或者生成xml文件等。该文件需要由开发者编写。
settings.py 配置文件,如:递归的层数、并发数,延迟下载等
spiders 爬虫目录,如:创建文件,编写爬虫解析规则
2.创建爬虫应用程序
cd project_name(进入项目目录,最外层的project_name)
scrapy genspider 应用名称 爬取网页的起始url
(例:scrapy genspider movie80 www.80s.tw/movie/list)
创建爬虫应用程序后,会在项目的spiders中生成一个应用名称的py爬虫文件,如下图:
文件源码如下(为方便查看,修改了部分内容):
import scrapy
class Movie80Spider(scrapy.Spider):
name = 'movie80' # 应用名称
allowed_domains = ['80s.tw'] # 允许爬取的域名,需要手动修改(如果遇到非该域名的url则爬取不到数据,但是对于start_urls里的起始爬取页面,它是不会过滤的)
start_urls = ['https://www.80s.tw/movie/list/'] # 起始爬取的url
# 访问起始URL并获取结果后的回调函数,该函数的response参数就是向起始的url发送请求后,获取的响应对象.该函数返回值必须为可迭代对象或者NUll
def parse(self, response):
print("爬虫开始运行,结果如下————")
print(response) # 获取字符串类型的响应内容
注:创建爬虫应用程序时,填写爬取网页的起始url一定不要带https:// 或者http://,不然会出现以下错误
3、修改settings类
修改内容及其结果如下:
# 忽略robots协议
ROBOTSTXT_OBEY = False
# 伪装请求头
DEFAULT_REQUEST_HEADERS = {
"user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36",
"Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8"
}
4、执行爬虫程序
scrapy crawl 应用名称
成功则如下图
5、遇到的一些错误
5.1、运行爬虫时报错 Unknow command:crawl
注:执行爬虫程序时要先将目录切换到我们创建的最外层的scrapy项目目录下,
否则就会出现以下错误:
5.2、运行爬虫时报错 SyntaxError: (unicode error) 'utf-8' codec can't decode byte 0xc5 in position 0: invalid continuation byte
问题:
解决办法:
在应用程序的爬虫文件的第一行加上以下代码就ok:
# -*- coding: utf-8 -*-
5.3、运行爬虫时数据无异常,但报错 robotstxt_body = robotstxt_body.decode('utf-8')
问题:
这是由于遵守了 Robot协议造成的,所以我们需要拒绝遵守 Robot协议
解决办法:
在settings.py中加入以下代码:
ROBOTSTXT_OBEY = False
爬虫框架scrapy篇一——scrapy的架构
爬虫框架scrapy篇三——数据的处理与持久化以及遇到的一些问题
爬虫框架scrapy篇四——数据入库(mongodb,mysql)
爬虫框架scrapy篇五——其他操作:post翻页请求
爬虫框架scrapy篇六——修改成scrapy-redis分布式爬虫