登录注册写文章

2022-01-19scrapy开发流程

人工智能从0到1

2022-01-19scrapy开发流程

一：创建项目文件
1.创建一个空的文件夹，名字随意，如：爬虫框架scrapy

2.在上面的文件夹下创建一个py文件，名字随意，如：createmain

3.在创建的py文件里导入模块：from scrapy.cmdline import execute

注意：因为我用的是wingide，所以会加第一行#encoding:utf8，其他ide不用这行，注意后面的所有py文件都要再第一行加#encoding:utf8，其他的ide不用

4.在上面的基础上，敲入下面代码，

创建爬虫项目，execute括号里是列表，列表里三个元素，第三个元素是这个py文件同级目录下的文件夹名称，执行后效果如下：

5.点击cnblogs左边>,可以看到这个文件夹下的内容：

items.py 定义爬虫信息字段
middlewares.py 设置中间件配置
piplines.py 保存解析后的数据（保存到文件或者数据库）
settings.py 设置爬虫配置
6.右击下面的cnblogs创建一个文件，随意起名，如spidermain2

不要点到Add Existing File了

7.把前面的复制过来

再写一行：execute(['scrapy','genspider','blog2','www.cnblogs.com'])

执行一下如下图：

spiders文件夹下多了个blog2.py,这个文件用来接收响应内容，解析响应数据

二、修改文件内容
先看一下整体：

各个模块的含义：
blog2.py 接收响应内容，解析响应数据
items.py 定义爬虫信息字段
middlewares.py 设置中间件配置
piplines.py 保存解析后的数据（保存到文件或者数据库）
settings.py 设置爬虫配置

1.双击打开item.py，出现以下内容

定义需要提取的字段：

2.双击打开blog2.py，出现以下内容

这个文件里需要输入解析数据的代码：

3.双击打开pipelines.py，出现以下内容

修改后如下：

image.png

4.双击打开settings.py，设置请求头和pipelines的配置

取消这几行注释

把请求头添加进去：

取消这几行注释

5.修改完后，回到spidermain2.py，

加一行代码：execute(['scrapy','crawl','blog2'])
点击运行
运行顺序是：spidermain2.py➡settings.py➡item.py➡blog2.py➡pipelines.py➡➡blog2.py

需要加#encoding:utf8的文件有三个：
spidermain2.py、blog2.py、pipelines.py
因为我用的是wingide，其他的不同加这个

最后编辑于：2022.01.20 18:34:51

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

python django开发教程 & 机器学习
title: python语法练习参考阮一峰等多个文件用来练习python基本语法 [TOC] import文件...
采香行处蹙连钱阅读 2,399评论 0赞 2
9.2 scrapy安装及基本使用
https://www.lfd.uci.edu/~gohlke/pythonlibs/#lxml 下载即可。安装...
怂恿的大脑阅读 1,289评论 0赞 7
手把手教你用Python实现分布式爬虫(四) - scrapy爬取技术文章网站
相关源码搭建scrapy的开发环境，本文介绍scrapy的常用命令以及工程目录结构分析，本文中也会详细的讲解xp...
JavaEdge阅读 1,316评论 0赞 1
scrapy入门
来源:天涯明月笙的慕课笔记准备工作系统windows7 安装MYSQL提示:安装的时候, 选安装选项serve...
那个人_37d7阅读 1,286评论 0赞 0
爬虫课堂（十七）|Scrapy爬虫开发流程
Scrapy爬虫开发流程一般包括如下步骤：1）确定项目需求。2）创建Scrapy项目。3）定义页面提取的Item。...
小怪聊职场阅读 3,213评论 0赞 12

赞1赞

赞赏

手机看全文