本文讲解如何新建一个
Scrapy
项目,并且简要介绍Scrapy
项目的文件结构。
1.新建虚拟环境
安装好virtualenv
包。打开命令行进入要保存虚拟环境的文件夹下,比方:D:\Python
,进入路径,输入virtualenv Text_Spider
创建虚拟环境。然后进入虚拟环境下的Scripts
文件夹,输入activate
命令,此时如果出现以你命名的虚拟环境名为首的提示串则说明成功进入了虚拟环境,如果要退出虚拟环境,则输入:deactivate
。如下图展示了进入虚拟环境后的交互界面。
2.新建Scrapy项目
保证虚拟环境中安装好Scrapy
包后我们开始新建Scrapy
项目,在cmd
中进入你想要保存scrapy
项目的文件夹,我这里选择的是(自定义):(Text_Spider) D:\Python\Test,
需要注意的是,此时你仍然在虚拟环境下。然后继续输入以下命令:(Text_Spider) D:\Python\Test>scrapy startproject Test
,其中,前两个字符串是不能改的,最后一个字符串是项目名(可以自定义),这串命令表示我在Test文件夹下新建了一个以个Test项目,这个项目是运行在虚拟环境(Text_Spider)
中的。
上图是新建项目后的交互界面。
接下来通过Pycharm
打开项目文件,此时可以看到Scrapy
项目的文件结构了。
新建好Scrapy
项目还没有完,此时项目中还没有爬虫文件,下面我以爬取伯乐在线网站为例展示如何新建爬虫(Spider)文件。
回到命令行,进入到项目文件夹下(注意这里必须是进入到项目文件夹中),然后输入:scrapy genspider article_spider http://blog.jobbole.com/
,其中前两个字符串表示新建spider
文件,第三个字符串是自定义的spider
文件名,最后一个字符串是你想爬取的网站。回车之后,出现下面的提示信息说明成功。(请自动忽略尴尬的路径名...)
此时再查看Pycharm
,看到新建的文件出现在Scrapy
文件目录下,终于搞定了~
不要把虚拟环境和项目文件混淆,虚拟环境和项目文件是独立存放的。
scrapy startproject file_name
命令创建一个Scrapy
项目文件scrapy scrapy genspider spider_name you_need_to_crawl_url
命令的作用是在一个Scrapy
项目中创建爬虫文件
3.Scrapy项目的文件结构
上图中就是一个完整的Scrapy
项目的文件结构,红线标识的就是爬虫文件,这里写爬取网站的逻辑。items
文件中定义数据保存的格式。middlewares
文件使得Scrapy
能够更可控。settings
文件包含了很多Scrapy
的配置。pipline
用于编写一些和数据存储相关的代码。
这里仅简单介绍Scrapy
项目的文件结构,后面的文章中还会具体介绍。