scrapy爬虫框架(一):scrapy框架简介

一、安装scrapy框架

#打开命令行输入如下命令:
pip install scrapy

二、创建一个scrapy项目

安装完成后,python会自动将 scrapy命令添加到环境变量中去,这时我们就可以使用 scrapy命令来创建我们的第一个 scrapy项目了。

打开命令行,输入如下命令

scrapy startproject yourproject

这里的 startproject 命令将会在当前目录下创建一个 scrapy项目,后面跟着的参数是需要创建的项目的名称。

比如这里我们会创建一个名为 yourproject 的项目,项目结构如下:

yourproject/
    scrapy.cfg
    yourproject/
        __init__.py
        items.py
        pipelines.py
        settings.py
        spiders/
            __init__.py
            ...

这些文件分别是:

  • scrapy.cfg: 项目的配置文件
  • yourproject/: 该项目的python模块。该项目的所有代码都在这个目录下
  • yourproject/items.py: 项目中的item文件,我们在这个文件里定义要爬取的数据,有点类似于 Django的 model。
  • yourproject/pipelines.py:项目中的pipelines文件(我把这个称为通道文件,意思就是数据处理的通道),对爬取到的数据进行处理(如:储存)
  • yourproject/settings.py: 项目的设置文件,设置全局变量的值、通道的开启和关闭以及多个通道和爬虫的执行优先级
  • yourproject/spiders/: 爬虫的主要逻辑都在这个文件夹里,包括页面请求、数据提取、反爬措施等。

.

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 序言第1章 Scrapy介绍第2章 理解HTML和XPath第3章 爬虫基础第4章 从Scrapy到移动应用第5章...
    SeanCheney阅读 15,206评论 13 61
  • 设置 Scrapy设置允许您自定义所有Scrapy组件的行为,包括核心,扩展,管道和爬虫本身。 设置的基础结构提供...
    俊采星驰_87e0阅读 6,749评论 0 1
  • 老于的世界(一) 老于的世界(二) 老于坐在对面,瞪大着眼睛,死盯着面前的铁栏杆,有点恶狠狠的样子。这目光让我有些...
    福豆荚阅读 2,784评论 0 5
  • 头发已经很多天没洗了,此刻正像方便面一样油腻地搭在脸上,幽幽散发出让人难过的味道…… 要出门去会春光,一大早起来就...
    又新阅读 3,118评论 0 0
  • 曾经,我也是你血肉之躯的一部分 为什么 一旦脱离你的怀抱 你就把我视为——污垢
    樵砥阅读 1,638评论 0 1