爬虫框架Scrapy的安装及简单用法

一、安装

       对于初学者来说,好不容易简单的学会了使用Python爬取数据,如今想更深入的玩爬虫,于是开始去学习最流行的爬虫框架-Scrapy,但是问题要来了,要学习必须要先安装,很多同学都望而怯步了,因为安装 Scrapy还挺麻烦的,特别是使用 Windows的同学来说,简直是要崩溃,好了,不扯了,接下来直接进入正题,以 wind7 安装 Scrapy为例;要想成功安装 Scrapy ,则必须要经过以下几个步骤:

        1.anaconda    https://www.anaconda.com/download/   (可选:这个库已经包含了所有基本库了,一般安装这个即可)

         2.pywin32    http://sourceforge.net/projects/pywin32/files/    (推荐直接进入下载:https://github.com/mhammond/pywin32/releases)

        3.lxml  pip  install  lxml (xpath的解析库,这里虽然可以安装没问题,但是在使用etree模块的时候出现问,因此还是建议手动先到此网址下下载.whl文件:https://www.lfd.uci.edu/~gohlke/pythonlibs/#lxml,安装方法和第五步本地安装一样)

        4.cryptography  pip  install  cryptography (用于加密的 Python 库)

        5.twisted  pip  install  twisted      (一般会在这一步挂彩)

        6.scrapy  pip  install  scrapy

        以上是安装Scrapy毕竟的步骤,上面第一第二步直接下载对应版本的可执行文件然后像普通软件那样安装即可,第三第四步一般不会出现什么问题,但是第五步就如果使用 pip 进行安装则可能会如下错误:

        因为这个错误,会导致最后一步无法安装 Scrapy,那么现在我们如何去解决呢?不要着急,首先我们先进入: https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted 下载 相应版本 的文件:

        下载好之后,打开命令窗口提示符执行命令: pip  install  D:\MySoftware\MyPython\Python3.6.4\twisted  Twisted-17.9.0-cp36-cp36m-win_amd64.whl  (下载好的twisted模块的whl文件路径)

         万事具备,接下来我们在执行安装 Scrapy 命令即可:

        到这里我们就大功告成了,那么我们如何测试是否安装成功?直接在命令窗口中输入:scrapy  出现如下版本即表示已经安装成功:

二、创建工程

       既然环境已经安装好了,那么这时候同学们是不是迫不及待的想去练练手呢?好,那么我们现在就开搞,首先指定一个存放爬虫项目的路径,然后执行命令创建项目:scrapy  startproject  项目名

        执行完成之后在制定的目录会自动创建了爬虫项目,为了更加清晰的查看项目的结构,我们打开 PyCharm 进行关联:

        点击“创建”按钮之后会有个提示,直接点击“确定”即可,项目结构效果如下:

        简单认识下工程文件(具体的话不在这里介绍):

        scrapy.cfg                  #工程文件

        sohu_spider/              #工程目录

              spiders/                #所有蜘蛛

              items.py                #项目

              middlewares.py     #中间件

              pipelines.py          #管线

              settings.py             #配置


三、爬取网站数据

        既然工程已经创建,那么我们就以爬取 搜狐 网为例,右键spiders目录创建 my_sohu_spider.py 文件:

        之所以用截图是因为比复制代码整洁,那么如何出现红色方框里面的html文件呢?我们必须要运行爬虫,使用命令指定到项目跟路径下然后执行命令: scrapy  crawl  sohu  (注:sohu是代码中的蜘蛛名字)

        最后我们想 简单爬取单张图片 和 使用选择器爬取 <div>标签中 <a>的文本及链接:

        再使用命令执行,大功告成,其实也挺简单,哈哈哈。。。

        案例代码链接:链接:https://pan.baidu.com/s/1MjZdw5wjAS3EQN4zZkAMQA 密码:ayvf

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,496评论 6 501
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,407评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,632评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,180评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,198评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,165评论 1 299
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,052评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,910评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,324评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,542评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,711评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,424评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,017评论 3 326
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,668评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,823评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,722评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,611评论 2 353

推荐阅读更多精彩内容