怎样运行我们的第一个爬虫

在命令行中切换到我们项目的根目录,输入下面命令让我们的爬虫运行:

    scrapy crawl quotes

此命令运行的是我们创建名为quotes的爬虫,我们的爬虫将会向quotes.toscrape.com网站提出访问请求,而你将会在命令行中得到类似这样的的返回响应:

    ...(此处省略了部分内容)
    2016-12-16 21:24:05 [scrapy.core.engine] INFO: Spider opened
    2016-12-16 21:24:05 [scrapy.extensions.logstats] INFO: Crawled 0 page (at 0 page/min), scraped 0 itmes (at 0 items/min)
    2016-12-16 21:24:05 [scrapy.extensions.telnet] DEBUG: Telnet console listenting on 27.
    2016-12-16 21:24:05 [scrapy.core.engine] DEBUG: Crawled (404) <GET http://quotes.toscrape.com/robots.txt>(referer: None)
    2016-12-16 21:24:05 [scrapy.core.engine] DEBUG: Crawled (200) <GET http://quotes.toscrape.com/page/1/>(referer: None)
    2016-12-16 21:24:05 [scrapy.core.engine] DEBUG: Crawled (200) <GET http://quotes.toscrape.com/page/2/>(referer: None)
    2016-12-16 21:24:05 [quotes] DEBUG: Save file quotes-1.html
    2016-12-16 21:24:05 [quotes] DEBUG: Save file quotes-2.html
    2016-12-16 21:24:05 [scrapy.core.engine] INFO: Closing Spider(finished)

现在查看当前目录,你将会发现两个新文件:quotes-1.htmlquotes-2.html,后期我们将会解析两文件保存了各自链接中的HTML内容。


注意:我们将会在接下来的内容中讲解如何解析HTML网页。


最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...
    passiontim阅读 174,822评论 25 709
  • Ubuntu的发音 Ubuntu,源于非洲祖鲁人和科萨人的语言,发作 oo-boon-too 的音。了解发音是有意...
    萤火虫de梦阅读 99,741评论 9 468
  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 135,288评论 19 139
  • linux资料总章2.1 1.0写的不好抱歉 但是2.0已经改了很多 但是错误还是无法避免 以后资料会慢慢更新 大...
    数据革命阅读 12,270评论 2 33
  • 感觉到有人在等着我 我便走出房间,走进了夜色里面 路灯在门口的消失了,留下了暗淡的夜色 一辆车从昏黄中冲进来,带起...
    一口一个灰熊阅读 280评论 0 0