Scrapy 教程

  • 安装scrapy
    这里提示一个技巧,我们用douban的源,这样安装快些
pip install -i https://pypi.douban.com/simple virtualenv 
  • 用scrapy新建一个工程
scrapy startproject yourProject
  • 新建一个爬虫
scrapy genspider 爬虫名称 example.com(爬虫网址)
  • 这里我是用pycharm和virtualenv,开发的,我在pycharm设置下编译环境,一般在你环境下的bin目录下python2.7
image.png
image.png
  • 由于pycharm没法直接调试scrapy,我们需要自己新建一个main.py来执行scrapy的命令行,新建的main.py代码如下
from scrapy.cmdline import execute

import sys
import os

sys.path.append(os.path.dirname(os.path.abspath(__file__))) #加入该模块
execute(["scrapy", "crawl", "jobbole"]) #相当于命令行 scrapy crawl jobbole(之前设置的爬虫名称)

这样就可以用断点进行调试了

  • 禁止robot协议,避免过滤了有爬虫协议的网站,导致爬的网站很少,😜
    修改settings.py,将
ROBOTSTXT_OBEY = False
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 引用Scrapy 官方教程 一,概述 Scrapy 是一个为了爬取网站数据,提取结构性数据而编写的应用框架,可以使...
    一曲广陵散阅读 890评论 0 0
  • 假设你已经装好了Scrapy,如果没有请查看安装指南.。 将要抓取 quotes.toscrape.com网站。 ...
    ximengchj阅读 4,902评论 0 5
  • Scrapy 教程 本文翻译自scrapy的最新官方教程,觉得有帮助的朋友可以小小打赏一下,谢谢。 首先,用户需要...
    fromradio阅读 1,545评论 2 14
  • 个人想法: 翻译文件源自Scrapy Documentation(Release 1.4.0)而我暂时选定了其中的...
    没有车胎的战车阅读 787评论 0 1
  • 安装步骤:安装相关依赖 进入githup 中 setup.py查看相关依赖: 在终端中查看是否安装: 没有安装的直...
    d1b0f55d8efb阅读 8,256评论 5 2