Scrapy笔记
pip 指定源安装模块
pip install -i https://pypi.douban.com/simple/ 模块名
创建Scrapy项目
scrapy startproject 项目名Spider
创建Scrapy爬虫程序
scrapy genspider 爬虫名称 爬虫网站
启动Scrapy爬虫
scrapy crawl 爬虫名
在Pycharm中添加main.py运行调试
import os
import sys
from scrapy.cmdline import execute
sys.path.append(os.path.dirname(os.path.abspath(__file__)))
execute(["scrapy","crawl","爬虫名称"])
Scrapy settings.py配置文件
# Obey robots.txt rules
ROBOTSTXT_OBEY = False
命令行模式
scrapy shell 网站网址