(1)创建工程
scrapy startproject name #name为你想创建的工程名字,名字不可与第三方库名冲突
(2)创建爬虫
cd name
scrapy genspider example example.com #scrapy genspider 爬虫名 爬虫网址
(3)修改pass
进入example.py 文件
将pass修改为 print(response.body.decode())
在终端里执行,直接执行py文件没有作用....
scrapy crawl example
有东西输出,但是还是看不见网页的源代码,打开setting.py发现
# Obey robots.txt rulesROBOTSTXT_OBEY = True
将其修改为
# Obey robots.txt rulesROBOTSTXT_OBEY = False
然后就可以发现源代码被打印出来了
(4)在pycharm里面运行
在工程的根目录里面新建一个,main.py文件,输入如下代码就可以了。
from scrapy import cmdline
cmdline.execute("scrapy crawl example".split())