以麦田为例,
1.新建项目、爬虫应用
scrapy startproject houseinfo
cd houseinfo
scrapy genspider maitian maitian.com
2.在redis中代码修改的地方,修改为如下
# bind 127.0.0.1
protected-mode no
3.项目内各个文件编写
爬虫主程序maitian.py
item.py
pipeline.py
修改Settings.py文件(要认真看)
4.开启redis服务端和客户端:
redis-server ./redis.windows.conf
redis-cli
5.进入spider文件夹,运行爬虫文件
scrapy runspider maitian.py
6.在redis客户端,向调度器队列中扔入一个起始url(在redis客户端中操作)
lpush maitian:start_url http://bj.maitian.cn/zfall/
7.查看结果
keys * # 得到队列名:items(存放数据)
查看内容:
lrange maitian:items 0 -1