一、创建项目
按照对scrapy的学习,我们通过xshell连接了服务器,并在服务器中创建了scrapy项目,项目名douban
二:修改items.py文件
打开douban文件夹,使用rs命令下载items.py文件,并进行修改
修改内容如下
后期实验中我们发现:作者这一单词“athor”拼写有误,但为了纪念这一困扰我们多时的问题,我们在终于查出错后保留了“athor”这一单词并引以为戒!
三、创建doubanbookspider.py文件
将修改后的文件重新上传,并打开spiders文件,创建doubanbookspider.py文件,文件内容如图
将文件上传,并运行代码:scrapy crawl doubanbookspider -o data.json
运行结果如下:
四:解决拒绝访问的问题
通过观察,发现爬取的文件并不完全,爬取过程中出现403错误,且生成的json文件内容为空。上网查阅资料,发现可通过修改setting.py文件完成爬取。
于是将setting文件中user_agent前的井号去掉并修改相关代码。
再次执行爬取操作
成功爬取250条。
导出json文件
五、css代码示例
六、心得
1.本组进行scrapy爬虫时,选择通过服务器上的scrapy进行,故在对项目进行管理时需要上传或下载图片,为此,我们选择了安装ZModem文件传输的命令行工具,后期发现此过程较为繁琐。在今后爬虫实验中,将尽量使用本机中配置的scrapy进行。
2.在文件修改过程中,对命名需要更加严谨,本次实验中较多错误的产生来自于不同文件中相同元素的引用错误。