对豆瓣读书TOP250的爬虫实验

一、创建项目
按照对scrapy的学习，我们通过xshell连接了服务器，并在服务器中创建了scrapy项目，项目名douban

二：修改items.py文件
打开douban文件夹，使用rs命令下载items.py文件，并进行修改

修改内容如下

后期实验中我们发现：作者这一单词“athor”拼写有误，但为了纪念这一困扰我们多时的问题，我们在终于查出错后保留了“athor”这一单词并引以为戒！

三、创建doubanbookspider.py文件
将修改后的文件重新上传，并打开spiders文件，创建doubanbookspider.py文件，文件内容如图

将文件上传，并运行代码：scrapy crawl doubanbookspider -o data.json
运行结果如下：

四：解决拒绝访问的问题
通过观察，发现爬取的文件并不完全，爬取过程中出现403错误，且生成的json文件内容为空。上网查阅资料，发现可通过修改setting.py文件完成爬取。
于是将setting文件中user_agent前的井号去掉并修改相关代码。

再次执行爬取操作

成功爬取250条。
导出json文件

五、css代码示例

六、心得
1.本组进行scrapy爬虫时，选择通过服务器上的scrapy进行，故在对项目进行管理时需要上传或下载图片，为此，我们选择了安装ZModem文件传输的命令行工具，后期发现此过程较为繁琐。在今后爬虫实验中，将尽量使用本机中配置的scrapy进行。
2.在文件修改过程中，对命名需要更加严谨，本次实验中较多错误的产生来自于不同文件中相同元素的引用错误。

对豆瓣读书TOP250的爬虫实验

推荐阅读更多精彩内容