对豆瓣读书TOP250的爬虫实验

一、创建项目
按照对scrapy的学习,我们通过xshell连接了服务器,并在服务器中创建了scrapy项目,项目名douban


二:修改items.py文件
打开douban文件夹,使用rs命令下载items.py文件,并进行修改



修改内容如下


后期实验中我们发现:作者这一单词“athor”拼写有误,但为了纪念这一困扰我们多时的问题,我们在终于查出错后保留了“athor”这一单词并引以为戒!

三、创建doubanbookspider.py文件
将修改后的文件重新上传,并打开spiders文件,创建doubanbookspider.py文件,文件内容如图


将文件上传,并运行代码:scrapy crawl doubanbookspider -o data.json
运行结果如下:


四:解决拒绝访问的问题
通过观察,发现爬取的文件并不完全,爬取过程中出现403错误,且生成的json文件内容为空。上网查阅资料,发现可通过修改setting.py文件完成爬取。
于是将setting文件中user_agent前的井号去掉并修改相关代码。


再次执行爬取操作


成功爬取250条。
导出json文件


五、css代码示例


六、心得
1.本组进行scrapy爬虫时,选择通过服务器上的scrapy进行,故在对项目进行管理时需要上传或下载图片,为此,我们选择了安装ZModem文件传输的命令行工具,后期发现此过程较为繁琐。在今后爬虫实验中,将尽量使用本机中配置的scrapy进行。
2.在文件修改过程中,对命名需要更加严谨,本次实验中较多错误的产生来自于不同文件中相同元素的引用错误。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • Python开发简单爬虫(Python2.X版本,Eclipse工具) 一、爬虫介绍 爬虫调度端:启动、停止爬虫,...
    凛0_0阅读 2,150评论 2 10
  • scrapy学习笔记(有示例版) 我的博客 scrapy学习笔记1.使用scrapy1.1创建工程1.2创建爬虫模...
    陈思煜阅读 12,785评论 4 46
  • 序言第1章 Scrapy介绍第2章 理解HTML和XPath第3章 爬虫基础第4章 从Scrapy到移动应用第5章...
    SeanCheney阅读 15,164评论 13 61
  • 这两天摸索了下scrapy,刚看文档的时候觉得有点生无可恋,scrapy框架个人还是觉得比较难懂的,需要学习的地方...
    Treehl阅读 5,678评论 7 10
  • 就像两种截然不同的生活方式,两个截然相反的世界。不过这并不冲突。 每天在操场上看着身边跑步的人,有快的,有慢的,有...
    辛尔阅读 427评论 0 1