爬取豆瓣图书top250信息实验报告

一、实验目的:
本次实验旨在在scrapy应用框架下,通过使用CSS路径爬取豆瓣图书top250网页信息,包括图书封面图片路径、介绍、作者、书名、出版社、价格等信息,熟悉并掌握数据挖掘、存储数据等系列程序。
二、实验过程:

  1. 使用xshell连接云服务器
  2. 新建项目(Project)


  3. 明确目标(Items)



    4.制作爬虫(Spider)
    (1)本小组在本地编写代码,通过xftp将代码文件传至云服务器,如下图所示,包括piplines.py, doubanspider.py, items.py, settings.py。其中doubanspider.py新创建至spiders文件下,其他三个文件分别覆盖douban目录下已存在的文件。



    (2)在spiders文件夹下新建doubanspider.py文件(本实验只显示部分代码)
    xpath:

css:


(3)为防止被豆瓣反爬虫机制阻挡,我们对setting.py文件的代码进行了如下更改,如下图所示:



(4)在xshell中,先进入douban文件:

cd douban
ps:可以通过ls douban 来查看文件是否存在

(5)输入以下语句启动爬虫:


  1. 爬取结果
    爬取结果以json存储,结果如下图所示:

    三、报错及问题:
    1.报错显示如下,本组成员查询后发现,Python默认编码文件是ASCII码,需要文件开头加入#--coding:UTF8--

2.报错显示如下,我们将settings.py文件中的相关代码注释掉,运行成功(但该错误具体原因我们目前还是不甚了解)



四、感想与体会
本组成员在最初接触scrapy时,由于对其框架了解不够,实验进程缓慢,通过查阅资料、阅读相关博客进一步自学后逐渐掌握scrapy框架及数据爬取相关过程。实验结束后,小组成员对于scrapy的认知与操作进一步具体化。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容