一、实验目的:
本次实验旨在在scrapy应用框架下,通过使用CSS路径爬取豆瓣图书top250网页信息,包括图书封面图片路径、介绍、作者、书名、出版社、价格等信息,熟悉并掌握数据挖掘、存储数据等系列程序。
二、实验过程:
- 使用xshell连接云服务器
-
新建项目(Project)
-
明确目标(Items)
4.制作爬虫(Spider)
(1)本小组在本地编写代码,通过xftp将代码文件传至云服务器,如下图所示,包括piplines.py, doubanspider.py, items.py, settings.py。其中doubanspider.py新创建至spiders文件下,其他三个文件分别覆盖douban目录下已存在的文件。
(2)在spiders文件夹下新建doubanspider.py文件(本实验只显示部分代码)
xpath:
css:
(3)为防止被豆瓣反爬虫机制阻挡,我们对setting.py文件的代码进行了如下更改,如下图所示:
(4)在xshell中,先进入douban文件:
cd douban
ps:可以通过ls douban 来查看文件是否存在
(5)输入以下语句启动爬虫:
- 爬取结果
爬取结果以json存储,结果如下图所示:
三、报错及问题:
1.报错显示如下,本组成员查询后发现,Python默认编码文件是ASCII码,需要文件开头加入#--coding:UTF8--
2.报错显示如下,我们将settings.py文件中的相关代码注释掉,运行成功(但该错误具体原因我们目前还是不甚了解)
四、感想与体会
本组成员在最初接触scrapy时,由于对其框架了解不够,实验进程缓慢,通过查阅资料、阅读相关博客进一步自学后逐渐掌握scrapy框架及数据爬取相关过程。实验结束后,小组成员对于scrapy的认知与操作进一步具体化。