roots.txt文件解读
通过一天多的努力,我终于成功搭建好了云服务器上的各种环境并去抓取了数据。在这个过程中,我先用了MobaXterm,后改用了Xshell。
*1. MobaXterm使用体验
MobaXterm是一个很方便的软件,它免安装,连接迅速,并且代码书写界面美观。
然而,在我使用了一段时间后,也发现了它的一些瑕疵。MobaXterm连接是不太稳定的,即使我更改过了设置,情况也没有改善。
除此之外,我还遇上了上传文件权限不足的问题
通过,多方查找,这是由于新用户并没有获得对文件进行操作的权限,这可以通过
sudo chmod 777 spiders(文件名)
命令来赋予用户权限。
*2. Xshell使用体验
相较于MobaXterm而言,Xshell需要安装
连接云服务器成功界面
但是,Xshell连接较稳定,页面简单。上传下载文件,Xshell需要安装Xftp软件,安装过后,我上传下载文件并没有受到权限限制,
总的来说,就界面设计而言,我更喜欢MobaXterm,但是就使用体验来说,我更倾向由于Xshell。
*3. 抓取数据存成json格式并转换为xml
当在本地编写好spiders文件后(我使用的是Notepad++),将其上传到spiders目录下,执行scrapy crawl quot(爬虫名字)命令
我需要将爬取下来的数据存成json文件格式,使用以下命令:
scrapy crawl qout -o aaa.json
其中qout是爬虫名称,aaa.json是你想保存的json文件名称。爬取结束后,我们可以在spiders目录下看到新生成的aaa.json文件。
接下来,可以用
sz aaa.json(文件名)
命令来下载该文件。下载下来的json文件里数据很多,所以,我找了一个比较投机取巧的方式来将它转换成xml格式。
JSON与XML互转这个网站能够将json与xml进行相互转换。
我抓取的json文件与转换后的xml文件:json文件与xml