就目前学到的这点知识,先做个总结,饲养虫子得有四大金钢:settings.py,items.py,pipelines.py以及spider文件夹里的那些你自己可起起名字的虫子。settings是配置文件,利用这个文件,你可以对虫子的行动进行总控。items设置你是抓的项目,命名一定要简洁,这些项目既有网页里的项目,你也可以设定自己的项目,如时间。而pipelines则是设置抓取后数据的走向,你可以把数据写进数据库,也可以写到json,json line等文件里。至于spider文件夹里的虫子,则是干活的主力,你要根据任务需要进行设置。饲养虫子最费工夫的就在这里。
首先你的学习如何配置饲料,CSS和XPATH学一下,谷歌、火狐两个浏览器下的WEB开发工具得搞得掂。
其次你得学习饲料的预处理,抓取的元素如果没有把握,就在SCRAPY SHELL里先试好。
然后,把这些饲料喂给小虫子,这些虫子才会干活。
最后,作为法律人,我两提醒各位养殖户,你的虫子不能到别人家里去啃庄稼,吃点别人地里的草就行了,啃庄稼多了,会有牢狱之灾。