SCRAPY的四大金钢2019-02-26

就目前学到的这点知识,先做个总结,饲养虫子得有四大金钢:settings.py,items.py,pipelines.py以及spider文件夹里的那些你自己可起起名字的虫子。settings是配置文件,利用这个文件,你可以对虫子的行动进行总控。items设置你是抓的项目,命名一定要简洁,这些项目既有网页里的项目,你也可以设定自己的项目,如时间。而pipelines则是设置抓取后数据的走向,你可以把数据写进数据库,也可以写到json,json line等文件里。至于spider文件夹里的虫子,则是干活的主力,你要根据任务需要进行设置。饲养虫子最费工夫的就在这里。

首先你的学习如何配置饲料,CSS和XPATH学一下,谷歌、火狐两个浏览器下的WEB开发工具得搞得掂。

其次你得学习饲料的预处理,抓取的元素如果没有把握,就在SCRAPY SHELL里先试好。

然后,把这些饲料喂给小虫子,这些虫子才会干活。

最后,作为法律人,我两提醒各位养殖户,你的虫子不能到别人家里去啃庄稼,吃点别人地里的草就行了,啃庄稼多了,会有牢狱之灾。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容