题目来源于生信技能树论坛,参考了几个帖子。 http://www.biotrainee.com/thread-1695-1-1.html http://www.biotrainee.com/thread-1316-1-1.html
比如这个最简单的,表格爬取: http://www.letpub.com.cn/index.p … r=¤tpage=1000 http://www.letpub.com.cn/index.p … tter=¤tpage=3 http://www.letpub.com.cn/index.p … tter=¤tpage=2 http://www.letpub.com.cn/index.p … tter=¤tpage=1 规律很简单,就是url从1增加到1000即可,很简单的循环! 每一个页面只有一个表格,所以很容易提取,用python,perl,R都可以 截止2017年,一共收录期刊:9991份 试试看吧
http://www.zd200572.com/2017/10/09/craw_learnning/
里边最重要的就是正则表达式了,另外就是把想要的内容分离出来,这是个很简单的爬虫,我的代码也很初级,仍需继续努力学习!
遇到的问题有:1、网络连接被切断,估计是没有进行伪装成浏览器的原因;2、才开始正则表达式影响因子中有两位数的,没有考虑;3、有的被除名的标签不一样,导致有影响因子(0.000)没有杂志名。 我的代码如下: