爬虫小试-0217影响因子表

题目来源于生信技能树论坛,参考了几个帖子。 http://www.biotrainee.com/thread-1695-1-1.html http://www.biotrainee.com/thread-1316-1-1.html
比如这个最简单的,表格爬取: http://www.letpub.com.cn/index.p … r=¤tpage=1000 http://www.letpub.com.cn/index.p … tter=¤tpage=3 http://www.letpub.com.cn/index.p … tter=¤tpage=2 http://www.letpub.com.cn/index.p … tter=¤tpage=1 规律很简单,就是url从1增加到1000即可,很简单的循环! 每一个页面只有一个表格,所以很容易提取,用python,perl,R都可以 截止2017年,一共收录期刊:9991份 试试看吧
http://www.zd200572.com/2017/10/09/craw_learnning/

里边最重要的就是正则表达式了,另外就是把想要的内容分离出来,这是个很简单的爬虫,我的代码也很初级,仍需继续努力学习!
遇到的问题有:1、网络连接被切断,估计是没有进行伪装成浏览器的原因;2、才开始正则表达式影响因子中有两位数的,没有考虑;3、有的被除名的标签不一样,导致有影响因子(0.000)没有杂志名。 我的代码如下:

Paste_Image.png
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 136,365评论 19 139
  • 前些日子从@张鑫旭微博处得一份推荐(Front-end-tutorial),号称最全的资源教程-前端涉及的所有知识...
    谷子多阅读 4,472评论 0 44
  • 清蒸鳕鱼(洗净、料酒、少许盐糖生姜粉腌制会,微波炉高火3分钟加蒸鱼档一次,锅中放油、姜片葱段、蒸鱼豉油熬会,倒入鱼...
    紫微妈咪阅读 269评论 0 0
  • 今天和大家讲几个故事。 故事1船长听到水手报告,水手说船底有个螺丝腐蚀了,他在处理,船长听起来,只是一个螺丝,于是...
    海德堡绝尘阅读 663评论 0 47
  • 《感谢自己的不完美》出版于2014年,作者是著名的心理咨询师作家 武志红 老师,他毕业于北京大学临床心理学专业硕士...
    我是苏二苏阅读 674评论 0 1

友情链接更多精彩内容