讲道理,还是应该先把正则学一下的,不过因为任务简单,我就简单的尝试用了BeautifulSoup,还是很好用的。
任务1:获取康奈尔图书馆的论文的题目、日期、摘要信息。
图书馆地址:https://arxiv.org/
github代码:https://github.com/leiseraiesecqd/Python-crawler/blob/master/for%20paper%20info.py
========================================
主要解决的问题,获取第一级页面中的N个href链接(论文),依次访问所有链接,进入二级页面(每篇论文的主页),爬取论文的具体信息。
主要的两个方法:
1)bs4.BeautifulSoup/bs4.element.Tag共有的
get_text()---->去掉标签,获取文本信息(返回str类型)
find_all()--->获得标签(返回bs4.element.ResultSet类型,每个元素都是一个bs4.element.Tag)
2)bs4.BeautifulSoup的select()方法,返回bs4.element.Tag类型。
例子:find_all('a')[0]['href']--->获取所有a标签集合中第一个a标签的href值,即链接