Python爬虫学习笔记(1.1)爬取本地页面

<h2>1.导入BeautifulSoup库</h2>

from bs4 import BeautifulSoup

<h2>2.使用open()函数打开本地页面</h2>

with open('./web/new_index.html','r') as wb_data:

<h2>3.使用BS构造解析文件并输出解析结果</h2>

with open('./web/new_index.html','r') as wb_data:
    Soup = BeautifulSoup(wb_data,'lxml')
    print(Soup)

运行后读出的是所有的网页信息,接下来去找我们需要的信息并描述爬取的元素位置

E674E70A-610E-40A1-AECB-3CE6BD5B0251.png

可以看到这个网页上每一个条目上面有五个元素,分别是图片、标题、分类标签、描述、评分。现在把它们一一对应的爬取下来。
<h2>4.使用chrome浏览器copy selector获取每个元素的CSS Selector</h2>
(首先找到页面对应元素的位置右击选择检查)


91C209FA-FBEE-4BAB-85B1-0CEE1908E5C7.png

以下是五个元素的CSS Selector

body > div.main-content > ul > li:nth-child(1) > div.rate > span
body > div.main-content > ul > li:nth-child(1) > div.article-info > p.description
body > div.main-content > ul > li:nth-child(1) > div.article-info > p.meta-info > span:nth-child(2)
body > div.main-content > ul > li:nth-child(1) > div.article-info > h3 > a
body > div.main-content > ul > li:nth-child(1) > img

因为一个网页中元素是多个的,上述的CSS Selector是单一元素的,所以我们要去掉描述具体位置的信息(比如nth-child(1)),还有,cates(分类标签)如果直接定位到span会打乱它与文章的多对一的关系,导致输出后只会显示一个分类标签,而实际上应该有两个或者更多的标签,所以我们需要在它的父级元素p.meta-info就应该停下来,OK,写入程序后如下

with open('./web/new_index.html','r') as wb_data:
    Soup = BeautifulSoup(wb_data,'lxml')
    images = Soup.select('body > div.main-content > ul > li > img')
    titles = Soup.select('body > div.main-content > ul > li > div.article-info > h3 > a')
    descs = Soup.select('body > div.main-content > ul > li > div.article-info > p.description')
    rates = Soup.select('body > div.main-content > ul > li > div.rate > span')
    cates = Soup.select('body > div.main-content > ul > li > div.article-info > p.meta-info')
    print(images,titles,descs,rates,cates,sep='\n----------------\n')

<h2>5.筛选并释放每一个标签的所需信息</h2>

for title,image,desc,rate,cate in zip(titles,images,descs,rates,cates):
    data = {
        'title':title.get_text(),
        'rate':rate.get_text(),
        'desc':desc.get_text(),
        'cate':list(cate.stripped_strings),
        'image':image.get('src')
    }
    print(data)

上面有两点要注意,第一点:image的信息并不是文本,所以不能用get_text(),而是直接用get('src')获取图片的路径信息。第二点:由于cate(分类标签)筛选的时候是在它的父级元素停下来的,所以应当使用stripped_strings方法,这个方法可以获取到父级元素下的所有子元素,这样我们就可以得到所有的cate,再将它放入到一个list()中。
<h2>6.小拓展,将数据统一放入一个列表中,并循环筛选出评分大于3分的文章</h2>

from bs4 import BeautifulSoup

info = []
with open('./web/new_index.html','r') as wb_data:
    Soup = BeautifulSoup(wb_data,'lxml')
    images = Soup.select('body > div.main-content > ul > li > img')
    titles = Soup.select('body > div.main-content > ul > li > div.article-info > h3 > a')
    descs = Soup.select('body > div.main-content > ul > li > div.article-info > p.description')
    rates = Soup.select('body > div.main-content > ul > li > div.rate > span')
    cates = Soup.select('body > div.main-content > ul > li > div.article-info > p.meta-info')
#    print(images,titles,descs,rates,cates,sep='\n----------------\n')

for title,image,desc,rate,cate in zip(titles,images,descs,rates,cates):
    data = {
        'title':title.get_text(),
        'rate':rate.get_text(),
        'desc':desc.get_text(),
        'cate':list(cate.stripped_strings),
        'image':image.get('src')
    }
    print(data)
    info.append(data)

for i in info:
    if float(i['rate'])>3:
        print(i['title'],i['cate'])
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 问答题47 /72 常见浏览器兼容性问题与解决方案? 参考答案 (1)浏览器兼容问题一:不同浏览器的标签默认的外补...
    _Yfling阅读 13,862评论 1 92
  • 一:在制作一个Web应用或Web站点的过程中,你是如何考虑他的UI、安全性、高性能、SEO、可维护性以及技术因素的...
    Arno_z阅读 1,275评论 0 1
  • 怀恋故居 只因那里有童年最美好的回忆 那时我还未长大,可以无忧无虑 那时天很蓝,奶奶也未曾远离 那时未来是一串粉红...
    婉言1228阅读 304评论 4 2
  • 我开始读《周亚夫军细柳》,选自《史记》,写的是汉文帝到周亚夫的细柳军营慰问军士的事。这周亚夫,真是厉害。汉文帝亲自...
    一身书生气阅读 1,614评论 0 4
  • 看PPT看到眼痛了,听首歌放松下吧!今天给大家安利一首歌: 定西 - 李志是的,题目的刘堃不是我啦,这是歌曲里面...
    kunix阅读 11,263评论 0 1