Beautiful Soup库的安装
Beautiful Soup也叫美味汤,它是一个非常优秀的Python第三方库。
它能够对HTML、XML格式进行解析 并且提取其中的相关信息
Beautiful Soup的使用原理是能够把任何你给它的文档当做一锅汤,然后给你煲制这锅汤
Beautiful Soup的安装:管理员权限启动cmd命令台,输入 pip install beautifulsoup4 按回车
安装小测:
演示HTML页面地址:http://python123.io/ws/demo.html
这个HTML页面的源代码是由尖括号<>为主的标签所封装的一些信息
那么如何获取源代码呢?有两种方式.
第一种:手工获取。
首先打开浏览器,找到需要获取源码的页面,然后右键 ,点击查看网页源代码,在任何浏览器上面都有这样一种功能。这样我们就可以看到这个网页的源代码了,将他复制下来就可以了
第二种:使用requests库来自动获取这个连接的源代码
怎么使用BeautifulSoup库呢 仅仅需要两行而已。
我们也可以通过打开一个文件的方式来为BeautifulSoup类提供HTMl或XML文档内容
注意:
1. BeautifulSoup是个类
2.做汤 此时有两个参数。第一个:是需要BeautifulSoup解析的一个html格式的信息。第二个:解析这锅汤的解析器html.parser
BeautifulSoup 库的基本元素
我们知道BeautifulSoup库是能够解析HTML,XML 文件的功能库
以HTML文档为例,任何一个HTML文件如果打印它的源代码,我们就能看到它是由一组尖括号<>构成的标签组织起来的。 这里边每一对尖括号形成了一个标签Tag,而标签之前存在上下游关系,形成了一个标签树。所以我们可以说,BeautifulSoup库是解析,遍历,维护“标签树”的功能库。只要你提供的文件是标签类型,那么BeautifulSoup库都可以对它做很好的解析。
BeautifulSoup库也叫beautifulsoup4库或bs4库。
目前我们最常用的引用方式
如果我们需要对BeautifulSoup库里边的一些基本变量进行判断时,我们也可以直接引用BeautifulSoup库
那么如何理解BeautifulSoup 这个类呢? 我们想说BeautifulSoup库本身解析的是HTML或XML的文档,那么这个文档与标签树是一一对应的,那么经过了BeautifulSoup库的处理,我们可以使得每一个标签树:大家可以理解为标签树就是一个字符串,我们将这个字符串转换成一个BeautifulSoup类、那么BeautifulSoup类就是能够代表标签树的一个类型。事实上我们认为HTML文档、标签树、BeautifulSoup类这三者是等价的。在这个等价的基础上,我们就可以通过BeautifulSoup类使得标签树形成了一个变量,对变量的处理就是对标签树的相关处理。
简单讲我们可以把BeautifulSoup类当做对应一个HTML或XML文档的全部内容
BeautifulSoup库解析器
BeautifuSoup 类的基本元素
使用方式:
当HTML页面中出现comment注释部分该怎么处理
你们发现奇怪之处了嘛
# 奇怪点在于p标签和b标签使用.string时都能产生文本,但是当这个文本是注释型的时候并未标明它的注释,它的!--被去掉了
# 所以有时候在我们分析文档的时候,我们要对其中的注释部分做相关的判断,而判断的依据就是它的类型#
## <class 'bs4.element.NavigableString'>
## <class 'bs4.element.NavigableString'>