上一次的爬取网易新闻案例,我们使用到了一个解析 HTML 的库:Beautiful Soup。本次跟大家分享一下关于这个库的一些用法。
Beautiful Soup 简介:
Beautiful Soup 是一个可以从 HTML 或者 XML 文档中提取数据的 Python 库,
它提供一些简单的函数可以很方便的从文档上提取所需要的数据。由于目前最新版本是 4.4.0,所以一般被简称为 bs4。
安装:
在这里强烈推荐使用 Anaconda,Anaconda指的是一个开源的 Python 发行版本,包含了科学计算或者数据分析所用的等180多种依赖包。而且 window 下面的安装也是非常简便,一路下一步就行了。
至于为什么推荐使用 Anaconda,一方面是由于以上所说的包含了常用的库,而另一方面则是为了不让大家在安装环境这一步浪费太多时间。由于 Python 目前常用的依赖管理是 pip,新手很容易在这里遇到一些自身不容易解决的问题。很容易打击自己的信心,造成负面的心理反馈。而我们要使用的 Beautiful Soup 本身也已经集成到 Anaconda 中了。我们只需 import 导入即可。
废话不多说了,下面开始介绍 bs4 的使用。
开始使用之前,先介绍一下 bs4 可以使用的解析器。
bs4 支持 Python 标准库中的 HTML 解析器,另外还支持一些第三方的解析器:其中一个是 lxml,另一个可供选择的解析器是纯Python实现的 html5lib, html5lib的解析方式与浏览器相同。html5lib 相比较 lxml 来说容错能力更强,且不依赖外部扩展,但是速度却不如后者。lxml 还需要安装C语言库。不过我们使用的是 Anaconda,这些都是现成的,开箱即用。
bs4 导入:
from bs4 import BeautifulSoup
BeautifulSoup 的构造方法接收一段字符串或一个文件句柄,从而得到一个文档的对象。可以通过这个对象来对我们传入的文档来进行操作。
接收字符串:
str = """ <!DOCTYPE html> <html> <head>
<title>bs4使用</title> </head> <body>
<h1>BS4使用。</h1> </body> </html> """
bs4 = BeautifulSoup(str, "lxml")
print(type(bs4)) # <class 'bs4.BeautifulSoup'>
接收文件句柄:
bs4 = BeautifulSoup(open('a.html', mode='r', encoding='UTF-8'), "lxml")
print(type(bs4)) # <class 'bs4.BeautifulSoup'>
Beautiful Soup 将 HTML 文档转换成一个复杂的树形结构,每个节点都是 Python 对象,所有对象可以归纳为4种: Tag, NavigableString, BeautifulSoup, Comment
一、Tag对象
Tag 其实就是 HTML 中的一个标签,与原生 HTML 文档中的标签相同。下面是示例:
str = """
<h1 class="h1">Hello BeautifulSoup</h1>
"""
soup = BeautifulSoup(str, "lxml")
tag = soup.h1print(type(tag)) # <class 'bs4.element.Tag'>
我们构造一个 BeautifulSoup 对象之后可以直接通过访问对象属性的方式来获取一个 Tag 对象,Tag 对象具有很多属性和方法。可包含多个Tag以及字符串,这些都是这个Tag的子节点。我们只介绍一下 Tag 中最重要的属性: name 和attributes
Name属性:
还是上边的例子,我们修改 tag 的 name 属性,之后打印它,发现原来的 h1 标签被修改为 h2,也就是说如果改变了 tag 对象的 name 属性,那将影响所有通过当前 Beautiful Soup 对象生成的 HTML 文档。
print(tag.name) # h1
tag.name = "h2"
print(tag) # <h2 class="h1">Hello BeautifulSoup</h2>
Attributes属性:
还是上边的例子,<h1 class="h1">Hello BeautifulSoup</h1>这个标签含有一个 class 属性,值为“h1”。
tag 的属性可以被添加,删除或修改,操作方法与字典一样。
print(tag) # <h1 class="h1">Hello BeautifulSoup</h1>
tag['class'] = "h2"
print(tag) # <h1 class="h2">Hello BeautifulSoup</h1>
二、NavigableString对象
上面例子中 h1 标签中间的字符串,可以通过 tag.string 来获取。通过上面的 Tag 对象获取到标签的内容之后可以通过 .string 获取。前提是 tag 只有一个 NavigableString 类型子节点。
print(type(tag.string)) # <class 'bs4.element.NavigableString'> print(tag.string) # Hello BeautifulSoup
tag 中包含的字符串不能编辑,但是可以被替换。
tag.string.replace_with("AAAAA")
print(tag.string) # AAAAA
三、BeautifulSoup对象
BeautifulSoup 对象表示的是一个文档的全部内容。很多时候可以把它当作一个特殊的 Tag 对象。
四、Comment对象
Tag, NavigableString, BeautifulSoup 几乎覆盖了 html 和 xml 中的所有内容,但是还有一些特殊对象,比如文档注释。
例子:
str = """
<b></b><h1 class="h1">Hello BeautifulSoup</h1>
"""
soup = BeautifulSoup(str, "lxml")
comment = soup.b.stringprint(type(comment)) # <class 'bs4.element.Comment'>
print(comment) # 这里是注释
到这里已经介绍完了对象的种类。BeautifulSoup 还有最重要的部分:文档树。打算下次在写。