BeautifulSoup是一个网页解析库。
包含4个解析器,html.parser、lxml、xml、html5lib.
html.parser是python自带的解析器;
lxml是最常用的解析器;
xml支持解析xml;
html5lib容错率高速度慢。
标签选择器
可以选择标签,获得其名称、属性、内容等
嵌套选择器
可以选择其子节点、子孙节点、父节点、祖先节点、兄弟节点。
标准选择器
find_all(name, attrs, recursive, text, **kwargs)
常用的选择器,可以根据标签名称、标签属性、标签内容等进行选择。
CSS选择器
soup.select("...")