1.创建对象
创建对象
soup = BeautifulSoup(html,'lxml')
格式化对象
soup.prettify()
2.对象的四种类型
BeautifulSoup将html转换成树状结构,所有对象可以归纳为4种:
-
Tag
标签,例如:soup.a/soup.p
tag有两个重要的属性,name和attrs
- name就是名字
- 属性类似于字典,可以写成soup.p.attrs得到一个字典,或者像字典一样取值soup.p['class'],也可以写成soup.p.get['class']
- 可以对属性进行修改和删除
-
NavigableString
获取标签之中的内容,可以写成soup.p.string
-
BeautifulSoup
BeautifulSoup是一个大的Tag
-
Comment
类似于NavigableString ,只是类型不同
3.遍历文档
目前没有用到,先不看了。
4. 搜索文档树
-
find_all(name,attrs,recursive,text,**kwargs)
-
name
查找所有tag的name
字符,正则表达式,列表,方法,布尔
-
**kwargs
传入tag的属性
-
text
检索文档内容
-
recuisive
是搜索所有子孙节点还是当前节点
-