4.18 Beautiful Soup用法

导入 from bs4 import BeautifulSoup
创建Beautiful Soup对象 soup=BeautifulSoup(html)
如果是本地文件 soup=BeautifulSoup(open('index.html'))
格式化输出 print soup.prettify()
四种对象
4.1 Tag： HTML中的标签及其内容，比如

print soup.title
print soup.head
print soup.a
print soup.p

查看对象类型： print type(soup.a)
Tag的两个重要属性name和attrs：

print soup.head.name
print soup.p.attrs
print soup.p['class']

4.2 NavigableString：标签内部文字
如 print soup.p.string
查看对象类型： print type(soup.p.string)
4.3 BeautifulSoup：文档的全部内容，特殊的Tag对象
4.4 Comment：特殊类型的NavigableString

遍历文档树
5.1 直接子节点

tag的.contents .children属性
.contents返回列表，用索引获取某个特定元素：

print soup.head.contents
print soup.head.contents[0]

.children返回列表生成器对象，用遍历获取所有子节点：

print soup.head.children

for child in soup.body.children:
  print child

5.2 所有子孙节点

tag的.descendants属性
类似.children，返回所有子孙节点。
5.3 节点内容
tag的.string属性
如果tag内没有或者只有一个子节点，.string方法将返回其内容。

print soup.head.string
print soup.title.string

如果tag内包含许多子节点，.string会返回None。

print soup.html.string

5.4 多个内容

tag的.strings和.stripped_strings属性
结果需要遍历获取，.stripped_strings可以去除多余空白内容：

for string in soup.strings:
  print(repr(string))

5.5 父节点及全部父节点

tag的.parent和.parents属性
.parents结果需要遍历获取
5.6 兄弟节点和全部兄弟节点
tag的.next_sibling, .previous_sibling, .next_siblings, .previous_siblings属性
返回同级兄弟节点，有可能是字符串或者空白。

5.7 前后节点和全部前后节点

tag的.next_element, .previous_element, .next_elements, .previous_elements属性
返回前后节点，忽略级别关系。

搜索文档树
6.1 find_all(name,attrs,recursive,text,**kwargs)
返回列表。
6.1.1 name
A.字符串： soup.find_all('b')
B.正则表达式

import re
for tag in soup.find_all(re.compile('^b')):
  print tag.name

C. 列表： soup.find_all(['a','b'])
D. True: 返回所有tag但不包括字符串节点
E. 方法

def has_class_but_no_id(tag):
  return tag.has_attr('class') and not tag.has_attr('id')

soup.find_all(has_class_but_no_Id)

6.1.2 attrs

soup.find_all(id='link2')
soup.find_all(href=re.compile('elsie'))
soup.find_all(href=re.compile('elsie'),id='link1')
soup.find_all('a',class_='sister')

6.1.3 recursive
默认True，返回所有子孙节点。recursive=False只返回直接子节点
6.1.4 text

soup.find_all(text='Elsie')
soup.find_all(text=['Tillie','Elsie','Lacie'])
soup.find_all(text=re.compile('Dormouse'))

6.1.5 limit
限制返回结果数： soup.find_all('a',limit=2)

find(name,attrs,recursive,text,**kwargs)
返回第一个匹配结果。其他与find_all类似
CSS选择器

soup.select() 返回列表。可以在遍历后，使用get_text()获得其内容
8.1 基本选择器：标签名，类名，id名

print soup.select('title')
print soup.select('.a')
print soup.select('#link1')

8.2 组合选择器

print soup.select('p #link1')
print soup.select('head>title')

8.3 获取内容
在遍历输出后，使用get_text()方法获取内容。

print soup.select('title')[0].get_text()
for title in soup.select('title'):
  print title.get_text()

参考：
Beautiful soup用法

最后编辑于：2017.12.06 20:49:29

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 219,701评论 6赞 508
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 93,649评论 3赞 396
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 166,037评论 0赞 356
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,994评论 1赞 295
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 68,018评论 6赞 395
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,796评论 1赞 308
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,481评论 3赞 420
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 39,370评论 0赞 276
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,868评论 1赞 319
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 38,014评论 3赞 338
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 40,153评论 1赞 352
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,832评论 5赞 346
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,494评论 3赞 331
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 32,039评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 33,156评论 1赞 272
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 48,437评论 3赞 373
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 45,131评论 2赞 356

4.18 Beautiful Soup用法

推荐阅读更多精彩内容