Beautifulsoup模块

BeautifulSoup4和 lxml 一样,Beautiful Soup 也是一个HTML/XML的解析器,主要的功能也是如何解析和提取 HTML/XML 数据

BeautifulSoup支持Python标准库中的HTML解析器,还支持一些第三方的解析器,如果我们不安装它,则 Python 会使用 Python默认的解析器,lxml 解析器更加强大,速度更快,推荐使用lxml 解析器。

Beautiful Soup自动将输入文档转换为Unicode编码,输出文档转换为utf-8编码。你不需要考虑编码方式,除非文档没有指定一个编码方式,这时,Beautiful Soup就不能自动识别编码方式了。然后,你仅仅需要说明一下原始编码方式就可以了。

1、安装
pip install beautifulsoup4
2、使用
from bs4 import BeautifulSoup#导入
soup = BeautifulSoup(html,"html.parser") #创建对象, 第一个参数是页面文本,第二个参数表示解析格式
image
3、 find 和 find_all
  • find 和 find_all 可以有多个搜索条件叠加,比如find('a', id='link3', class_='sister',text=re.compile('link')) text可以用正则匹配
  • find 返回的是一个bs4.element.Tag 对象,这个对象可以进一步进行搜索。如果有多个满足的结果,find只返回第一个;如果没有,返回 None。
  • find_all 返回的是一个由 bs4.element.Tag 对象组成的 list,不管找到几个或是没找到,都是 list。
  • find_all的简写,标签直接加括号
  • find_all的其他参数
    limit=2 # 限制只返回前两个,
    recursive=False# 只查找子节点,不查找孙节点
from bs4 import BeautifulSoup
a = '''
<h1>标题1</h1>
<h2>标题2</h2>
<h2>标题3</h2>
<span>span111</span>
<span>span222</span>
<span>span333</span>
'''
soup = BeautifulSoup(a, "html.parser")
# 提取唯一标签的三种方法
soup.h1
soup.find('h1')
soup.find_all('h1')[0]
# 上面三条结果都是 <h1>标题1</h1>
soup.find_all('h2')
# [<h2>标题2</h2>, <h2>标题3</h2>]
soup.find_all(['h1','h2'])
# [<h1>标题1</h1>, <h2>标题2</h2>, <h2>标题3</h2>]
# 使用正则表达式
import re
soup.find_all(re.compile('^h'))
# [<h1>标题1</h1>, <h2>标题2</h2>, <h2>标题3</h2>]
#切片
soup.find_all('span')[-1].text[:-3] 
#span
#-------------------------------------------------------------------------------------------------------------------------------
b = '''
<p id='p1'>段落1</p>
<p id='p2'>段落2</p>
<p class='p3'>段落3</p>
<p class='p3' id='pp'>段落4</p>
<span id="s">哒哒哒哒哒哒</span>
'''
soup1 = BeautifulSoup(b, "html.parser")
# 第一种,直接将属性名作为参数名,但是有些属性不行,比如像a-b这样的属性
soup1.find_all('p', id = 'p1') # 一般情况
soup1.find_all('p', class_='p3') # class是保留字比较特殊,需要后面加一个_
# 最通用的方法
soup1.find_all('p', attrs={'class':'p3'}) # 包含这个属性就算,而不是只有这个属性
soup1.find_all('p', attrs={'class':'p3','id':'pp'}) # 使用多个属性匹配
soup1.find_all('p', attrs={'class':'p3','id':False}) # 指定不能有某个属性
soup1.find_all('p', attrs={'id':['p1','p2']}) # 属性值是p1或p2
# 正则表达式匹配
import re
soup1.find_all('p', attrs={'id':re.compile('^p')}) # 使用正则表达式
soup1.find_all('p', attrs={'class':True}) # 含有class属性即可
# find_all的简写,标签直接加括号
soup.span('span',id='s') # 相当于调用find_all返回list
# find_all的其他参数
soup.find_all('span', limit=2) # 限制只返回前两个
soup.find_all('span', recursive=False) # 只查找子节点,不查找孙节点
5、 根据标签内内容来识别
from bs4 import BeautifulSoup
a = '''
<p id='p1'>段落1</p>
<p class='p3'>段落2</p>
<p class='p3'>文章</p>
<p></p>
'''
soup = BeautifulSoup(a, "html.parser")
soup.find_all('p', text='文章')
soup.find_all('p', text=['段落1','段落2'])
# 正则表达式
import re
soup.find_all('p', text=re.compile('段落'))
soup.find_all('p',text=True)
# 传入函数
def nothing(c):
    return c not in ['段落1','段落2','文章']
soup.find_all('p',text=nothing)
# 同上
def nothing(c):  
    return c is None
soup.find_all('p',text=nothing)

函数的使用在attr中也可以

a = '''
<p id='p1'>段落1</p>
<p id='p2'>段落2</p>
<p class='p3'>段落3</p>
<p class='p3' id='pp'>段落4</p>
'''
soup = BeautifulSoup(a, "html.parser")
def has_class_but_no_id(tag):
    return tag.has_attr('class') and not tag.has_attr('id')
print(soup.find_all(has_class_but_no_id)) # 函数的参数应该是标签
#[<p class="p3">段落3</p>]
def nothing(c):
    return c not in ['p2']
print(soup.find_all('p', id=nothing))
#[<p id="p1">段落1</p>, <p class="p3">段落3</p>, <p class="p3" id="pp">段落4</p>]
6、 提取内容
  • 提取标签内容:使用.text
  • 提取标签属性值,像字典一样提取
a = '''
<body>
    <h><a href='www.biaoti.com'>标题</a></h>
    <p>段落1</p>
    <p>段落2</p>
</body>
'''
soup = BeautifulSoup(a, 'html.parser')
# 提取内容
soup.p.text
for p in soup.find_all('p'):
    print(p.text)
soup.h.text # 多层嵌套也可以直接返回
soup.h.a.text # 也可以这样
soup.body.text # 里面有多个内容时 '\n标题\n段落1\n段落2\n'
# 提取属性值,像字典一样提取,以下两种方法等价
soup.h.a['href']
soup.h.a.get('href')

4.2、.string和.get_text()区别

  • .string:只是获取该标签内部的文本,不包括子标签内的文本/****
  • .get_text():获取标签内所有****文本,包括所有子标签内的文本**


    image
7、 查看标签信息
  • 获得标签名
  • 获得标签所有属性的字典
  • 检查标签是否有某属性
a = '''
<body>
    <h><a href='www.biaoti.com'>标题</a></h>
    <p>段落1</p>
    <p></p>
</body>
'''
soup = BeautifulSoup(a, 'html.parser')
for i in soup.body.find_all(True):
    print(i.name) # 提取标签名
    print(i.attrs) # 提取标签所有属性值
    print(i.has_attr('href')) # 检查标签是否有某属性

4.4 select CSS选择器

image
image
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,919评论 6 502
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,567评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 163,316评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,294评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,318评论 6 390
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,245评论 1 299
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,120评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,964评论 0 275
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,376评论 1 313
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,592评论 2 333
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,764评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,460评论 5 344
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,070评论 3 327
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,697评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,846评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,819评论 2 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,665评论 2 354

推荐阅读更多精彩内容