【原创】Beautifulsoup如何只提取标签内的文本

示例

如下代码,只提取div里的文本,不提取span里的文本


from bs4 import BeautifulSoup

s='''
<div>
<span> 添加时间:</span>
" 26分钟前"
<br>
<span> 作者:</span>
" 陈冠希"
<br>
</div>
'''

soup=BeautifulSoup(s,'html5lib')
div=soup.find('div')
print([text.strip() for text in div.find_all(text=True) if text.parent.name !='span' and text.strip()])

输出结果

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 简介网络浏览器很可能是使用最广的软件。在这篇入门文章中,我将会介绍它们的幕后工作原理。我们会了解到,从您在地址栏输...
    wengjq阅读 2,080评论 2 15
  •   DOM(文档对象模型)是针对 HTML 和 XML 文档的一个 API(应用程序编程接口)。   DOM 描绘...
    霜天晓阅读 3,716评论 0 7
  • 爷爷 昨天考试了,考的十分慌乱。前天晚上也没睡好,所以昨天晚上特别困,一闭眼就睡着了,昨天没有跟你聊天你想我...
    Chen豆豆阅读 85评论 0 0
  • 就在刚才接水喝的时候,突然想起了有的人的淡 —— 不知道到底喜欢吃哪些东西,但感觉着,应该会是...
    卜蝶阅读 363评论 0 4
  • 爸爸: 宝贝来,给我抱一下~ 宝贝:不要,我要给你卖去“你好”那边,叫老板给你弄漂亮点,你太丑了 爸爸:把我卖掉你...
    微羽阅读 78评论 0 0