L11:BeautifulSoup讲解

BeautifulSoup是一个网页解析库。
包含4个解析器,html.parser、lxml、xml、html5lib.
html.parser是python自带的解析器;
lxml是最常用的解析器;
xml支持解析xml;
html5lib容错率高速度慢。

标签选择器

可以选择标签,获得其名称、属性、内容等

嵌套选择器

可以选择其子节点、子孙节点、父节点、祖先节点、兄弟节点。

标准选择器

find_all(name, attrs, recursive, text, **kwargs)

常用的选择器,可以根据标签名称、标签属性、标签内容等进行选择。

CSS选择器

soup.select("...")
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 人生苦短,我用Python。 起初,这篇文章是打算来写 XPath 的,可是后来一想,我需要的仅是 XPath 的...
    Moscow1147阅读 20,875评论 1 14
  • 第一部分 创建爬虫 重点介绍网络数据采集的基本原理 : 如何用 Python 从网络服务器 请求信息,如何对服务器...
    万事皆成阅读 2,183评论 0 5
  • 发现 关注 消息 iOS 第三方库、插件、知名博客总结 作者大灰狼的小绵羊哥哥关注 2017.06.26 09:4...
    肇东周阅读 12,262评论 4 61
  • 前几天小QQ误吃毒食毒死了。从开始呕吐倒在地上打滚毙命也就差不多一个小时。我亲眼目睹了整个过程好惨啊。事后心里总觉...
    泓四骆驼阅读 593评论 0 2
  • 近一年来,各种消息铺天盖地地传入陈蒨耳中,搅得陈国上下,人人心思不安。一面是王琳连续攻下要塞城池,又以齐国为援,两...
    旧文字阅读 252评论 0 1