L11:BeautifulSoup讲解

BeautifulSoup是一个网页解析库。
包含4个解析器，html.parser、lxml、xml、html5lib.
html.parser是python自带的解析器；
lxml是最常用的解析器；
xml支持解析xml；
html5lib容错率高速度慢。

标签选择器

可以选择标签，获得其名称、属性、内容等

可以选择其子节点、子孙节点、父节点、祖先节点、兄弟节点。

find_all(name, attrs, recursive, text, **kwargs)

常用的选择器，可以根据标签名称、标签属性、标签内容等进行选择。

soup.select("...")

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

lxml 学习笔记
人生苦短，我用Python。起初，这篇文章是打算来写 XPath 的，可是后来一想，我需要的仅是 XPath 的...
Moscow1147阅读 20,875评论 1赞 14
《Python 网络数据采集》第一部分笔记
第一部分创建爬虫重点介绍网络数据采集的基本原理 : 如何用 Python 从网络服务器请求信息，如何对服务器...
万事皆成阅读 2,183评论 0赞 5
优秀第三方
发现关注消息 iOS 第三方库、插件、知名博客总结作者大灰狼的小绵羊哥哥关注 2017.06.26 09:4...
肇东周阅读 12,262评论 4赞 61
会等人的小狗QQ的故事
前几天小QQ误吃毒食毒死了。从开始呕吐倒在地上打滚毙命也就差不多一个小时。我亲眼目睹了整个过程好惨啊。事后心里总觉...
泓四骆驼阅读 593评论 0赞 2
卷一《哀江南》：（七十四）
近一年来，各种消息铺天盖地地传入陈蒨耳中，搅得陈国上下，人人心思不安。一面是王琳连续攻下要塞城池，又以齐国为援，两...
旧文字阅读 252评论 0赞 1

1赞2赞

赞赏

手机看全文