二刷爬虫—BeautifulSoup

Beautiful Soup是python官方的一个解析库,提供了许多方法,感觉用起来比较方便顺手

一般使用第三方库lxml来解析HTML文件

prettify()    以标准的缩进格式输出

经选择器选择之后,类型均为bs4.element.Tag类型

name属性获取节点名称

attrs属性获取节点属性,返回为字典类型

string属性获取节点包含的文本内容

contents属性获取直接子节点,返回列表形式

children属性获取直接子节点,返回生成器类型

descendants属性获取所有的子孙节点,返回生成器类型

parent属性获取直接父节点

parents属性获取所有的祖先节点,返回生成器类型

next_sibling 和 previous_sibling 属性获取下一个/上一个兄弟节点

next_siblings 和 previous_siblings 属性获取所有之后的/之前的兄弟节点

find_all()   

find()

select()   用CSS选择器进行选择

get_text()  获取文本

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容