登录注册写文章

二刷爬虫—BeautifulSoup

zhangyutong_dut

二刷爬虫—BeautifulSoup

Beautiful Soup是python官方的一个解析库，提供了许多方法，感觉用起来比较方便顺手

一般使用第三方库lxml来解析HTML文件

prettify() 以标准的缩进格式输出

经选择器选择之后，类型均为bs4.element.Tag类型

name属性获取节点名称

attrs属性获取节点属性，返回为字典类型

string属性获取节点包含的文本内容

contents属性获取直接子节点，返回列表形式

children属性获取直接子节点，返回生成器类型

descendants属性获取所有的子孙节点，返回生成器类型

parent属性获取直接父节点

parents属性获取所有的祖先节点，返回生成器类型

next_sibling 和 previous_sibling 属性获取下一个/上一个兄弟节点

next_siblings 和 previous_siblings 属性获取所有之后的/之前的兄弟节点

find_all()

find()

select() 用CSS选择器进行选择

get_text() 获取文本

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

python模块： BeautifulSoup
1. Beautiful Soup的简介简单来说，Beautiful Soup是python的一个库，最主要的功...
随风化作雨阅读 6,885评论 0赞 2
记录下BS4的基础使用方法
Beautiful Soup是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实...
LitOrange阅读 10,670评论 0赞 4
春节
无量慧光阅读 1,027评论 0赞 0
《尘》
《尘》文/五音麦笛把酒问山门缘何净六根本来阡陌客谁不恋红尘！
五音麦笛阅读 2,607评论 0赞 2
在一家企业做好绩效管理：如何进行有效的绩效面谈
文/小雨【+关注了解更多职场动态】第一、绩效面谈要有准备过程。在绩效面谈准备过程中，面谈者要全面收集资料，准备好...
悦读职场阅读 2,586评论 0赞 1

赞1赞

赞赏

手机看全文