Python爬虫学习

基本库requests，bs4

r = requests.get(url)#链接url，获取html

soup = BeautifulSoup(r.text, 'html.parser')

BeautifulSoup(r.text, 'html.parser')

html.parser就是解析器，主要的解析器有以下几种：

bs4的html解析器——html.parser

lxml的html解析器——lxml

lxml的xml解析器——xml

html5lib的解析器——html5lib

a——name，名称，tag.name

src=“china_map.jpg” size=“10”——Attribute，属性,tag.attrs

...——NavigableString，非属性字符串,tag.string

——Commebt，字符串的注释，获取方式同上

contents——子节点，遍历所有子节点存入列表

children——子节点，迭代类型

descendants——子孙节点，迭代类型

parent——父节点

parents——先辈节点，迭代类型

通过实例学习如何搭建python爬虫，目前利用BeautifulSoup、requests模块，实现基本爬取操作。

由于爬取的网页不使用utf-8编码，所以爬取后汉字显示为乱码，需要转码操作。

code = r.encoding #获取爬取网页的编码信息

r = r.text.encode(code).decode('utf-8') #转码操作

下一步需要通过正则获取所需信息，待续。。。

最后编辑于：2019.06.24 18:35:11

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。