登录注册写文章

Python爬虫(九)_非结构化数据与结构化数据

Python爬虫(九)_非结构化数据与结构化数据

爬虫的一个重要步骤就是页面解析与数据提取。更多内容请参考：Python学习指南

页面解析与数据提取

实际上爬虫一共就四个主要步骤：

定（要知道你准备在哪个范围或者网站去搜索）
爬（将所有的网站的内容全部爬下来）
取（分析数据，去掉对我们没用处的数据）
存（按照我们想要的方式存储和使用）
表（可以根据数据的类型通过一些图标展示）

以前学的就是如何从网站去爬数据，而爬下来的数据却没做分析，现在，就开始对数据做一些分析。

数据，可分为非结构化数据和结构化数据

非结构化数据：先有数据，再有结构
结构化数据：先有结构，再有数据
不同类型的数据，我们需要采用不同的方式来处理

非结构化的数据处理

文本、电话号码、邮箱地址

正则表达式Python正则表达式

HTML文件

正则表达式
XPath
CSS选择器

结构化的数据处理

JSON文件

JSON Path
转化为Python类型进行操作（json类）

XML文件

转化为Python类型（xmltodict）
XPath
CSS选择器
正则表达式

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

[3/4]我所经历的大数据平台发展史（三）：互联网时代 • 上篇
//我所经历的大数据平台发展史（三）：互联网时代 • 上篇http://www.infoq.com/cn/arti...
葡萄喃喃呓语阅读 51,529评论 10赞 200
Spring Cloud
Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具（例如配置管理，服务发现，断路器，智...
卡卡罗2017阅读 135,850评论 19赞 139

虚度
我已经好久没健身了，好久没看课外书了，好久没和朋友一块儿出去疯玩了，难道这就是结婚后的生活？我错了，身体是自...
禾末Q阅读 1,652评论 0赞 0
思念的滋味
很早以前就知道10月份就会有一个短暂的出差。昨天晚上忙到七点才下班，今天早上六点半就出门赶火车了。成为妈妈...
莹子悦读书香阅读 2,994评论 0赞 0
来读书吧的收获和成长
知道如何改变自己，提升自己，对自己应该如何作才会对未来改变！
少夨阅读 1,571评论 0赞 0

友情链接更多精彩内容

1赞2赞

赞赏

手机看全文