登录注册写文章

（2018-05-18.Python从Zero到One）2、（爬虫）非结构化数据与结构化数据提取__1.2.0页面解析和数据提取

（2018-05-18.Python从Zero到One）2、（爬虫）非结构化数据与结构化数据提取__1.2.0页面解析和数据提取

页面解析和数据提取

一般来讲对我们而言，需要抓取的是某个网站或者某个应用的内容，提取有用的价值。内容一般分为两部分，非结构化的数据和结构化的数据。

非结构化数据：先有数据，再有结构，
结构化数据：先有结构、再有数据
不同类型的数据，我们需要采用不同的方式来处理。

非结构化的数据处理

文本、电话号码、邮箱地址

正则表达式

HTML 文件

正则表达式
XPath
CSS选择器

结构化的数据处理

JSON 文件

JSON Path
转化成Python类型进行操作（json类）

XML 文件

转化成Python类型（xmltodict）
XPath
CSS选择器
正则表达式

最后编辑于：2018.05.18 23:26:44

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

python爬虫里信息提取的核心方法: Beautifulsoup Xpath 正则表达式
20170531 这几天重新拾起了爬虫，算起来有将近5个月不碰python爬虫了。对照着网上的程序和自己以前写的...
八神苍月阅读 14,278评论 3赞 44
Python网络爬虫
1. 概述本文主要介绍网络爬虫，采用的实现语言为Python，目的在于阐述网络爬虫的原理和实现，并且对目前常见的...
Lemon_Home阅读 2,860评论 0赞 21
爬虫处理——结构化数据操作
爬虫处理之结构化数据操作目录清单正则表达式提取数据正则表达式案例操作 Xpath提取数据 Xpath案例操作...
一只小釆鸟阅读 1,899评论 0赞 0
爬虫处理之结构化数据操作
目录清单正则表达式提取数据正则表达式案例操作 Xpath提取数据 Xpath案例操作 BeautifulSou...
卢子野阅读 545评论 5赞 4
20170806
luory阅读 173评论 0赞 0

赞1赞

赞赏

手机看全文