结构化vs半结构化vs非结构化数据
结构化数据:
每笔数据都有固定的字段、固定的格式,方便程序进行后续取用与分析
例如数据库
半结构化数据:
数据介于数据化结构与非结构化数据之间
数据具有字段,也可以依据字段来进行查找,使用方便,但每笔数据的字段可能不一致
例如:XML,JSON
非结构化数据:
没有固定的格式,必须整理以后才能存取
没有格式的文字、网页数据
1.结构化数据
结构化数据也称作行数据,是由二维表结构来逻辑表达和实现的数据,严格地遵循数据格式与长度规范,主要通过关系型数据库进行存储和管理。
对数据的处理和捞取可以通过SQL语句。
2.半结构化数据 - XML
可以使用字段存储数据内容
字段不固定,例如xlm就少了age字段
可以弹性的存放各种字段格式的数据
3.半结构化数据 - JSON
[
user:{
name:xsl,
gender:boy,
age:12,
},
user:{
name:xsl,
gender:girl,
}
]
如同XML可以使用字段存储数据内容
使用Key:Value存放数据
不用宣告字段的结尾,可以比XML更快更有效传输数据
4.非结构化数据
没有固定的数据格式
例如网站数据
必须透过ETL(Extract,Transformation,Loading)工具将数据转换为结构化数据才能取用
由于我们常见的数据是非结构化数据,为了进行数据分析,我们就需要从非结构化数据中挖掘数据,我们就需要先把非结构化数据转换成结构化数据,此时我们就可以使用ETL工具。
这就是ETL的使用流程
ETL,是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过提取(extract)、转化(transform)、加载(load)至目的端的过程。