ETL系列7--数据结构

结构化vs半结构化vs非结构化数据

结构化数据:

每笔数据都有固定的字段、固定的格式,方便程序进行后续取用与分析

例如数据库

半结构化数据:

数据介于数据化结构与非结构化数据之间

数据具有字段,也可以依据字段来进行查找,使用方便,但每笔数据的字段可能不一致

例如:XML,JSON

非结构化数据:

没有固定的格式,必须整理以后才能存取

没有格式的文字、网页数据

1.结构化数据

结构化数据也称作行数据,是由二维表结构来逻辑表达和实现的数据,严格地遵循数据格式与长度规范,主要通过关系型数据库进行存储和管理。

对数据的处理和捞取可以通过SQL语句

2.半结构化数据 - XML

可以使用字段存储数据内容

字段不固定,例如xlm就少了age字段

可以弹性的存放各种字段格式的数据

3.半结构化数据 - JSON

[

    user:{

        name:xsl,

        gender:boy,

        age:12,

},

    user:{

        name:xsl,

        gender:girl,

}

]

如同XML可以使用字段存储数据内容

使用Key:Value存放数据

不用宣告字段的结尾,可以比XML更快更有效传输数据

4.非结构化数据

没有固定的数据格式

例如网站数据

必须透过ETL(Extract,Transformation,Loading)工具将数据转换为结构化数据才能取用

由于我们常见的数据是非结构化数据,为了进行数据分析,我们就需要从非结构化数据中挖掘数据,我们就需要先把非结构化数据转换成结构化数据,此时我们就可以使用ETL工具。

数据抽取、转换、存储过程

这就是ETL的使用流程

ETL,是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过提取(extract)、转化(transform)、加载(load)至目的端的过程。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容