一张图说数据

数据是什么?

数据(data)是事实或观察的结果,是对客观事物的逻辑归纳,是用于表示客观事物的未经加工的的原始素材。


数据分类

        数据有很多种分类,但大的类别可以从结构化和非结构化进行分割。所谓结构化,有传统的行列存储的数据格式,每一行就是一个观测,每一列是一种属性特征,最常见的文档格式是 CSV;另外有XML、JSON等特定的结构格式。所谓非结构化,指数据不是按照固定的格式存储,如文本文件,图片文件,声音、视频等。

        在结构化数据中,我们可以按照数据本身特性,分为:

        类别数据(nominal level): 一般是字符型,比如名称,张三、李四、王二。类别数据通常用于计算频数分布,对其进行均值、方差等计算没有意义。

        序列数据(ordinal level):一般是整数,比如序号,1,2,3,4。序列数据通常进行归一化处理、分位数处理等。日期/时间数据是一种特殊的序列数据。对序列数据进行频数计算是没有意义的。

        区间数据(interval level):可以是整数,也可以是小数,比如重量、身高等。区间数据适用于各种统计计算,比如平均数、方差等,也可以进行频数计算看数据分布。

        对于非结构化数据的处理:

        文本数据:通常进行分词、词性标注、去除停用词、向量化等;

        图片数据:图片是由像素组成,通过颜色提取、灰度、二值化、加粗/弱化等一系列处理;

        语音数据:将语音信号转为声学特征,然后建立言语模型进行匹配识别;

        视频数据:提取帧图片数据,进行目标运动检测或者特征识别。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容