数据是什么?
数据(data)是事实或观察的结果,是对客观事物的逻辑归纳,是用于表示客观事物的未经加工的的原始素材。
数据分类
数据有很多种分类,但大的类别可以从结构化和非结构化进行分割。所谓结构化,有传统的行列存储的数据格式,每一行就是一个观测,每一列是一种属性特征,最常见的文档格式是 CSV;另外有XML、JSON等特定的结构格式。所谓非结构化,指数据不是按照固定的格式存储,如文本文件,图片文件,声音、视频等。
在结构化数据中,我们可以按照数据本身特性,分为:
类别数据(nominal level): 一般是字符型,比如名称,张三、李四、王二。类别数据通常用于计算频数分布,对其进行均值、方差等计算没有意义。
序列数据(ordinal level):一般是整数,比如序号,1,2,3,4。序列数据通常进行归一化处理、分位数处理等。日期/时间数据是一种特殊的序列数据。对序列数据进行频数计算是没有意义的。
区间数据(interval level):可以是整数,也可以是小数,比如重量、身高等。区间数据适用于各种统计计算,比如平均数、方差等,也可以进行频数计算看数据分布。
对于非结构化数据的处理:
文本数据:通常进行分词、词性标注、去除停用词、向量化等;
图片数据:图片是由像素组成,通过颜色提取、灰度、二值化、加粗/弱化等一系列处理;
语音数据:将语音信号转为声学特征,然后建立言语模型进行匹配识别;
视频数据:提取帧图片数据,进行目标运动检测或者特征识别。