结构化数据
- 数值型
- 连续型
- 离散型
- 分类数据
- 二元数据
- 有序数据 ordered.factor
矩形数据
引用结构(电子表格,数据库表格)
Python: DateFrame 自动建立整数索引index,pandas支持索引
R: 原声Data.frame不支持索引 data.table, dplyr支持多级索引
- 行-记录(一个样本)
- 列-特征(变量)/目标(因变量)
非矩形数据
时序数据
空间数据
图形数据
位置估计
典型值是对数据出现最常出现位置的估计estimate
数据科学称为度量metric
- 均值/切尾均值/加权均值
- 中位数/加权中位数
中位数是一种对位置稳健的估计量,因为它不会受离群值的影响
变异性估计
- 变异性variability/离差dispersion