小技巧
把要用的文件都提前放在一个工作文件夹里,对于表格可以直接右键导入数据。
工作区查看变量统计信息“选择项”,可以直接看到方差,最大值,最小值等
导入数据生成脚本,使一个脚本它能实现的功能是完整的不再需要借助外面的变量,从而反复导入数据,还可以每次清理数据,避免同名数据产生影响
脚本居然还可以发布,他自己可以配好图,真赞
-
tab自动补全
数据处理
读入数据
Excel:xlsread
xlswrite 我总是成功不了。。
Txt:load
图片:imread
视频:videofilereader
数据预处理
缺失值:
删除法:缺失值所占比例小于5%可用
插补法:
定距:均值 非定距:众数/中值
回归插补
极大似然估计:大样本
噪声过滤
回归法:线性趋势,函数拟合数据来光滑数据
均值平滑法:具有序列特征,用邻近若干数据的均值替换原始数据
离群点分析法:通过聚类等方法删除离群点
小波过滤法:特征提取,低通滤波功能的综合
//还不是特别清楚
数据变换
标准化
比较和评价的指标处理,去除数据的单位限制,转化 无量纲的纯数值
0-1标准化:数据最大值,最小值
z标准化:均值,标准差
离散化
数据统计
表示位置:算术平均值,中位数
表示散度:标准差,方差,极差
分布形状:偏度,峰度
数据可视化
plot绘制最原始分布形态:大致了解数据的分布中心,边界,数据集中程度,走向等信息
用plot画散点图
柱状图:进行数据分布形状可视化
数据关联可视化:
///todo
%绘制变量间相关性关联图
figure
Plotmatrix(vars)
%绘制变量间相关性强度图
covmat=corrcoef(vars)
figure
Imagec(covmat)
gird
Colorer
数据分组可视化:
绘制箱体图box plot
////箱体图怎么看啊
数据降维
主成分分析:
众多具有一定相关性变量-》一组新的相互无关的综合性变量
相关系数法:
简单灵活有效