1 描述统计
不同概率分布就是不同随机现象规律性的数学描述。
统计学最常用的四大概率分布:正太分布,t分布, 卡方分布,F分布。
数据分布形状的统计量: 偏度(skewness, 是否对称), 峰度(Kurtosis,以标准正太分布为基准)
多个统计参数分析- rstatix::get_summary_stats(), dlookr::desicribe()
列联表- janitor包提供的tabyl(), 结合adorn_*() 函数
2 参数估计
多次抽样得到多个样本平均值和标准差,多个样本平均值的标准差就是这个结果的标准误。
但是如果不能多次抽样,就需要等到一个尽可能大的样本来计算标准误: SE = SD / sqrt(n).
估计的参数需要使用: 参数估计值 ± 估计误差 (n=) 。
Bootstrap 重抽样法: infer包可以很好计算置信区间。
2.1 最小二乘法(OLS): 让总的预测误差最小, 线性是lm(), 非线性是nls(), 若不行,则使用glsnls包。
2.2 最大似然估计(MLE): 是频率派常使用的方法。先推导出对数似然函数,再做最大优化即可。另一派是贝叶斯
3 假设检验
rstatix包
4 回归分析
线性回归诊断
参数:
计算𝑅2, 也称为可决系数,反映了自变量所能解释的方差占总方差的百分比。
多种公式表达方式
广义线性模型
5 数据清洗
主要包括: 缺失值处理,数据去重,异常值处理,逻辑错误检测,数据均衡检测,处理不一致数据,相关性分析(剔除与问题不相关的冗余变量)、数据变换(标准/归一化,线性化,正态化等)。
缺失值:首先替换为NA:
replace_with_na(data, replace=list(x=-999)) # naniar包
vis_miss()##可视化整个数据框
单重插补: imput_<模型>(data, formula, [模型设定选项])
多重插补:插补多次: ## mice(非常好)
异常值 : rstatix包mahalanobis_distance()
6 特征工程与探索变量之间的关系
特征放缩: 标准化(变为均值为0,标准差为1), 归一化(放缩所有的值到0-1), 行规范化(1个样本所有的特征都在单位球面上,L2 范数)
特征变化:
正态性变化:
特征降维(PCA):
连续变量之间的相关性(GGally包):