R语言介绍
统计介绍
2.1变量度量类型
名义型变量
等级型变量
连续型变量
等级变量差值无意义,连续变量差值有意义
2.2抽样与统计推断
从样本的情况推断总体的情况--统计推断
统计推断:①我们拿到的是样本的数据
2.3连续变量的描述
平均①中心水平②代表性③哪个统计量最恰当④方差、标准差、极差、四分卫差(内分位差)
峰度、偏度
summary函数
tapply函数
2.4连续变量的图形展示
正态分布左右对称,均值=中位数=众数
盒须图--boxplot函数
PP图、QQ图用来检测正态分布--ppnorm函数、qqline函数
hist函数--柱状图
2.5连续变量的区间估计
样本均值的分布服从正态分布
样本均值的标准差称作样本的标准物
中心极限定理
<img >
回归
4.1两连续变量关系探索
散点图
4.2简单线性回归
lm(y~x)
coef(llm)
summary(lm)
模型解释力度
模型预测
predict(lm)
resid(lm)
fitted(lm)
4.3多元线性回归
Y=β+βx+βx+
线性回归假设
①x和y之间是线性关系
②扰动项正态分布
③扰动项方差一样的
④扰动项不相关的
⑤x和x之间不能有线性关系或者线性关系太强
析因模型
lm(y~x1+x2+x3..., data=dataframe)
coef(lm)
summary(lm)
Multiple R
Adjust R
模型选择 变量个数的非递减函数
模型解释力度
4.4多元线性回归模型的自动选择
向前法、向后法、逐步法(向前向后法)
step函数 direction="forward | backward | both"