考试重点
1、线性回归:OLS思想(假设、参数估计、分布、拟合优度、马尔卡夫定理)
多元线性回归:省略变量问题、共线性问题
2、假设检验:
参数含义、置信区间、解释参数含义
3、非线性模型做预测,logic和profit,线性优缺点,为什么要用probit和logit(线性会超过1),怎么计算difference,预测概率=1和=0的问题
4、面板数据优点(怎么做回归)
5、时间序列
logistic回归模型
R语言广义线性模型glm()函数
glm(formula, family=family.generator, data,control = list(…))
Logistic回归是对0-1响应变量的期望做logit变换,然后与自变量做线性回归。参数估计采用极大似然估计,显著性检验采用似然比检验。
把事件发生定义为Y=1,未发生定义为Y=0,那么事件发生的概率为p,事件未发生的概率为1-p,引入Logit变换,对p/(1-p) 也就是发生与不发生的比值取对数,也称对数差异比,变换后p对x就是非线性关系。
formula数据关系,如y~x1+x2+x3
family:每一种响应分布(指数分布)允许各种关联函数将均值和线性预测器关联起来。
常用的family:
binomal(link=’logit’) —-响应变量服从二项分布,连接函数为logit(假设随机变量服从逻辑概率分布);
binomal(link=’probit’) —-响应变量服从二项分布,连接函数为probit(假设随机变量服从正太分布);
poisson(link=’identity’) —-响应变量服从泊松分布,即泊松回归
control:控制算法误差和最大迭代次数
例
数据命名
colnames(Data) <- c("x1", "x2", "x3", "x4", "x5", "x6", "x7", "x8", "y")
View(Data)
glm <- glm(y ~ x1 + x2 + x3 + x4 + x5 + x6 + x7 + x8,
family = binomial(link = logit), data = Data)
summary(glm)