# Q1. 将数据读入R,使用readr库,用read_csc命令
# Q2. 导入tidyverse包
# Q3. 查看数据名称,任意两个变量做散点图,解释结果
# Q4. 找出countyCode列和communityCode 的缺失值,并删除相应的行
# Q5.找出population中的极端值并滤掉对应行的数据,报告删了多少行
# Q6. medIncome的自然对数作因变量,PctUnemployed作自变量,写回归方程,
# 指出自变量系数是否在某一显著水平上显著
# Q7.创建highRobPerPop,0-1变量,1表示robbbPerPop大于其中位数,0表示小于其中位数,
# 以这个新变量为因变量,选择适合的模型进行回归,并解释你变量选择的理由。
# Q8. 用模型预测newdata.txt这个是否属于“高人均抢劫率”?把结果与实际进行比较
# Q9
# Q10 现象解释:10000个b系数的分布为正态分布,符合中心极限定理
# 在大样本抽样中,多次抽样的平均值的均值趋近于总体均值。
学长答案:https://www.jianshu.com/p/468862281e19
其他同学:
https://jorryyang.gitee.io/rdata/(杨争大佬的笔记➕作业)
雪糕ray/kaobiguo
#系数是否显著:https://www.cnblogs.com/runner-ljt/p/4581622.html
#创建新变量:例:数据名字叫做dat
dat[dat < 4] = 0
dat[dat >= 4] = 1
#选择回归模型:https://www.cnblogs.com/wisematch/p/7525318.html
https://cloud.tencent.com/developer/news/153612(模型修正)
#预测模型:https://blog.csdn.net/weixin_36220483/article/details/52639469
#中心极限定理的推导
m <- 1000000
mx <- NA
for (j in 1:m) {
x <- rchisq(15,8)
y <- (x/10)^2
z <- (x/10)^2
z <- y + x
mx[j] <- mean(z)
}
mx
hist(mx)
}