2019级考试题目

# Q1. 将数据读入R,使用readr库,用read_csc命令

# Q2. 导入tidyverse包

# Q3. 查看数据名称,任意两个变量做散点图,解释结果

# Q4. 找出countyCode列和communityCode 的缺失值,并删除相应的行

# Q5.找出population中的极端值并滤掉对应行的数据,报告删了多少行

# Q6. medIncome的自然对数作因变量，PctUnemployed作自变量,写回归方程,

# 指出自变量系数是否在某一显著水平上显著

# Q7.创建highRobPerPop,0-1变量,1表示robbbPerPop大于其中位数,0表示小于其中位数,

# 以这个新变量为因变量,选择适合的模型进行回归,并解释你变量选择的理由。

# Q8. 用模型预测newdata.txt这个是否属于“高人均抢劫率”？把结果与实际进行比较

# Q9

# Q10 现象解释：10000个b系数的分布为正态分布,符合中心极限定理

# 在大样本抽样中,多次抽样的平均值的均值趋近于总体均值。

学长答案：https://www.jianshu.com/p/468862281e19

其他同学：

https://jorryyang.gitee.io/rdata/（杨争大佬的笔记➕作业）

雪糕ray/kaobiguo

#系数是否显著：https://www.cnblogs.com/runner-ljt/p/4581622.html

#创建新变量：例：数据名字叫做dat

dat[dat < 4] = 0

dat[dat >= 4] = 1

#选择回归模型：https://www.cnblogs.com/wisematch/p/7525318.html

https://cloud.tencent.com/developer/news/153612（模型修正）

#预测模型：https://blog.csdn.net/weixin_36220483/article/details/52639469

#中心极限定理的推导

m <- 1000000

mx <- NA

for (j in 1:m) {

x <- rchisq(15,8)

y <- (x/10)^2

z <- (x/10)^2

z <- y + x

mx[j] <- mean(z)

}

hist(mx)

}