安宁哟

研究变量之间的相关性，发现别的重要变量

随/机/森/林（课上）

```

setwd("~/Desktop")

d = read.csv("train.csv",header = TRUE)

View(d)

dc = d[complete.cases(d),]

d0 = d[d$y==0,]

d1 = d[d$y==1,]

d2 = d[d$y==2,]

d3 = d[d$y==3,]

#产生与各类别内变量数量相等的一到十的数值，为之后给数字贴标签做铺垫

label0 = sample(c(1:10),dim(d0[1]),replace = TRUE)

label1 = sample(c(1:10),dim(d1[1]),replace = TRUE)

label2 = sample(c(1:10),dim(d2[1]),replace = TRUE)

label3 = sample(c(1:10),dim(d3[1]),replace = TRUE)

d0_train = d0[label0<=5,]

d0_test = d0[label0>5,]

d1_train = d1[label1<=5,]

d1_test = d1[label1>5,]

d2_train = d2[label2<=5,]

d2_test = d2[label2>5,]

d3_train = d3[label3<=5,]

d3_test = d3[label3>5,]

d_train = rbind(d0_train, d1_train,d2_train, d3_train)

d_test = rbind(d0_test,d1_test,d2_test,d3_test)

library(nnet)

re_log = multinom(y~.-id,data=d_train)

#类似于glm，但生成的模型是面对多种response的逻辑回归

pred_log = predict(re_log,newdata = d_test)

#按照还是上一步的模型跑测试集数据，注意data来源前面写newdata

tab_log = table(d_test$y,pred_log)

#出现类似混淆矩阵看模型。d_test$y是只看test中y

#计算对于0的精确度：左上角除以第一行的总和

library(rpart)

re_id3_mis = rpart(y~.-id,data = d_train)

re_id3 = rpart(y~.-id,data = d_train,method = "class")

library(RWeka)

re_id3 = rpart(y~.-id,data = d_train,method = "class",parms = list(split="information"))

pred_id3 = predict(re_id3,newdata = d_test,type = "class")

re_CART = rpart(y~.-id,data = d_train,method = "class",parms = list(split="gini"),control = rpart.control(cp = 0.0001))

pred_CART = predict(re_CART,newdata = d_test,type = "class")

table(d_test$y,pred_CART)

re_CART$cptable

min = which.min(re_CART$cptable[,4])

min

re_CART_f = prune(re_CART,cp=re_CART$cptable[min,1])

table(d_test$y,pred_CART)

plot(re_CART)

#随机森林

d_train$y = as.factor(d_train$y)

re_rf = randomForest(y~.-id,data=d_train,ntree=5)

pred_rf = predict(re_rf,newdata = d_test,type="prob")

d_train$y[d_train$y>=1]=1

d_test$y[d_test$y>=1]=1

```

蒙卡5.2

```

n=100

#蒙特卡洛仿真

alpha=c()

library(MASS)

for (i in 1:100){

mu1=c(0,0)

sigma1=matrix(c(1,0.5,0.5,1.25),nrow=2)

rand1=mvrnorm(n=100,mu=mu1,sigma=sigma1)

X=rand1[,1]

Y=rand1[,2]

alpha[i]=(var(Y)-cov(X,Y))/(var(X)+var(Y)-2*cov(X,Y))

}

rand1

for (j in 1:100)

{

ran=rand1[sample(c(1:100),100,replace=TRUE),]

#此处从（1:100）指的是要抽取100个数，后一个100指的是要总共抽取100个数

X=ran[,1]

Y=ran[,2]

alpha[j]=(var(Y)-cov(X,Y))/(var(X)+var(Y)-2*cov(X,Y))

#rand1用来储存多元正态分布的新的观测值（满足分布的新值）

#ran是将rand1中的100个数，随机有放回的抽取，形成新的一组response

```

P/C/A K/me/ans P422 10

```

X <- rbind(matrix(rnorm(20*50, mean = 0), nrow = 20),

matrix(rnorm(20*50, mean=0.7), nrow = 20),

matrix(rnorm(20*50, mean=1.4), nrow = 20))

X.pca = prcomp(X)$x

plot(X.pca[,1:2], col=c(rep(1,20), rep(2,20), rep(3,20)))

res = kmeans(X, centers = 3)

true_class = c(rep(1,20), rep(2,20), rep(3,20))