巴黎银行贷款预测:谁能快速拿到贷款
https://www.kaggle.com/c/bnp-paribas-cardif-claims-management
炼数成金里的kaggle课程提过这个案例,对我而言比较特别的是combination函数的应用。在某位大神的方案里用了这个方法,下面分析一下:
首先看一下数据,共有11万4千多行,131个特征变量。
然后大神就简单粗暴的把所有空缺值赋为-1(我上一篇帖子大概白写了...)
再把id列删掉,另外赋给两个数据框。
data.train[is.na(data.train)] <- -1
data.test[is.na(data.test)] <- -1
x.train <- data.train[, -1]
y.train <- data.train$target
x.test <- data.test[, -1]
第二步,大刀阔斧的删去不重要的值,
omit.var <- c(1:3,4:9,11,13,15:20,23,25:29,32:33,35:37,39,41:46,48:49,51,53:55,57:61,63:65,67:71,73:74,76:78,80:90,92:107,108:111,115:128,130:131)
x.train <- x.train[, -(omit.var+1)]
x.test <- x.test[, -omit.var]
这时x.train和x.test只有25个特征变量了。x.train比test多个target列。
删掉哪些值当然也是各位大神反复试验出来的,另外,发现v22列有特殊的意义!
这是cutomer id,所以大神们做了各种组合。案例这位就用了combination函数,把customerid和其它字符串值结合起来。
第三步,将字符串的变量名归到一个新的变量集
char.vars <- colnames(x.train)[sapply(x.train, is.character)]
然后,每次从这个数据集里随机抽取两个变量,两两组合,形成v22v24,v56v66这种新特征变量。并加入到train和test数据框后面。
cmb <- combinations(n=length(char.vars), r=2, v=char.vars)
#这时候cmd是可能含有v22的变量组合,比如v22v24,
for(i in 1:nrow(cmb)) {
x.train[[paste0(cmb[i,1], cmb[i,2])]] <- paste(x.train[[cmb[i,1]]], x.train[[cmb[i,2]]])
x.test[[paste0(cmb[i,1], cmb[i,2])]] <- paste(x.test[[cmb[i,1]]], x.test[[cmb[i,2]]])
}
再然后,再从这个数据集里抽出不是v22的两个变量,继续两两组合,再加上v22前缀,又形成新的特征变量,并赋给train和test,比如v22v56v66
cmb <- combinations(n=length(char.vars)-1, r=2, v=char.vars[-match("v22",char.vars)])
#这时候cmd是一定不含v22的组合比如v56v66
for(i in 1:nrow(cmb)) {
x.train[[paste0("v22", cmb[i,1], cmb[i,2])]] <- paste(x.train[["v22"]], x.train[[cmb[i,1]]], x.train[[cmb[i,2]]])
x.test[[paste0("v22", cmb[i,1], cmb[i,2])]] <- paste(x.test[["v22"]], x.test[[cmb[i,1]]], x.test[[cmb[i,2]]])
}
现在train和test的变量列已经有170个了,比原来的还多。
第四步,是继续变态的组合....把变量10个10个的组合,感觉已经是被玩坏的节奏
cmb <- combinations(n=length(char.vars)-1, r=length(char.vars)-3, v=char.vars[-match("v22",char.vars)])
for(i in 1:nrow(cmb)) {
new.var.train <- x.train[["v22"]]
new.var.test <- x.test[["v22"]]
new.var.name <- "v22"
for(v in 1:ncol(cmb)) {
new.var.train <- paste(new.var.train , x.train[[cmb[i,v]]])
new.var.test <- paste(new.var.test, x.test[[cmb[i,v]]])
new.var.name <- paste0(new.var.name, cmb[i,v])
}
x.train[[new.var.name]] <- new.var.train
x.test[[new.var.name]] <- new.var.test
}
这里的双重循环代码我还不是很理解,大致是先按照行,再按照列的循环。如果自己来写的话估计会写错...
用list(colnames(x.train))来看,又增加了不少新的特征变量,一共是236个。
下面我自己没有运行出来,by=eval(var)那里总是报错,就不班门弄斧了。仅附上源代码供参考。
最后还是祭出了xgb大杀器,已经是kaggle流行标配了。
# replace with target mean
for(var in colnames(x.test)) {
if(is.character(x.test[[var]])) {
target.mean <- x.train[, list(pr=mean(target)), by=eval(var)]
x.test[[var]] <- target.mean$pr[match(x.test[[var]], target.mean[[var]])]
temp <- rep(NA, nrow(x.train))
for(i in 1:4) {
ids.1 <- -seq(i, nrow(x.train), by=4)
ids.2 <- seq(i, nrow(x.train), by=4)
target.mean <- x.train[ids.1, list(pr=mean(target)), by=eval(var)]
temp[ids.2] <- target.mean$pr[match(x.train[[var]][ids.2], target.mean[[var]])]
}
x.train[[var]] <- temp
}
}
x.train <- as.matrix(x.train)
x.test <- as.matrix(x.test)
x.train <- matrix(as.numeric(x.train), nrow(x.train), ncol(x.train))
x.test <- matrix(as.numeric(x.test), nrow(x.test), ncol(x.test))
params <- list("eta"=0.1, "max_depth"=6,
"colsample_bytree"=0.45,
"objective"="binary:logistic",
"eval_metric"="logloss")
xgb.train <- xgb.DMatrix(x.train, label=y.train)
model.xgb <- xgb.train(param=params, data=xgb.train, nrounds=260, watchlist=list(train=xgb.train), print.every.n=50)
predict <- predict(model.xgb, x.test)
predict <- cbind(ID=data.test$ID, PredictedProb=predict)
write.csv(predict, paste0("Submission.csv"), row.names=FALSE)
运算结果应该是在30/1000名之内,这对于小白我来说,已经是高不可攀的分数了...
总而言之,看来把变量各种组合也是算法的重要手段之一,在另一个竞赛的帖子里,据说冠军把20多个变量组合成了17000多个,也是服了。我们继续努力吧!