一个神奇的特征 (谁能快速拿到贷款的kaggle案例)

巴黎银行贷款预测:谁能快速拿到贷款
https://www.kaggle.com/c/bnp-paribas-cardif-claims-management

炼数成金里的kaggle课程提过这个案例,对我而言比较特别的是combination函数的应用。在某位大神的方案里用了这个方法,下面分析一下:

首先看一下数据,共有11万4千多行,131个特征变量。


然后大神就简单粗暴的把所有空缺值赋为-1(我上一篇帖子大概白写了...)
再把id列删掉,另外赋给两个数据框。

data.train[is.na(data.train)] <- -1
data.test[is.na(data.test)] <- -1
x.train <- data.train[, -1]
y.train <- data.train$target
x.test <- data.test[, -1]

第二步,大刀阔斧的删去不重要的值,

omit.var <- c(1:3,4:9,11,13,15:20,23,25:29,32:33,35:37,39,41:46,48:49,51,53:55,57:61,63:65,67:71,73:74,76:78,80:90,92:107,108:111,115:128,130:131)
x.train <- x.train[, -(omit.var+1)]
x.test <- x.test[, -omit.var]

这时x.train和x.test只有25个特征变量了。x.train比test多个target列。


删掉哪些值当然也是各位大神反复试验出来的,另外,发现v22列有特殊的意义!
这是cutomer id,所以大神们做了各种组合。案例这位就用了combination函数,把customerid和其它字符串值结合起来。


第三步,将字符串的变量名归到一个新的变量集

char.vars <- colnames(x.train)[sapply(x.train, is.character)]

然后,每次从这个数据集里随机抽取两个变量,两两组合,形成v22v24,v56v66这种新特征变量。并加入到train和test数据框后面。

cmb <- combinations(n=length(char.vars), r=2, v=char.vars)
#这时候cmd是可能含有v22的变量组合,比如v22v24,
for(i in 1:nrow(cmb)) {
    x.train[[paste0(cmb[i,1], cmb[i,2])]] <- paste(x.train[[cmb[i,1]]], x.train[[cmb[i,2]]])
    x.test[[paste0(cmb[i,1], cmb[i,2])]] <- paste(x.test[[cmb[i,1]]], x.test[[cmb[i,2]]])
}
4.png

再然后,再从这个数据集里抽出不是v22的两个变量,继续两两组合,再加上v22前缀,又形成新的特征变量,并赋给train和test,比如v22v56v66

cmb <- combinations(n=length(char.vars)-1, r=2, v=char.vars[-match("v22",char.vars)])
#这时候cmd是一定不含v22的组合比如v56v66
for(i in 1:nrow(cmb)) {
    x.train[[paste0("v22", cmb[i,1], cmb[i,2])]] <- paste(x.train[["v22"]], x.train[[cmb[i,1]]], x.train[[cmb[i,2]]])
    x.test[[paste0("v22", cmb[i,1], cmb[i,2])]] <- paste(x.test[["v22"]], x.test[[cmb[i,1]]], x.test[[cmb[i,2]]])
}

现在train和test的变量列已经有170个了,比原来的还多。

5.png

第四步,是继续变态的组合....把变量10个10个的组合,感觉已经是被玩坏的节奏

cmb <- combinations(n=length(char.vars)-1, r=length(char.vars)-3, v=char.vars[-match("v22",char.vars)])
for(i in 1:nrow(cmb)) {
    new.var.train <- x.train[["v22"]]
    new.var.test <- x.test[["v22"]]
    new.var.name <- "v22"
    for(v in 1:ncol(cmb)) {
        new.var.train <- paste(new.var.train , x.train[[cmb[i,v]]])
        new.var.test <- paste(new.var.test, x.test[[cmb[i,v]]])
        new.var.name <- paste0(new.var.name, cmb[i,v])
    }
    x.train[[new.var.name]] <- new.var.train
    x.test[[new.var.name]] <- new.var.test
}

这里的双重循环代码我还不是很理解,大致是先按照行,再按照列的循环。如果自己来写的话估计会写错...
用list(colnames(x.train))来看,又增加了不少新的特征变量,一共是236个。


6.png

下面我自己没有运行出来,by=eval(var)那里总是报错,就不班门弄斧了。仅附上源代码供参考。
最后还是祭出了xgb大杀器,已经是kaggle流行标配了。

# replace with target mean
for(var in colnames(x.test)) {
    if(is.character(x.test[[var]])) {
        target.mean <- x.train[, list(pr=mean(target)), by=eval(var)]
        x.test[[var]] <- target.mean$pr[match(x.test[[var]], target.mean[[var]])]
        temp <- rep(NA, nrow(x.train))
        for(i in 1:4) {
            ids.1 <- -seq(i, nrow(x.train), by=4)
            ids.2 <- seq(i, nrow(x.train), by=4)
            target.mean <- x.train[ids.1, list(pr=mean(target)), by=eval(var)]
            temp[ids.2] <- target.mean$pr[match(x.train[[var]][ids.2], target.mean[[var]])]
        }
        x.train[[var]] <- temp
    }
}

x.train <- as.matrix(x.train)
x.test <- as.matrix(x.test)
x.train <- matrix(as.numeric(x.train), nrow(x.train), ncol(x.train))
x.test <- matrix(as.numeric(x.test), nrow(x.test), ncol(x.test))

params <- list("eta"=0.1,  "max_depth"=6,
               "colsample_bytree"=0.45,
               "objective"="binary:logistic",
               "eval_metric"="logloss")

xgb.train <- xgb.DMatrix(x.train, label=y.train)
model.xgb <- xgb.train(param=params, data=xgb.train, nrounds=260, watchlist=list(train=xgb.train), print.every.n=50)
predict <- predict(model.xgb, x.test)
predict <- cbind(ID=data.test$ID, PredictedProb=predict)
write.csv(predict, paste0("Submission.csv"), row.names=FALSE)

运算结果应该是在30/1000名之内,这对于小白我来说,已经是高不可攀的分数了...
总而言之,看来把变量各种组合也是算法的重要手段之一,在另一个竞赛的帖子里,据说冠军把20多个变量组合成了17000多个,也是服了。我们继续努力吧!

参考文件:
案例援引-Jack的方案
冠军帖子-Dexter's lab

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,384评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,845评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,148评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,640评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,731评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,712评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,703评论 3 415
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,473评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,915评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,227评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,384评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,063评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,706评论 3 324
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,302评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,531评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,321评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,248评论 2 352

推荐阅读更多精彩内容