Python 2.6.7
Window10 X64
Git 2.10
前言
到处找啊找啊找啊找好用的分类器,抓到xgboost,听说表现比GBDT好,那我还玩什么GBDT。。。搞起
实测可用安装教程
windows 新版xgboost Python包安装教程 win10 64
亲测是可以完成安装的请大家可以看看,但是排版有点难受是不是,恩,我也觉的,哈哈,能安上就不错啦,还挑剔!还有一个也是可以成功安装的,记得他只是编译好了而已,还差最后一步,就是使用python setup.py install
来安装xgboost而已,所以可以参考
@faithefeng--在python中安装xgBoost(win64+anaconda)
另外附赠官方安装教程,英语好可以看看
踩过的坑
如果你看到上面就安装成功了,那没必要往下看了,这里是实习司机翻车的历程(掩面哭)
1. 这个包我都下不下来,还tm怎么下一步?
我相信很多小伙伴下包的时候很麻烦是不是,各种限制,虽然不算是翻墙,但是网速有时候卡的一比啊,所以我直接把所有要用的包(git+wingw64)下好上传了,需要的可以直接下载Git-2.10.2-64-bit.exe 下载和mingw64下载
2. 'cp','alias'等等 不是内部或外部命令,也不是可运行的程序
错了!!!这个,我真的折腾好久,因为一篇博客的误导,导致我一直在找我自己系统的问题,cp是linux的命令,复制文件用的,在win上一直是copy啊,然后一堆乱找,坑爹!这个命令不是在cmd上输入的!!!!这是在git bash上输入的!!!注意看清楚是在哪里输入命令,这次安装都不用cmd!!!这哥们也同样遇到这个问题
3. 不是git下来的包,咋的不能用呢?
以前我怕麻烦,直接下的zip,解压,安装setup.py完事,这次不行了,需要先编译啥的,所以推荐你最好是用git来获取github上最新的xgboost包,然后按照教程一步步走就可以了。所以事实上,你只需要git就可以了,当然还要个wingw64。
4. 使用Cygwin代替git bash怎么失败。
为了生命安全,请远离Cygwin,你的成功几率会上身百分之百。
5. no model name 'xgboost'
如果你按照@faithefeng--在python中安装xgBoost(win64+anaconda)来安装的,编译什么的一切正常,ok,你只是差最后一步,就是和普通的安装第三方包一样的步骤:
先进入xgboost路径下的python-package
然后cd python-package
再然后python setup.py install
测试xgboost栗子
为了检验是不是装完了,可以直接看看
import xgboost
可不可以用,为了显示其强大的分类能力,我以一个xgboost的多分类栗子来结束这次折腾半天的安装之旅,至于怎么调参就不是这篇要讨论的了。注意跑下列栗子你还需要下载一个数据集dermatology.data数据集下载,然后放在你的文件路径下或者自己改下路径
#! /usr/bin/python
import numpy as np
import xgboost as xgb
# label need to be 0 to num_class -1
data = np.loadtxt('./dermatology.data', delimiter=',',converters={33: lambda x:int(x == '?'), 34: lambda x:int(x)-1 } )
sz = data.shape
train = data[:int(sz[0] * 0.7), :]
test = data[int(sz[0] * 0.7):, :]
train_X = train[:,0:33]
train_Y = train[:, 34]
test_X = test[:,0:33]
test_Y = test[:, 34]
xg_train = xgb.DMatrix( train_X, label=train_Y)
xg_test = xgb.DMatrix(test_X, label=test_Y)
# setup parameters for xgboost
param = {}
# use softmax multi-class classification
param['objective'] = 'multi:softmax'
# scale weight of positive examples
param['eta'] = 0.1
param['max_depth'] = 6
param['silent'] = 1
param['nthread'] = 4
param['num_class'] = 6
watchlist = [ (xg_train,'train'), (xg_test, 'test') ]
num_round = 5
bst = xgb.train(param, xg_train, num_round, watchlist );
# get prediction
pred = bst.predict( xg_test );
print ('predicting, classification error=%f' % (sum( int(pred[i]) != test_Y[i] for i in range(len(test_Y))) / float(len(test_Y)) ))
# do the same thing again, but output probabilities
param['objective'] = 'multi:softprob'
bst = xgb.train(param, xg_train, num_round, watchlist );
# Note: this convention has been changed since xgboost-unity
# get prediction, this is in 1D array, need reshape to (ndata, nclass)
yprob = bst.predict( xg_test ).reshape( test_Y.shape[0], 6 )
ylabel = np.argmax(yprob, axis=1)
print ('predicting, classification error=%f' % (sum( int(ylabel[i]) != test_Y[i] for i in range(len(test_Y))) / float(len(test_Y)) ))
运算结果如下,说明你搞定了xgboost。。。。才怪嘞!这才安好包了而已!
[0] train-merror:0.011719 test-merror:0.127273
[1] train-merror:0.015625 test-merror:0.127273
[2] train-merror:0.011719 test-merror:0.109091
[3] train-merror:0.007812 test-merror:0.081818
[4] train-merror:0.007812 test-merror:0.090909
predicting, classification error=0.090909
[0] train-merror:0.011719 test-merror:0.127273
[1] train-merror:0.015625 test-merror:0.127273
[2] train-merror:0.011719 test-merror:0.109091
[3] train-merror:0.007812 test-merror:0.081818
[4] train-merror:0.007812 test-merror:0.090909
predicting, classification error=0.090909
BTW如果你是Ubuntu系统
恭喜你,中奖啦,直接在cmd下输入
pip install xgboost
就可以啦,亲测可用哦,但是在CentOS上不行,我也母鸡。
致谢
@ ychanmy--windows 新版xgboost Python包安装教程 win10 64
@faithefeng--在python中安装xgBoost(win64+anaconda)
@官方安装教程