数据读入及分析
打开数据
data = pd.read_csv('train.csv')
data1=pd.read_csv('test.csv')
train_data = data.values[0:,1:]#读入全部训练数据
train_label = data.values[0:,0]
test_data=data1.values[0:,0:]#测试全部测试个数据
return train_data,train_label,test_data ``
使用pandas库读入数据超级强大,直接可以把表格读成矩阵。pandas是基于numpy库,所以使用和numpy比较像。由于我们读入的数据太多,我们需要进行一些简单的处理
## 归一化数据
``` def nomalizing(array):#归一化数据
m,n=shape(array)
for i in range(m):
for j in range(n):
if array[i,j]!=0:
array[i,j]=1
return array ```
##使用pvc进行降维处理
由于训练数据的特征值太多,而且一部分并不影响结果。我们将使用sklearn中自带的pvc主成元分析工具,进行降维处理。其中原理,大概是将数据向量投影到各个维度,某些维度投影较小,即没什么用。具体见斯坦福机器学习课程。
首先我们导入一个库``` from sklearn.decomposition import PCA ```
1.**类的原型说明 **
``` sklearn.decomposition.PCA(n_components=None, copy=True, whiten=False) ```
> n_components:int 或者 string,缺省时默认为None,所有成分被保留。PCA算法中所要保留的主成分个数n,也即保留下来的特征个数n;赋值为string,比如n_components=’mle’,将自动选取特征个数n,使得满足所要求的方差百分比。
copy:True或者False,缺省时默认为True。表示是否在运行算法时,将原始训练数据复制一份。True 将保持原始数据不变,False 则直接在原始数据上进行计算
whiten:缺省时默认为False。白化,是否使得每个特征具有相同的方差。
2.**pvc对象的使用**
```fit(X,y=None) ```
> fit()可以说是scikit-learn中通用的方法,每个需要训练的算法都会有fit()方法,它其实就是算法中的“训练”这一步骤。因为PCA是无监督学习算法,此处y自然等于None。
fit(X),表示用数据X来训练PCA模型。
``` fit_transform(X) ```
用X来训练PCA模型,同时返回降维后的数据。
``` newX=pca.fit_transform(X) ```,newX就是降维后的数据。
#进行机器学习
1.**knn算法**
```def knnClassify(trainData,trainLabel,testData):
knnClf=KNeighborsClassifier()#k=5 KNN中邻值为5,
knnClf.fit(trainData,ravel(trainLabel))
testLabel=knnClf.predict(testData)
savetxt('sklearn_knn_Result.csv', testLabel, delimiter=',') ```
可以通过KNeighborsClassifier(n_neighbors=k)进行参数选择
这个算法因为每预测一个数据,就要反复大量运算,所以花费时间特别长。
> 花费时间 20分钟
精度0.96400
以上默认参数情况如下,下面进行调参。
``` knn_clf=KNeighborsClassifier(n_neighbors=5, algorithm='kd_tree', weights='distance', p=3) ```
> 第一个参数为k值,第二个参数为搜索算法,默认暴力法,还有两种。 {‘auto’, ‘ball_tree’, ‘kd_tree’, ‘brute’},第三个参数为权重,第四个为norm选择,p=2为欧式,p=1为曼哈顿,p=3。
经过我的测试,k=5,alg=kd,weights='distance',p=3最准确
``` def knnClassify(trainData,trainLabel):
t=time.time()#测试时间
knnClf=KNeighborsClassifier(n_neighbors=5,algorithm='kd_tree', weights='distance', p=3)#调参
score = cross_val_score(knnClf, trainData, trainLabel, cv=3)#用原始数据的划分,进行准确度测试
print(score.mean())
print('time use%f'%(time.time()-t)) ```
> 花费时间448.856398
精度0.939898157339
完整的算法见github [kaggle_knn](https://github.com/00crazy00/kaggle_KNN.git)
> 花费时间1900s
精度0.96443
2.**决策树算法**
``` def treeClassify(trainData,trainLabel,testData):
clf = tree.DecisionTreeClassifier()
b = clf.fit(trainData,trainLabel)
testLabel=clf.predict(testData)
savetxt('sklearn_TREE.csv', testLabel, delimiter=',') ```
> 决策树(Decision Tree)是一种简单但是广泛使用的分类器。通过训练数据构建决策树,可以高效的对未知的数据进行分类。决策数有两大优点:1)决策树模型可以读性好,具有描述性,有助于人工分析;2)效率高,决策树只需要一次构建,反复使用,每一次预测的最大计算次数不超过决策树的深度。决策树基于信息论中的信息嫡划分决策树。
> 时间20s
精度0.87029
3.**逻辑回归**
``` def logClassify(trainData,trainLabel,testData):
classifier = LogisticRegression()
classifier.fit(trainData, trainLabel)
x = classifier.predict(testData)
savetxt('sklearn_log_Result.csv', x, delimiter=',') ```
具体算法参考《机器学习实战》和斯坦福课程。
> 时间80s
精度0.90629
4.**支持向量机**
支持向量机效果很好,花费时间也不是太多。原理是基于选取空间的支持向量。深入的话需要大量数学,以后再探究
``` def svmClassify(trainData,trainLabel,testData):
t = time.time()
pca = PCA(n_components=0.8, whiten=True)
train_x = pca.fit_transform(trainData)
test_x = pca.transform(testData)
svc = svm.SVC(kernel='rbf', C=10)
svc.fit(train_x, trainLabel)
h=time.time()
print('time used:%f' % (h - t))
test_y = svc.predict(test_x)
k=time.time()
print('time used:%f' % (k - h))
savetxt('sklearn_svm_Result.csv', test_y, delimiter=',') ```
> 花费时间57s
精度0.98529
5.**随机森林**
6.**深度学习**
(持续更)