机器学习实战

解决样本不平衡问题

from imblearn.over_sampling import RandomOverSampler

机器学习实战编码技巧

一堆头文件:

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns  

from imblearn.over_sampling import RandomOverSampler #过采样

from sklearn.preprocessing import LabelEncoder, StandardScaler, MinMaxScaler, RobustScaler  #数据预处理

#模型选择
from sklearn.model_selection import cross_val_score #交叉验证的方法
from sklearn.model_selection import train_test_split, RandomizedSearchCV, StratifiedKFold, KFold, GridSearchCV

#模型评估结果
from sklearn.metrics import f1_score, roc_auc_score,accuracy_score,confusion_matrix, precision_recall_curve, auc, roc_curve, recall_score, classification_report  
from sklearn.metrics import plot_confusion_matrix 
from sklearn.metrics import cohen_kappa_score #用于一致性检验的指标,也可以用于衡量分类的效果。

# 模型调参
from hyperopt import STATUS_OK, Trials, fmin, hp, tpe 

#机器学习模块
from sklearn.ensemble import ExtraTreesClassifier, RandomForestClassifier, BaggingClassifier #集成学习模块
from sklearn.neighbors import KNeighborsClassifier
from sklearn.cluster import KMeans
from sklearn.tree import DecisionTreeClassifier
from sklearn import svm

import missingno as msno #是一个可视化缺失值的库

from scipy.stats import randint #随机数

from catboost import CatBoostClassifier  #机器学习库
import xgboost as xgb
from xgboost import XGBClassifier, plot_importance
import lightgbm as lgb #基于决策树的提升算法

import pickle #模型打包

SVD截断奇异值分解

a = pd.get_dummies(X['Region_Code'], prefix = 'Region_Code', drop_first=True)
svd=TruncatedSVD(n_components=5, n_iter=7, random_state=42)
svd.fit(a)
data1 = pd.DataFrame(svd.transform(a))
data1.columns = ['Region_Code_'+str(i) for i in range(5)]

对样本进行下采样:

rus = RandomUnderSampler(random_state=0)
X, y = rus.fit_resample(X, y)
  • 召回率:样本中的正例有多少被预测正确了

交叉验证:

kf = model_selection.KFold(n_splits=10, random_state=None, shuffle=False)
scores = model_selection.cross_val_score(model, X_train, y_train, cv=kf)

主成分分析:

from sklearn.decomposition import PCA
from sklearn.preprocessing import MinMaxScaler, LabelEncoder, StandardScaler, RobustScaler

X = raw_nonu[['Vehicle_Age_1-2 Year','Vehicle_Age_< 1 Year','Vehicle_Age_> 2 Years']]
pca=PCA(n_components=1)  #主成分个数
pca.fit(X)
pca_Vehicile = pca.transform(X)

正态性检验

print("Vintage",stats.shapiro(X_train.Vintage))

计算得分:

accuracy_score(y_test, predictions)
precision_score(y_test, predictions)
recall_score(y_test, predictions)
f1_score(y_test, predictions)

混淆矩阵:

plot_confusion_matrix(tree_classifier,X_test, y_test) #(分类器,特征,标签)

数据标准化/归一化:

from sklearn.preprocessing import LabelEncoder, StandardScaler, MinMaxScaler, RobustScaler
ss = StandardScaler()
train[num_feat] = ss.fit_transform(train[num_feat])

mm = MinMaxScaler()
train[['Annual_Premium']] = mm.fit_transform(train[['Annual_Premium']])

matlab化:

%pylab inline

画ROC曲线:

%pylab inline
y_score = rf_load.predict_proba(x_test)[:,1]
fpr, tpr, _ = roc_curve(y_test, y_score)

title('Random Forest ROC curve: CC Fraud')
xlabel('FPR (Precision)')
ylabel('TPR (Recall)')

plot(fpr,tpr)
plot((0,1), ls='dashed',color='black')
plt.show()
print ('Area under curve (AUC): ', auc(fpr,tpr))

roc_auc_score(y_test, y_score)
plt.savefig("./ROC曲线")

划分训练集测试集:

from sklearn.model_selection import train_test_split
train_target=train['Response']
x_train,x_test,y_train,y_test = train_test_split(train,train_target, random_state = 0)

决策树:
tree_classifier = DecisionTreeClassifier()

xgboost

model_xgb = XGBClassifier()
model_xgb.fit(X, y,eval_metric='mlogloss')

随机森林:

from sklearn import model_selection
from sklearn.ensemble import RandomForestClassifier
random_search = {'criterion': ['entropy', 'gini'],
               'max_depth': [2,3,4,5,6,7,10],
               'min_samples_leaf': [4, 6, 8],
               'min_samples_split': [5, 7,10],
               'n_estimators': [300]}

clf = RandomForestClassifier()
model = RandomizedSearchCV(estimator = clf, param_distributions = random_search, n_iter = 10, 
                               cv = 4, verbose= 1, random_state= 101, n_jobs = -1)
model.fit(x_train,y_train)

y_pred=model.predict(x_test)

KNN:

KNN = KNeighborsClassifier(n_neighbors=11, metric='minkowski', p = 2)
KNN.fit(X_train, y_train)

KNN_predictions = KNN.predict(X_test)
KNN_predictions

BaggingClassifier

b_classifier = BaggingClassifier()
b_classifier.fit(X_train, y_train)

b_predictions = b_classifier.predict(X_test)
b_predictions

构造一个等比数列:

range_m = np.logspace(0, 2, num=5).astype(int)

独热编码:

var=pd.get_dummies(var, prefix = 'var', drop_first=True) #默认扔掉第一个哑变量,还会把原来那个也删除掉。

categorical_vars = ['Gender', 'Vehicle_Age', 'Vehicle_Damage','Region_Code'] 
#列出你要编码的字段
for var in categorical_vars:
    data = pd.concat([data, pd.get_dummies(data[var], prefix = var)], 1)
    data = data.drop(var, 1)    #删除原字段

保存模型:

import pickle
filename = 'rf_model.sav'
pickle.dump(model, open(filename, 'wb'))

#导入模型
rf_load = pickle.load(open(filename, 'rb'))
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,254评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,875评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,682评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,896评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,015评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,152评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,208评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,962评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,388评论 1 304
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,700评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,867评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,551评论 4 335
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,186评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,901评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,142评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,689评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,757评论 2 351

推荐阅读更多精彩内容