《机器学习及实践——从零开始通往KAGGLE竞赛之路》读书笔记三

基础篇

本章书中着重介绍了监督学习经典模型和无监督学习经典模型的使用方法、性能评价以及优缺点。对于每一类经典模型,都将从模型简介、数据描述、编程实践、性能评测、特点分析五个角度进行阐述。

监督学习经典模型

监督学习任务的基本构架和流程:
  1. 准备训练数据(包括文本、音频、图像等),抽取所需要的特征,形成特征向量(Feature Vectors)。
  2. 把这些特征向量连同对应的标记/目标(Labels)一并送入学习算法(Machine Learning Algorithm),训练出一个预测模型(Predictive Model)。
  3. 采用同样的特征抽取方法作用于新测试数据,得到用于测试的特征向量。
  4. 使用预测模型对这些待测试的特征向量进行训练并得到结果。

分类学习

分类学习是最常见的监督学习问题,并且其中的经典模型也是最被广泛应用。包括二分类(Binary Classification)、多类分类(Multiclass Classification)、多标签分类(Multi-label Classification)。

线性分类器

是一种假设特征与分类结果存在线性关系的模型。这个模型通过累加计算每个维度的特征与各自权重的乘积来帮助类别决策。
定义x = <x_1, x_2,...,x_n >代表n维特征向量,定义n维列向量w = <w_1, w_2, ..., w_n>来代表对应的权重,增加一个截距(intercept)b,由此该线性关系可以表达为:
f(w,x,b)=w^Tx+b
这类f∈R,取值范围分布于整个实数域。
我们所要处理的最简单的二分类问题希望f∈\{0,1\},因此我们需要把原函数映射到(0,1),于是我们想到了Logistic函数:
g(z)=\frac 1{1+e^{-z}}
将上式z替换为f,整合两个方程式,便获得了Logistic回归模型(Logistic Regression):
h_{w,b}(x) = g(f(w,x,b)) = \frac 1{1+e^{-f}} = \frac 1{1+e^{-(w^Tx+b)}}
该模型处理一个待分类的特征向量:如果z=0,那么g=0.5;若z<0,那么g<0.5,则被判别为一类,反之被判别为另一类。
当使用一组m个用于训练的特征向量X=<x^1,x^2,...,x^m>和其所对应的分类目标y=<y^1, y^2, ..., y^m>,我们希望Logistic回归模型可以在这组训练集上取得最大似然估计(Maximum Likelihood)的概率L=(w,b)


我们得知原始数据共有699条样本,每个样本有11列不同的数值:1列用于检索的id,9列与肿瘤相关的医学特征,1列表示肿瘤的类型。9列医学特征特质的数值均被量化为1~10之间的数字,肿瘤类型2代表良性肿瘤,肿瘤类型4代表恶性肿瘤。数据中有16个缺失值,用?表示。

import pandas as pd
import numpy as np

#创建特征列表
column_names = ['Sample code number', 'Clump Thickness', 'Uniformity of Cell Size', 'Uniformity of Cell Shape', 'Marginal Adhesion', 
                'Single Epithelial Cell Size', 'Bare Nuclei', 'Bland Chromatin', 'Normal Nucleoli', 'Mitoses', 'Class']

# 使用pandas.read_csv函数从互联网读取指定数据。
data = pd.read_csv('C:\\Users\\cao\\Jupyter\\Datasets\\Breast-Cancer\\breast-cancer-wisconsin.data', 
                   names = column_names )

# 将?替换为标准缺失值表示。
data = data.replace(to_replace='?', value=np.nan)

# 丢弃带有缺失值的数据(只要有一个维度有缺失)。
data = data.dropna(how='any')

# 输出data的数据量和维度。
data.shape
(683, 11)
data.head
<bound method NDFrame.head of      Sample code number  Clump Thickness  Uniformity of Cell Size  \
0               1000025                5                        1   
1               1002945                5                        4   
2               1015425                3                        1   
3               1016277                6                        8   
4               1017023                4                        1   
..                  ...              ...                      ...   
694              776715                3                        1   
695              841769                2                        1   
696              888820                5                       10   
697              897471                4                        8   
698              897471                4                        8   

     Uniformity of Cell Shape  Marginal Adhesion  Single Epithelial Cell Size  \
0                           1                  1                            2   
1                           4                  5                            7   
2                           1                  1                            2   
3                           8                  1                            3   
4                           1                  3                            2   
..                        ...                ...                          ...   
694                         1                  1                            3   
695                         1                  1                            2   
696                        10                  3                            7   
697                         6                  4                            3   
698                         8                  5                            4   

    Bare Nuclei  Bland Chromatin  Normal Nucleoli  Mitoses  Class  
0             1                3                1        1      2  
1            10                3                2        1      2  
2             2                3                1        1      2  
3             4                3                7        1      2  
4             1                3                1        1      2  
..          ...              ...              ...      ...    ...  
694           2                1                1        1      2  
695           1                1                1        1      2  
696           3                8               10        2      4  
697           4               10                6        1      4  
698           5               10                4        1      4  

[683 rows x 11 columns]>
# 使用sklearn.cross_valiation里的train_test_split模块用于分割数据。
# sklearn中已经废弃cross_validation,将其中的内容整合到model_selection中
from sklearn.model_selection import train_test_split

# 随机采样25%的数据用于测试,剩下的75%用于构建训练集合。
X_train, X_test, y_train, y_test = train_test_split(data[column_names[1:10]], data[column_names[10]], test_size=0.25, random_state=33)

#查验训练样本数量和类别分布
y_train.value_counts()
2    344
4    168
Name: Class, dtype: int64
# 查验测试样本的数量和类别分布。
y_test.value_counts()
2    100
4     71
Name: Class, dtype: int64

使用线性回归模型预测良性\恶行肿瘤

# 从sklearn.preprocessing里导入StandardScaler。
from sklearn.preprocessing import StandardScaler
# 从sklearn.linear_model里导入LogisticRegression与SGDClassifier。
from sklearn.linear_model import LogisticRegression
from sklearn.linear_model import SGDClassifier

# 标准化数据,保证每个维度的特征数据方差为1,均值为0。使得预测结果不会被某些维度过大的特征值而主导。
ss = StandardScaler()
X_train = ss.fit_transform(X_train)
X_test = ss.transform(X_test)

使用Logistic回归和随机梯度下降参数估计两种方法对上述处理好的训练数据进行学习,并根据测试样本进行预测。

# 初始化LogisticRegression与SGDClassifier。
lr = LogisticRegression()
sgdc = SGDClassifier()

# 调用LogisticRegression中的fit函数/模块用来训练模型参数。
lr.fit(X_train, y_train)

# 使用训练好的模型lr对X_test进行预测,结果储存在变量lr_y_predict中。
lr_y_predict = lr.predict(X_test)

# 调用SGDClassifier中的fit函数/模块用来训练模型参数。
sgdc.fit(X_train, y_train)
# 使用训练好的模型sgdc对X_test进行预测,结果储存在变量sgdc_y_predict中。
sgdc_y_predict = sgdc.predict(X_test)
性能评测:

在代码的最后,我们分别利用LogisticRegression和SGDClassfier针对测试样本进行预测。我们接下来有多种评价指标。
准确性(Accuracy):y_test记录了测试样本的正确数据,计算预测正确的百分比。
召回率(Recall):#True positive/(#True positive + #False positive)
精确率(Precision):#True negative/(#True negative + #False negative)
F1指标(F1 measure):以上两个指标的调和平均数

# 从sklearn.metrics里导入classification_report模块。
from sklearn.metrics import classification_report

# 使用逻辑斯蒂回归模型自带的评分函数score获得模型在测试集上的准确性结果。
print('Accuracy of LR Classifier:', lr.score(X_test, y_test))
# 利用classification_report模块获得LogisticRegression其他三个指标的结果。
print(classification_report(y_test, lr_y_predict, target_names=['Benign', 'Malignant']))
Accuracy of LR Classifier: 0.9883040935672515
              precision    recall  f1-score   support

      Benign       0.99      0.99      0.99       100
   Malignant       0.99      0.99      0.99        71

    accuracy                           0.99       171
   macro avg       0.99      0.99      0.99       171
weighted avg       0.99      0.99      0.99       171
# 使用随机梯度下降模型自带的评分函数score获得模型在测试集上的准确性结果。
print('Accuarcy of SGD Classifier:', sgdc.score(X_test, y_test))
# 利用classification_report模块获得SGDClassifier其他三个指标的结果。
print(classification_report(y_test, sgdc_y_predict, target_names=['Benign', 'Malignant']))
Accuarcy of SGD Classifier: 0.9941520467836257
              precision    recall  f1-score   support

      Benign       1.00      0.99      0.99       100
   Malignant       0.99      1.00      0.99        71

    accuracy                           0.99       171
   macro avg       0.99      0.99      0.99       171
weighted avg       0.99      0.99      0.99       171

特点分析

线性分类器是最常用和最基本的机器学习模型,尽管其受限于数据特征和分类目标之间的线性假设。这里使用了LogisticRegression和SGDClassifier。相比之下,前者对参数的计算采用了精确解析的方式,计算时间长但模型性能略高;后者采用随机梯度上升算法估计模型参数,计算时间短但模型性能略低。一般而言,对于10W量级以上的数据,考虑到时间消耗,更加推荐使用随机梯度算法。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,794评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,050评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,587评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,861评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,901评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,898评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,832评论 3 416
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,617评论 0 271
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,077评论 1 308
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,349评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,483评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,199评论 5 341
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,824评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,442评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,632评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,474评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,393评论 2 352