机器学习实战教程(五):Logistic回归基础篇之梯度上升算法(b

三、Python3实战

1、数据准备

数据集已经为大家准备好,下载地址:数据集下载

这就是一个简单的数据集,没什么实际意义。让我们先从这个简单的数据集开始学习。先看下数据集有哪些数据:

免费视频教程:www.mlxs.top      

这个数据有两维特征,因此可以将数据在一个二维平面上展示出来。我们可以将第一列数据(X1)看作x轴上的值,第二列数据(X2)看作y轴上的值。而最后一列数据即为分类标签。根据标签的不同,对这些点进行分类。

那么,先让我们编写代码,看下数据集的分布情况:

# -*- coding:UTF-8 -*-

import matplotlib.pyplot as plt

import numpy as np

"""

函数说明:加载数据

"""

def loadDataSet():

    dataMat = []                                                        #创建数据列表

    labelMat = []                                                        #创建标签列表

    fr = open('testSet.txt')                                            #打开文件   

    for line in fr.readlines():                                            #逐行读取

        lineArr = line.strip().split()                                    #去回车,放入列表

        dataMat.append([1.0, float(lineArr[0]), float(lineArr[1])])        #添加数据

        labelMat.append(int(lineArr[2]))                                #添加标签

    fr.close()                                                            #关闭文件

    return dataMat, labelMat                                            #返回

"""

函数说明:绘制数据集

"""

def plotDataSet():

    dataMat, labelMat = loadDataSet()                                    #加载数据集

    dataArr = np.array(dataMat)                                            #转换成numpy的array数组

    n = np.shape(dataMat)[0]                                            #数据个数

    xcord1 = []; ycord1 = []                                            #正样本

    xcord2 = []; ycord2 = []                                            #负样本

    for i in range(n):                                                    #根据数据集标签进行分类

        if int(labelMat[i]) == 1:

            xcord1.append(dataArr[i,1]); ycord1.append(dataArr[i,2])    #1为正样本

        else:

            xcord2.append(dataArr[i,1]); ycord2.append(dataArr[i,2])    #0为负样本

    fig = plt.figure()

    ax = fig.add_subplot(111)                                            #添加subplot

    ax.scatter(xcord1, ycord1, s = 20, c = 'red', marker = 's',alpha=.5)#绘制正样本

    ax.scatter(xcord2, ycord2, s = 20, c = 'green',alpha=.5)            #绘制负样本

    plt.title('DataSet')                                                #绘制title

    plt.xlabel('x'); plt.ylabel('y')                                    #绘制label

    plt.show()                                                            #显示

if __name__ == '__main__':

    plotDataSet()

运行结果如下:

免费视频教程:www.mlxs.top      

从上图可以看出数据的分布情况。假设Sigmoid函数的输入记为z,那么z=w0x0 + w1x1 + w2x2,即可将数据分割开。其中,x0为全是1的向量,x1为数据集的第一列数据,x2为数据集的第二列数据。另z=0,则0=w0 + w1x1 + w2x2。横坐标为x1,纵坐标为x2。这个方程未知的参数为w0,w1,w2,也就是我们需要求的回归系数(最优参数)。

2、训练算法

在编写代码之前,让我们回顾下梯度上升迭代公式:

免费视频教程:www.mlxs.top      

根据矢量化的公式,编写代码如下:

# -*- coding:UTF-8 -*-

import numpy as np

"""

函数说明:加载数据

"""

def loadDataSet():

    dataMat = []                                                        #创建数据列表

    labelMat = []                                                        #创建标签列表

    fr = open('testSet.txt')                                            #打开文件 

    for line in fr.readlines():                                            #逐行读取

        lineArr = line.strip().split()                                    #去回车,放入列表

        dataMat.append([1.0, float(lineArr[0]), float(lineArr[1])])        #添加数据

        labelMat.append(int(lineArr[2]))                                #添加标签

    fr.close()                                                            #关闭文件

    return dataMat, labelMat                                            #返回

"""

函数说明:sigmoid函数

"""

def sigmoid(inX):

    return 1.0 / (1 + np.exp(-inX))、

"""

函数说明:梯度上升算法

"""

def gradAscent(dataMatIn, classLabels):

    dataMatrix = np.mat(dataMatIn)                                        #转换成numpy的mat

    labelMat = np.mat(classLabels).transpose()                            #转换成numpy的mat,并进行转置

    m, n = np.shape(dataMatrix)                                            #返回dataMatrix的大小。m为行数,n为列数。

    alpha = 0.001                                                        #移动步长,也就是学习速率,控制更新的幅度。

    maxCycles = 500                                                        #最大迭代次数

    weights = np.ones((n,1))

    for k in range(maxCycles):

        h = sigmoid(dataMatrix * weights)                                #梯度上升矢量化公式

        error = labelMat - h

        weights = weights + alpha * dataMatrix.transpose() * error

    return weights.getA()                                                #将矩阵转换为数组,返回权重数组

if __name__ == '__main__':

    dataMat, labelMat = loadDataSet()         

    print(gradAscent(dataMat, labelMat))

运行结果如图所示:

免费视频教程:www.mlxs.top      

可以看出,我们已经求解出回归系数[w0,w1,w2]。

通过求解出的参数,我们就可以确定不同类别数据之间的分隔线,画出决策边界。

3、绘制决策边界

我们已经解出了一组回归系数,它确定了不同类别数据之间的分隔线。现在开始绘制这个分隔线,编写代码如下:

# -*- coding:UTF-8 -*-

import matplotlib.pyplot as plt

import numpy as np

"""

函数说明:加载数据

def loadDataSet():

    dataMat = []                                                        #创建数据列表

    labelMat = []                                                        #创建标签列表

    fr = open('testSet.txt')                                            #打开文件 

    for line in fr.readlines():                                            #逐行读取

        lineArr = line.strip().split()                                    #去回车,放入列表

        dataMat.append([1.0, float(lineArr[0]), float(lineArr[1])])        #添加数据

        labelMat.append(int(lineArr[2]))                                #添加标签

    fr.close()                                                            #关闭文件

    return dataMat, labelMat                                            #返回

"""

函数说明:sigmoid函数

"""

def sigmoid(inX):

    return 1.0 / (1 + np.exp(-inX))

"""

函数说明:梯度上升算法

Parameters:

    dataMatIn - 数据集

    classLabels - 数据标签

Returns:

    weights.getA() - 求得的权重数组(最优参数)

"""

def gradAscent(dataMatIn, classLabels):

    dataMatrix = np.mat(dataMatIn)                                        #转换成numpy的mat

    labelMat = np.mat(classLabels).transpose()                            #转换成numpy的mat,并进行转置

    m, n = np.shape(dataMatrix)                                            #返回dataMatrix的大小。m为行数,n为列数。

    alpha = 0.001                                                        #移动步长,也就是学习速率,控制更新的幅度。

    maxCycles = 500                                                        #最大迭代次数

    weights = np.ones((n,1))

    for k in range(maxCycles):

        h = sigmoid(dataMatrix * weights)                                #梯度上升矢量化公式

        error = labelMat - h

        weights = weights + alpha * dataMatrix.transpose() * error

    return weights.getA()                                                #将矩阵转换为数组,返回权重数组

"""

函数说明:绘制数据集

Parameters:

    weights - 权重参数数组

"""

def plotBestFit(weights):

    dataMat, labelMat = loadDataSet()                                    #加载数据集

    dataArr = np.array(dataMat)                                            #转换成numpy的array数组

    n = np.shape(dataMat)[0]                                            #数据个数

    xcord1 = []; ycord1 = []                                            #正样本

    xcord2 = []; ycord2 = []                                            #负样本

    for i in range(n):                                                    #根据数据集标签进行分类

        if int(labelMat[i]) == 1:

            xcord1.append(dataArr[i,1]); ycord1.append(dataArr[i,2])    #1为正样本

        else:

            xcord2.append(dataArr[i,1]); ycord2.append(dataArr[i,2])    #0为负样本

    fig = plt.figure()

    ax = fig.add_subplot(111)                                            #添加subplot

    ax.scatter(xcord1, ycord1, s = 20, c = 'red', marker = 's',alpha=.5)#绘制正样本

    ax.scatter(xcord2, ycord2, s = 20, c = 'green',alpha=.5)            #绘制负样本

    x = np.arange(-3.0, 3.0, 0.1)

    y = (-weights[0] - weights[1] * x) / weights[2]

    ax.plot(x, y)

    plt.title('BestFit')                                                #绘制title

    plt.xlabel('X1'); plt.ylabel('X2')                                    #绘制label

    plt.show()     

if __name__ == '__main__':

    dataMat, labelMat = loadDataSet()         

    weights = gradAscent(dataMat, labelMat)

    plotBestFit(weights)

运行结果如下:

免费视频教程:www.mlxs.top    

这个分类结果相当不错,从上图可以看出,只分错了几个点而已。但是,尽管例子简单切数据集很小,但是这个方法却需要大量的计算(300次乘法)。因此下篇文章将对改算法稍作改进,从而减少计算量,使其可以应用于大数据集上。免费视频教程:www.mlxs.top    

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,875评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,569评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,475评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,459评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,537评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,563评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,580评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,326评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,773评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,086评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,252评论 1 343
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,921评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,566评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,190评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,435评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,129评论 2 366
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,125评论 2 352