逻辑回归模型原理推导及python实现

1 . 模型定义:

逻辑回归模型定义为具有如下概率分布的模型:

P(Y = 1 | x) = \frac {exp(w · x)+b} {1+exp(w·x + b)}(即Y = 1 的概率)

P(Y = 0 | x) = \frac {1} {1+exp(w·x + b)} (即Y = 0 的概率)

其中

x \in R^n是输入(特征空间)
Y \in \{0, 1\}是输出(标记)
\omega \in R^n 为模型参数——权值向量(weight)
b \in R 为模型参数——偏置(bias)

简洁表达起见,将b 扩充入\omega ,同时 x 后加入一项全为1的列,使得

\omega · x + b \Rightarrow \omega· x

其中

\omega = \{\omega_1, \omega_2, \cdots,\omega_n, b\}, x = \{x_1, x_2, \cdots, x_n, 1\}

几率

一个事件发生的几率 指 该事件发生的概率与不发生的概率的比值,
如果某一事件发生的概率为 p, 那么它的几率为 \frac {p} {1-p}
那么该事件的对数几率函数即 logit(p) = log \frac{p}{1-p}

因此逻辑回归模型的对数几率函数为:
log \frac {P(Y = 1| x)}{1 - P(Y =1|x)} = log\frac {P(Y = 1| x)}{P(Y = 0|x)} =\prod_{i =1}^{N}(\pi(x)^{y_i} (1-\pi(x))^{1-y_i} = \omega · x

上式意味着, 输出 Y = 1的 对数几率 是 输入 x 的线性函数, 即逻辑回归模型。

2. 模型参数估计

我们的目标是从训练数据中学到模型参数(\omega, b), 采用极大似然估计法。
对于给定的训练数据集\{(x_1, y_1), (x_2, y_2) \cdots (x_N, y_N)\}(x \in R^n, y\in \{0,1\})

为了应用到逻辑回归模型中, 用于估计模型参数 (\omega, b),需要首先假设

P (Y= 1| x) = \frac {exp(w · x)} {1+exp(w·x + b)} = \pi (x),

P(Y = 0 | x)= \frac {1} {1+exp(w·x + b)} = 1- \pi (x))

则似然函数为
\prod_{i =1}^{N}(\pi(x)^{y_i} (1-\pi(x))^{1-y_i})
其中

N 为 训练数据大小

上式不能直接对 w 求导, 转为对数似然函数:
L(\omega) =log(\prod_{i =1}^{N} (\pi(x_i)^{y_i} (1-\pi(x_i))^{1-y_i}))
=\Sigma_{i =1}^{N} (y_i log \pi(x_i) + (1-y_i)log(1-\pi(x_i)))
=\Sigma_{i =1}^{N} (y_i log \frac{\pi(x_i)}{1-\pi(x_i)} + log(1- \pi(x_i)))

=\Sigma_{i =1}^{N} (y_i(\omega ·x_i) - log(1+ exp(\omega · x_i)))

目标是求得\omega 的最大值,对数似然函数 L(\omega)\omega_i 求偏导

\frac {\partial L(\omega)}{ \partial \omega_i} =y_i x_i - \frac{1}{1-exp(\omega · x_i)}) · exp(\omega · x_i) · x_i = (y_i - \frac{1}{1-exp(-\omega · x)})x_i

根据凸优化理论,可以利用梯度上升法求 \omega_i 的最大值, 即

\omega_i = \omega_i +\alpha \frac {\partial L(\omega)}{ \partial \omega_i} = \omega_i - \alpha (y_i - \frac{1}{1-exp(-\omega · x)})x_i, (i = 1, 2, \cdots ,n)

\alpha 为步长, 也称为学习率

4. Python 实现代码

import time
import numpy as np
'''
数据集: MNIST
训练集大小: 6000
测试集大小: 1000
下载地址:https://pjreddie.com/projects/mnist-in-csv/
-----
运行结果:
start read trainSet
start read testSet
start to train
start to test
the accuracy is : 0.9704
time span: 44.21207141876221
'''

def loadData(fileName):
    '''
    加载数据集
    :param fileName: 文件路径
    :return: dataList,labelList分别为特征集X和标记Y. 均为list

    '''
    dataList = [] 
    labelList = []

    f = open(fileName, 'r')

    for line in f.readlines():
        curline = line.strip().split(',')
        '''
        这里考虑到我用的文件是csv格式,所以用split(',')
        
        Mnsit有0-9十个标记
        文件每行开头第一个数字为该行的label标记
        这里为了简化,限定二分类任务,所以将标记0的作为1(正例),其余为0(反例)
        '''
        if (int(curline[0]) == 0):
            labelList.append(1)
        else:
            labelList.append(0)

        '''
        加入特征集X
        由于开头第一个数字为标记,故从下标 1 开始
        这里转为int类型
        /255 是为了归一化,有效减少数字爆炸。
        '''
        dataList.append([int(num)/255 for num in curline[1:]])

    #读取完毕关闭文件
    f.close()

    #返回训练集X_train, y_train
    return dataList, labelList


def predict(x, w):
    '''
    预测新数据的标记
    :param x: 用于预测的样本,为matrix[1 * m]
    :param w: 训练后的的到的w ,为matrix[m * 1]
    :return: 预测结果——标记1或0
    '''
    prob = sigmoid(np.sum(x * w)) 
    P1 = sigmoid(prob)
    if P1 > 0.5:
        return 1.0
    return 0.0

def sigmoid(inX):
    '''
    sigmoid函数
    '''
    return 1.0 / (1 + np.exp(-inX))

def LR_train(X_train, y_train, alpha, iter=40):
    '''
    逻辑回归训练
    :param X_train: 训练集X
    :param y_train: 标记Y
    :param iter:迭代次数
    :return: 模型参数 w
    '''

    #这里根据前面提到的合并将(w·x +b ) 变换为(w·x), 训练集特征X后面增加一列全为1 的项
    for i in range(len(X_train)):
        X_train[i].append(1)

    #使用矩阵可以提高运算速度
    X_train = np.matrix(X_train)
    y_train = np.matrix(y_train).T

    #初始化w = {w1,w2,...,wn}全为0
    w = np.zeros(X_train.shape[1])
    w = np.matrix(w).T #转换后w大小为(n, 1)


    '''
    梯度上升法求解 w 的最大值
    公式在前文部分已经给出,原本该利用xi 计算一点的梯度来更新 wi,
    但这样计算时间大大增加,因为要循环跑完整个数据集,才能更新整个w,
    这样下来 就是双层循环,外层 为迭代次数,内层为数据集的大小,
    本例中的开销大概是 20 * 6000,需要很长时间。 大约需要半小时
    
    这里参考了《机器学习实战》 p86处的矩阵算法
    直接利用整个数据集计算梯度来更新w
    时间开销最终不到1min.
    '''
    for i in range(iter):
        error = y_train - sigmoid(X_train * w)
        w += alpha * X_train.T * error

    #训练完毕,返回w
    return w


def test(X_test, y_test, w):
    '''
    验证测试数据集
    :param X_test: 测试集特征
    :param y_test: 测试集标记
    :param w: 训练后得到的w
    :return: 准确率
    '''

    '''
    这里对测试集特征空间进行扩充处理,同前面训练集一样,增加一列全为1的项
    '''
    for i in range(len(X_test)):
        X_test[i].append(1)

    #错误计数
    errorCount = 0

    #后续发现这里可以优化,采用矩阵乘法
    #考虑到测试集不大,有时间再改
    for i in range(len(X_test)):
        if y_test[i] != int(predict(np.matrix(X_test[i]), w)):
            errorCount += 1

    #返回在测试集上的准确率
    return 1 - errorCount / len(X_test)


if __name__ == '__main__':
    start = time.time()

    print('read trainSet')
    trainData, trainLabel = loadData('D:/PythonLearn/MLA/mnist_train.csv')

    print('read testSet')
    testData, testLabel = loadData('D:/PythonLearn/MLA/mnist_test.csv')

    print('train')
    w = LR_train(trainData, trainLabel, alpha=0.001)

    print('testing')

    accuracy = test(testData, testLabel, w)
    end = time.time()

    print('the accuracy is :', accuracy)
    print('time span:', end - start, 's')
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,794评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,050评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,587评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,861评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,901评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,898评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,832评论 3 416
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,617评论 0 271
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,077评论 1 308
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,349评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,483评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,199评论 5 341
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,824评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,442评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,632评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,474评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,393评论 2 352

推荐阅读更多精彩内容