Python机器学习随笔之非线性分类的logistic回归拟合及正则化

编者注:本文采用梯度下降法来求解的logistic回归,关于其思想以及编程原理见本人之前文章《梯度下降法求解线性回归的python实现及其结果可视化》(https://zhuanlan.zhihu.com/p/30562194),在这里不再赘述。

01 非线性决策边界的logistic回归拟合

常规的logistic回归在解决分类问题时,通常是用于线性决策边界的分类(如下图-左图),因为logistic回归可以视为线性回归的一种转化,其回归模型为 (sigmoid函数):
image.png
式中的z=θTx(i)就是不同x的线性表达式f(x) = g(w0+w1x1+w2x2)。那么,对于线性决策边界的分类,如何用logistic回归预测、拟合呢?这时候就需要将f(x) = g(w0+w1x1+w2x2)的线性函数式转化成多项式:f(x) = g(w0+w1x1+w2x2+w3x12+w4x22+w5x1x2)去拟合(如下图-中图)。
image.png

但是,这种处理方式相比较于线性函数表达式会产生很多的项数,因而其变量(特征)也比较多,如果我们没有足够的数据集(训练集)去约束这个变量过多的模型,那么就会发生过拟合。如上图中的最右边图形,其分类结果完全正确,但这个分类模型似乎太过完美了吧?连交叉部分的类别也划分出来了。过拟合就是表示它的分类只是适合于自己这个测试用例,对需要分类的真实样本(例如测试集)而言,特别是针对新的数据样本,实用性反倒可能会低很多。

02 正则化优化logistic回归过拟合
正则化(Regularized)是解决过拟合问题的一种方法,它将保留所有的特征变量,但是会减小特征变量的数量级(参数数值的大小θ(j)),当我们有很多特征变量时,其中每一个变量都能对预测产生一点影响,每一个变量都是有用的,因此我们不希望把它们删掉,但是我们可以通过正则化方式增加它们的成本cost,来减小我们的函数中的一些项的权重,其意义在于平滑函数曲线,使得预测函数相对简单一些,避免过度复杂函数的过拟合问题。
其处理方法为:对某些θ(j)加入惩罚项:

image.png
在这里λ称作正则化参数,它通过平衡拟合训练的目标和保持参数值较小的目标。从而来保持假设的形式相对简单,来避免过度的拟合。
三、Regularized Logistic Regression实例
(1)假设有这样一个非线性决策边界的分类数据,(数据来自
https://github.com/jdwittenauer/ipython-notebooks/tree/master/data 中的ex2data2.txt):

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
path = 'D:\python\ml data\ex2data2.txt'  #路径要设置为你自己的路径
data2 = pd.read_csv(path, header=None, names=['Test 1', 'Test 2', 'Accepted'])
data2.head()
image.png

(2)其数据可视化为:

positive = data2[data2['Accepted'].isin([1])] #Accepted列中的1设定为positive
negative = data2[data2['Accepted'].isin([0])] #Accepted列中的0设定为positive

fig, ax = plt.subplots(figsize=(12,8))
ax.scatter(positive['Test 1'], positive['Test 2'], s=50, c='b', marker='o', label='Accepted')
ax.scatter(negative['Test 1'], negative['Test 2'], s=50, c='r', marker='x', label='Rejected')
ax.legend()
ax.set_xlabel('Test 1 Score')
ax.set_ylabel('Test 2 Score')
plt.show()
image.png

(3)构建多项式特征值
上图的可视化结果可以看到该数据类别是明显的非线性决策边界,对此我们首先构建变量'Test 1', 'Test 2'的多项式特征值,如下:

degree = 5
x1 = data2['Test 1']
x2 = data2['Test 2']

data2.insert(3, 'Ones', 1)

for i in range(1, degree):
    for j in range(0, i):
        data2['F' + str(i) + str(j)] = np.power(x1, i-j) * np.power(x2, j)

data2.drop('Test 1', axis=1, inplace=True) #删除Text1列并进行替换
data2.drop('Test 2', axis=1, inplace=True)  #删除Text2列并进行替换

data2.head()
image.png

其中degree表示多项式的幂数,range(1, degree)表示了从1次到4次,即由data2['F' + str(i) + str(j)] = np.power(x1, i-j) * np.power(x2, j)命令可知,每一列列名的F第一个数代表了x1的幂值,第二个数代表了x2的幂值,如F31则表示x13x2,以此类推。
(4)构建加入惩罚项的cost函数

def sigmoid(z):
    return 1 / (1 + np.exp(-z)) #构建sigmoid函数
def costReg(theta, X, y, learningRate):
    theta = np.matrix(theta)
    X = np.matrix(X)
    y = np.matrix(y)
    first = np.multiply(-y, np.log(sigmoid(X * theta.T)))
    second = np.multiply((1 - y), np.log(1 - sigmoid(X * theta.T)))
    reg = (learningRate / 2 * len(X)) * np.sum(np.power(theta[:,1:theta.shape[1]], 2))
return np.sum(first - second) / (len(X)) + reg

reg就是惩罚项,构建思路参考正则化优化logistic回归过拟合部分的惩罚项设置规则。
(5)采用梯度下降法求解

def gradientReg(theta, X, y, learningRate):
    theta = np.matrix(theta)  #转化为矩阵
    X = np.matrix(X)
    y = np.matrix(y)
    
    parameters = int(theta.ravel().shape[1]) #计算参数theta的个数
    grad = np.zeros(parameters)
    
    error = sigmoid(X * theta.T) - y
    
    for i in range(parameters):
        term = np.multiply(error, X[:,i])  #两矩阵相乘
        
        if (i == 0):
            grad[i] = np.sum(term) / len(X)  #一般来说第一个参数不需要正则化
        else:
            grad[i] = (np.sum(term) / len(X)) + ((learningRate / len(X)) * theta[:,i]) 
    
return grad

具体的梯度下降法思路可以参考之前本人写的关于梯度下降法求解线性回归的文章,只是在这里加了一个惩罚项的梯度下降求解,其构造思路如下图所示。


image.png

(6)将变量代入进行拟合
基于表格数据构建x、y变量并转化成数组,这部分内容可以参考之前本人写的关于梯度下降法求解线性回归的文章。然后用梯度下降法函数求解并计算cost。

# set X and y (remember from above that we moved the label to column 0)
cols = data2.shape[1]
X2 = data2.iloc[:,1:cols]
y2 = data2.iloc[:,0:1]

# convert to numpy arrays and initalize the parameter array theta
X2 = np.array(X2.values)
y2 = np.array(y2.values)
theta2 = np.zeros(11)
learningRate = 1 #设置学习率
gradientReg(theta2, X2, y2, learningRate)
costReg(theta2, X2, y2, learningRate)

得到的cost值为0.6931471805599454。
值得注意的是,在这里我们并没有在这个函数中执行梯度下降,而是基于梯度下降计算结果加入梯度项来实现的一个渐变步骤,因此,在这里我们还可以调用octave的内建函数fminunc();来获得最优的theta和最小的cost。在Python,我们可以使用SciPy的优化API来完成。

import scipy.optimize as opt
result2 = opt.fmin_tnc(func=costReg, x0=theta2, fprime=gradientReg, args=(X2, y2, learningRate))
result2

(7)计算预测结果精度

def predict(theta, X):
    probability = sigmoid(X * theta.T)
return [1 if x >= 0.5 else 0 for x in probability]
theta_min = np.matrix(result2[0])
predictions = predict(theta_min, X2)
correct = [1 if ((a == 1 and b == 1) or (a == 0 and b == 0)) else 0 for (a, b) in zip(predictions, y2)]
accuracy = (sum(map(int, correct)) % len(correct))
print 'accuracy = {0}%'.format(accuracy)

首先构建预测值函数,然后将该值与原始类别值0,1比较,计算其正确的精度,结果为91%。

写作不易,特别是技术类的写作,请大家多多支持,关注、点赞、转发等等..
参考文献:

  1. Machine Learning Exercises In Python, Part 1,
    http://www.johnwittenauer.net/machine-learning-exercises-in-python-part-1/
  2. (吴恩达笔记 1-3)——损失函数及梯度下降
    http://blog.csdn.net/wearge/article/details/77073142?locationNum=9&fps=1
  3. 斯坦福机器学习视频笔记 Week3 逻辑回归与正则化 Logistic
    https://www.cnblogs.com/yangmang/p/6352118.html
  4. 详解机器学习中的“正则化”(Regularization)
    http://makaidong.com/baimafujinji/1/5017_10306169.html
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,324评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,303评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,192评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,555评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,569评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,566评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,927评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,583评论 0 257
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,827评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,590评论 2 320
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,669评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,365评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,941评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,928评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,159评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,880评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,399评论 2 342

推荐阅读更多精彩内容