Logistic Regression（吴恩达课程Octave代码用python实现）

详细代码参考：github

Logistics回归

实例：
建立Logistics模型，根据学生的两门考试成绩，判断该学生是否能被大学录取。

1.可视化数据

解决问题前，不妨先看下数据是怎么分布的，训练数据为100位同学两门课的成绩和录取结果，shape为（100 ，3），根据录取结果，录取的“+”表示，不能录取的“·”表示，根据图中分布，大致存在一条直线能够将两部分数据进行分类，接下来就去求解这条直线。

数据可视化

参考代码：

def plottingData(self):
    y1_index = np.where(self.y == 1.0)
    x1 = self.x[y1_index[0]]
    y0_index = np.where(self.y == 0.0)
    x0 = self.x[y0_index[0]]
    plt.scatter(x1[:, 0], x1[:, 1], marker='+', color='k')
    plt.scatter(x0[:, 0], x0[:, 1], color='y')
    plt.xlabel('Exam 1 score')
    plt.ylabel('Exam 2 score')

2.Sigmoid函数

我们暂且只考虑二分类问题，根据sigmoid函数的结果，当结果大于0.5时，判断为1，结果小于0.5时，判断为0.
公式：

sigmoid

参考代码：(比较简单，考虑矩阵也要用)

def sigmoid(self, z):
    return 1 / (1 + np.exp(-z))

def predict0_1(self, theta):
    self.p = np.zeros((100, 1))
    self.p = self.sigmoid(self.x_plus1.dot(np.array(theta).reshape(3, 1)))
    for i in range(len(self.p)):
        if self.p[i] < 0.5:
            self.p[i] = 0
        else:
            self.p[i] = 1
        i += 1
    return self.p

3.损失函数和梯度

逻辑回归的损失函数分为两部分，将y=0 和y=1的部分结合在一起，整体写出来如下。尤其注意矩阵相乘的时候维度匹配的问题，我经常在本子上把维度计算下，如：x的shape(100, 3)，theta(3, 1)结果shape肯定是（100，1），如果程序报维度错误，也能很快的发现哪里需要修改。

CostJ

Gradient

参考代码:

def costFunction(self, theta):
    m = len(self.y)
    J = np.sum(-np.dot(self.y.T, np.log(self.sigmoid(self.x_plus1.dot(theta))))\
        -np.dot((1-self.y).T, np.log(1-self.sigmoid(self.x_plus1.dot(theta)))), axis=0) / m
    return J

def gradient(self, theta):
    m = len(self.y)
    theta = theta.reshape((3, 1))
    grad = np.dot(self.x_plus1.T, (self.sigmoid(self.x_plus1.dot(theta))-self.y)) / m
    return grad

4.求解最优的theta

如果利用梯度下降的方法求解比较费时间，有大神已经尝试，在这里就不展开了，原Octave程序中使用了fminunc函数，经查找，发现了一篇大神的博客:Python fminunc 的替代方法，利用scipy.optimize中的minimize函数，详细内容还是看大神的博客，尤其注意result = op.minimize(fun=costFunction, x0=initial_theta, args=(X, Y), method='TNC', jac=gradient)中x0的维度，应该是（n, )。

参考代码：

def fminunc(self):  # costFunction需要几个参数就传几个,本例中只有一个theta,固x0,也可以利用args=()
    optiTheta = op.minimize(fun=self.costFunction, x0=self.init_theta, method='TNC', jac=self.gradient)
    return optiTheta  # dict

5.绘制拟合曲线

由于特征为两个，这里采取简单的两点绘制直线的方法。

拟合直线

参考代码：

def plotRegLine(self):  # 两点确定一条直线
    self.opti_theta = self.fminunc()['x']
    plot_x = [np.min(self.x[:, 0]), np.max(self.x[:, 1])]  # [A, B]
    plot_y = [-(self.opti_theta[0] + self.opti_theta[1]*x)/self.opti_theta[2] for x in plot_x]  # [A, B]
    self.plottingData()
    plt.plot(plot_x, plot_y)
    plt.legend(['Decision Boundary', 'Admitted', 'Not admitted'])
    plt.show()

5.准确率

利用求得的最优解theta反过来求解x的分类，和y本身做对比，求解准确率，得到结果为89%，这里没有单独设置测试集，也可以随机80%的数据作为训练集，剩余20%用作测试集。
参考代码：：

def predictAndAccuracies(self):
    prob = self.sigmoid(np.array(self.opti_theta).reshape(1, 3).dot(np.array([[1], [45], [85]])))
    print('For a student with scores with 45 and 85, we predict an admission probability of %f' % prob)
    accuracy = np.mean(self.predict0_1(self.opti_theta) == self.y)*100
    print('Train Accuracy: %f' % accuracy)

6.参考

1.Python fminunc 的替代方法

最后编辑于：2018.12.03 08:45:28

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 219,366评论 6赞 508
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 93,521评论 3赞 395
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 165,689评论 0赞 356
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,925评论 1赞 295
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 67,942评论 6赞 392
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,727评论 1赞 305
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,447评论 3赞 420
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 39,349评论 0赞 276
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,820评论 1赞 317
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,990评论 3赞 337
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 40,127评论 1赞 351
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,812评论 5赞 346
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,471评论 3赞 331
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 32,017评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 33,142评论 1赞 272
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 48,388评论 3赞 373
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 45,066评论 2赞 355

Logistic Regression（吴恩达课程Octave代码用python实现）

Logistics回归

1.可视化数据

2.Sigmoid函数

3.损失函数和梯度

4.求解最优的theta

5.绘制拟合曲线

5.准确率

6.参考

推荐阅读更多精彩内容