线性模型（linear model ）

一、基本概念

针对给定变量集x={x...},线性模型，试图运用一组常量值w={w...}，来构造一个函数方程，即：

1.1

写成向量形式为：

1.2

即：

1.3

若，w及b给定后，该函数模型就固定了；

线性模型形式简单，已于建模，但是其蕴涵着机器学习中的一些重要基本思想，许多非线性结构引入到或映射到高维，可以转换为线性模型处理。而且，其对于不同变量的影响，可以直观的看出；

二、线性回归（linear regession）

a、公式推导（最小二乘法）：

令：（其中n=d,m=n，X11、XM1均为1）

化简即得：

此公式来源百度百科

但是，现实生活中

往往不是满秩矩阵，这个便引入了正则化项（regularization）

b、一个实例（Sample）

对于线性回归，使用最小二乘法的一个实例：
先给定一组数据，为某产品x与y之间的对应关系；

x/y

建立一元n次模型：
程序如下：

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import csv
from numpy import matrix

plt.rcParams['font.sans-serif'] = ['SimHei']  # 指定默认字体
plt.rcParams['axes.unicode_minus'] = False  # 解决保存图像是负号'-'显示为方块的问题

def data_get(link, n):
    file = pd.read_csv(link, dtype=float)
    X = []
    for i in range(n + 1):
        lists = []
        for j in range(len(file['x'])):
            lists.append(pow(file['x'][j], i))
        X.append(lists)
    X_ = matrix(X)
    Y_ = matrix(file['y'])
    X = matrix.getT(X_)
    Y = matrix.getT(Y_)
    s = matrix.getI(X_ * X) * X_ * Y
    plt.scatter(file['x'],file['y'],s=20,c='r')
    plt.plot(file['x'],X*s)
    plt.xlabel('n='+str(n))
    lable=['拟合图','散点图']
    plt.legend(lable)
    plt.show()

link = 'D:\Py\machina\data\data_one.csv'
n = 3
data_get(link, n)

拟合结果如下：
①、n=1:

n=1，欠拟合

②、n=2 和n=3：拟合较好

n-2

n=3

③、n=6：过度拟合

n=6，过度拟合

c、梯度下降法

原理如下：

Gradient descent

给定一组初始a=0,0,0,...
下降系数为b
给定不同（a,b），可以得到不同的拟合速度；同时，当b给定过大时，可能会超过最优点，b太小时，会导致下降速度过慢；

c-1、数据预处理：

1、Feature scaling，数据正则化
不同的特征量由于单位不同，可能在数值上相差较大，Feature Scaling可以<b>去量纲</b>，减少梯度下降法的迭代次数，提高速度，所以在算法执行前通常需要Feature Scaling。直观上来说，考虑两个特征量，规范化前的椭圆很瘪，可能导致收敛的路径变长，数据规范化后使得椭圆较均匀，缩短收敛路径，如下：

Feature scaling

2、Features and polynomial regression，合并特征量
比如，房子受面积影响较大，那么面积又有深度、长度、宽度等决定，则可以将3者统一为一个变量；

c-2、代码如下：

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from numpy import matrix
import sys

sys.setrecursionlimit(200000)  # set the maximum depth as 200000
plt.rcParams['font.sans-serif'] = ['SimHei']  # 指定默认字体
plt.rcParams['axes.unicode_minus'] = False  # 解决保存图像是负号'-'显示为方块的问题

def data_get(url,n):#数据获取及处理
    data = pd.read_csv(url, dtype=float)
    mean_x = np.mean(data['x'])
    #mean_y = np.mean(data['y'])
    segma_x = np.std(data['x'])
    #segma_y = np.std(data['y'])
    x = list(map(lambda x:(x-mean_x)/segma_x,data['x']))
    #data_y = list(map(lambda y: (y - mean_y) / segma_y, data['y']))
    data_x=[]
    for i in range(len(data['x'])):
        #data_x.append(list(map(lambda y: pow(data['x'][i], y), range(n))))
         data_x.append(list(map(lambda y:pow(x[i],y),range(n))))   #Feature scaling
    return x,data_x,data['y']
def ds(a,b):
    sum=0
    for l in range(len(a)):
        sum=pow(a[l]-b[l],2)+sum
    return pow(sum,0.5)

def coreFunction(url,a,b,n): #关键函数：a,b的赋值及求取
    x,data_x,data_y=data_get(url,n)
    result=[]
    for j in range(len(a)):
        sum=0
        for k in range(len(data_y)):
            sum=sum+(np.dot(data_x[k],a)-data_y[k])*data_x[k][j]
        result.append(a[j]-b/len(data_y)*sum)
    if result==a or ds(result,a)<=0.000001:
        plt.scatter(x,data_y)
        x=np.array(x)
        y=np.dot(data_x,result)
        plt.plot(x,y,'r')
        lable = ['拟合图', '散点图']
        plt.legend(lable)
        plt.show()
    else:
        for m in range(n):
            a[m]=result[m]
        coreFunction(url,a,b,n)
def main():#主函数
    url='D:\Py\machina\data\data_one.csv'
    n=3
    a=list(np.zeros(n))
    b=0.01
    coreFunction(url,a,b,n)

main()

拟合结果如下：

n=3，b=0.01

三、逻辑回归

Logistic回归与多重线性回归实际上有很多相同之处，最大的区别就在于它们的因变量不同，其他的基本都差不多。正是因为如此，这两种回归可以归入一类，即广义线性模型（generalizedlinear model）。

此类回归的模型形式基本上都差不多，跟进因变量的不同可以有如下划分：

1.如果是连续的，就是多重线性回归；

2.如果是二项分布，就是Logistic回归；

3.如果是Poisson分布，就是Poisson回归；

4.如果是负二项分布，就是负二项回归。

Logistic回归的因变量可以是二分类的，也可以是多分类的，但是二分类的更为常用，也更加容易解释。所以实际中最常用的就是二分类的Logistic回归。

一般步骤为：

最后编辑于：2017.12.08 06:01:06

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 214,837评论 6赞 496
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 91,551评论 3赞 389
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 160,417评论 0赞 350
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 57,448评论 1赞 288
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 66,524评论 6赞 386
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 50,554评论 1赞 293
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 39,569评论 3赞 414
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 38,316评论 0赞 270
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 44,766评论 1赞 307
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,077评论 2赞 330
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,240评论 1赞 343
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 34,912评论 5赞 338
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 40,560评论 3赞 322
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,176评论 0赞 21
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,425评论 1赞 268
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 47,114评论 2赞 366
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,114评论 2赞 352