线性模型(linear model )

一、基本概念


针对给定变量集x={x...},线性模型,试图运用一组常量值w={w...},来构造一个函数方程,即:


1.1

写成向量形式为:


1.2

即:
1.3

若,w及b给定后,该函数模型就固定了;

线性模型形式简单,已于建模,但是其蕴涵着机器学习中的一些重要基本思想,许多非线性结构引入到或映射到高维,可以转换为线性模型处理。而且,其对于不同变量的影响,可以直观的看出;

二、线性回归(linear regession)

a、公式推导(最小二乘法):

令:(其中n=d,m=n,X11、XM1均为1)



化简即得:


此公式来源百度百科

但是,现实生活中



往往不是满秩矩阵,这个便引入了正则化项(regularization)

b、一个实例(Sample)

对于线性回归,使用最小二乘法的一个实例:
先给定一组数据,为某产品x与y之间的对应关系;


x/y

建立一元n次模型:
程序如下:

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import csv
from numpy import matrix

plt.rcParams['font.sans-serif'] = ['SimHei']  # 指定默认字体
plt.rcParams['axes.unicode_minus'] = False  # 解决保存图像是负号'-'显示为方块的问题

def data_get(link, n):
    file = pd.read_csv(link, dtype=float)
    X = []
    for i in range(n + 1):
        lists = []
        for j in range(len(file['x'])):
            lists.append(pow(file['x'][j], i))
        X.append(lists)
    X_ = matrix(X)
    Y_ = matrix(file['y'])
    X = matrix.getT(X_)
    Y = matrix.getT(Y_)
    s = matrix.getI(X_ * X) * X_ * Y
    plt.scatter(file['x'],file['y'],s=20,c='r')
    plt.plot(file['x'],X*s)
    plt.xlabel('n='+str(n))
    lable=['拟合图','散点图']
    plt.legend(lable)
    plt.show()

link = 'D:\Py\machina\data\data_one.csv'
n = 3
data_get(link, n)

拟合结果如下:
①、n=1:


n=1,欠拟合

②、n=2 和n=3:拟合较好


n-2

n=3

③、n=6:过度拟合


n=6,过度拟合
c、梯度下降法

原理如下:

Gradient descent

给定一组初始a=0,0,0,...
下降系数为b
给定不同(a,b),可以得到不同的拟合速度;同时,当b给定过大时,可能会超过最优点,b太小时,会导致下降速度过慢;

c-1、数据预处理:

1、Feature scaling,数据正则化
不同的特征量由于单位不同,可能在数值上相差较大,Feature Scaling可以<b>去量纲</b>,减少梯度下降法的迭代次数,提高速度,所以在算法执行前通常需要Feature Scaling。直观上来说,考虑两个特征量,规范化前的椭圆很瘪,可能导致收敛的路径变长,数据规范化后使得椭圆较均匀,缩短收敛路径,如下:

Feature scaling

2、Features and polynomial regression,合并特征量
比如,房子受面积影响较大,那么面积又有深度、长度、宽度等决定,则可以将3者统一为一个变量;

c-2、代码如下:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from numpy import matrix
import sys

sys.setrecursionlimit(200000)  # set the maximum depth as 200000
plt.rcParams['font.sans-serif'] = ['SimHei']  # 指定默认字体
plt.rcParams['axes.unicode_minus'] = False  # 解决保存图像是负号'-'显示为方块的问题

def data_get(url,n):#数据获取及处理
    data = pd.read_csv(url, dtype=float)
    mean_x = np.mean(data['x'])
    #mean_y = np.mean(data['y'])
    segma_x = np.std(data['x'])
    #segma_y = np.std(data['y'])
    x = list(map(lambda x:(x-mean_x)/segma_x,data['x']))
    #data_y = list(map(lambda y: (y - mean_y) / segma_y, data['y']))
    data_x=[]
    for i in range(len(data['x'])):
        #data_x.append(list(map(lambda y: pow(data['x'][i], y), range(n))))
         data_x.append(list(map(lambda y:pow(x[i],y),range(n))))   #Feature scaling
    return x,data_x,data['y']
def ds(a,b):
    sum=0
    for l in range(len(a)):
        sum=pow(a[l]-b[l],2)+sum
    return pow(sum,0.5)

def coreFunction(url,a,b,n): #关键函数:a,b的赋值及求取
    x,data_x,data_y=data_get(url,n)
    result=[]
    for j in range(len(a)):
        sum=0
        for k in range(len(data_y)):
            sum=sum+(np.dot(data_x[k],a)-data_y[k])*data_x[k][j]
        result.append(a[j]-b/len(data_y)*sum)
    if result==a or ds(result,a)<=0.000001:
        plt.scatter(x,data_y)
        x=np.array(x)
        y=np.dot(data_x,result)
        plt.plot(x,y,'r')
        lable = ['拟合图', '散点图']
        plt.legend(lable)
        plt.show()
    else:
        for m in range(n):
            a[m]=result[m]
        coreFunction(url,a,b,n)
def main():#主函数
    url='D:\Py\machina\data\data_one.csv'
    n=3
    a=list(np.zeros(n))
    b=0.01
    coreFunction(url,a,b,n)

main()

拟合结果如下:

n=3,b=0.01

三、逻辑回归

Logistic回归与多重线性回归实际上有很多相同之处,最大的区别就在于它们的因变量不同,其他的基本都差不多。正是因为如此,这两种回归可以归入一类,即广义线性模型(generalizedlinear model)。

此类回归的模型形式基本上都差不多,跟进因变量的不同可以有如下划分:

1.如果是连续的,就是多重线性回归;

2.如果是二项分布,就是Logistic回归;

3.如果是Poisson分布,就是Poisson回归;

4.如果是负二项分布,就是负二项回归。

Logistic回归的因变量可以是二分类的,也可以是多分类的,但是二分类的更为常用,也更加容易解释。所以实际中最常用的就是二分类的Logistic回归。

一般步骤为:

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,837评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,551评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,417评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,448评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,524评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,554评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,569评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,316评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,766评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,077评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,240评论 1 343
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,912评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,560评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,176评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,425评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,114评论 2 366
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,114评论 2 352

推荐阅读更多精彩内容