一、基本概念
针对给定变量集x={x...},线性模型,试图运用一组常量值w={w...},来构造一个函数方程,即:
写成向量形式为:
即:
若,w及b给定后,该函数模型就固定了;
线性模型形式简单,已于建模,但是其蕴涵着机器学习中的一些重要基本思想,许多非线性结构引入到或映射到高维,可以转换为线性模型处理。而且,其对于不同变量的影响,可以直观的看出;
二、线性回归(linear regession)
a、公式推导(最小二乘法):
令:(其中n=d,m=n,X11、XM1均为1)
化简即得:
但是,现实生活中
往往不是满秩矩阵,这个便引入了正则化项(regularization)
b、一个实例(Sample)
对于线性回归,使用最小二乘法的一个实例:
先给定一组数据,为某产品x与y之间的对应关系;
建立一元n次模型:
程序如下:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import csv
from numpy import matrix
plt.rcParams['font.sans-serif'] = ['SimHei'] # 指定默认字体
plt.rcParams['axes.unicode_minus'] = False # 解决保存图像是负号'-'显示为方块的问题
def data_get(link, n):
file = pd.read_csv(link, dtype=float)
X = []
for i in range(n + 1):
lists = []
for j in range(len(file['x'])):
lists.append(pow(file['x'][j], i))
X.append(lists)
X_ = matrix(X)
Y_ = matrix(file['y'])
X = matrix.getT(X_)
Y = matrix.getT(Y_)
s = matrix.getI(X_ * X) * X_ * Y
plt.scatter(file['x'],file['y'],s=20,c='r')
plt.plot(file['x'],X*s)
plt.xlabel('n='+str(n))
lable=['拟合图','散点图']
plt.legend(lable)
plt.show()
link = 'D:\Py\machina\data\data_one.csv'
n = 3
data_get(link, n)
拟合结果如下:
①、n=1:
②、n=2 和n=3:拟合较好
③、n=6:过度拟合
c、梯度下降法
原理如下:
给定一组初始a=0,0,0,...
下降系数为b
给定不同(a,b),可以得到不同的拟合速度;同时,当b给定过大时,可能会超过最优点,b太小时,会导致下降速度过慢;
c-1、数据预处理:
1、Feature scaling,数据正则化
不同的特征量由于单位不同,可能在数值上相差较大,Feature Scaling可以<b>去量纲</b>,减少梯度下降法的迭代次数,提高速度,所以在算法执行前通常需要Feature Scaling。直观上来说,考虑两个特征量,规范化前的椭圆很瘪,可能导致收敛的路径变长,数据规范化后使得椭圆较均匀,缩短收敛路径,如下:
2、Features and polynomial regression,合并特征量
比如,房子受面积影响较大,那么面积又有深度、长度、宽度等决定,则可以将3者统一为一个变量;
c-2、代码如下:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from numpy import matrix
import sys
sys.setrecursionlimit(200000) # set the maximum depth as 200000
plt.rcParams['font.sans-serif'] = ['SimHei'] # 指定默认字体
plt.rcParams['axes.unicode_minus'] = False # 解决保存图像是负号'-'显示为方块的问题
def data_get(url,n):#数据获取及处理
data = pd.read_csv(url, dtype=float)
mean_x = np.mean(data['x'])
#mean_y = np.mean(data['y'])
segma_x = np.std(data['x'])
#segma_y = np.std(data['y'])
x = list(map(lambda x:(x-mean_x)/segma_x,data['x']))
#data_y = list(map(lambda y: (y - mean_y) / segma_y, data['y']))
data_x=[]
for i in range(len(data['x'])):
#data_x.append(list(map(lambda y: pow(data['x'][i], y), range(n))))
data_x.append(list(map(lambda y:pow(x[i],y),range(n)))) #Feature scaling
return x,data_x,data['y']
def ds(a,b):
sum=0
for l in range(len(a)):
sum=pow(a[l]-b[l],2)+sum
return pow(sum,0.5)
def coreFunction(url,a,b,n): #关键函数:a,b的赋值及求取
x,data_x,data_y=data_get(url,n)
result=[]
for j in range(len(a)):
sum=0
for k in range(len(data_y)):
sum=sum+(np.dot(data_x[k],a)-data_y[k])*data_x[k][j]
result.append(a[j]-b/len(data_y)*sum)
if result==a or ds(result,a)<=0.000001:
plt.scatter(x,data_y)
x=np.array(x)
y=np.dot(data_x,result)
plt.plot(x,y,'r')
lable = ['拟合图', '散点图']
plt.legend(lable)
plt.show()
else:
for m in range(n):
a[m]=result[m]
coreFunction(url,a,b,n)
def main():#主函数
url='D:\Py\machina\data\data_one.csv'
n=3
a=list(np.zeros(n))
b=0.01
coreFunction(url,a,b,n)
main()
拟合结果如下:
三、逻辑回归
Logistic回归与多重线性回归实际上有很多相同之处,最大的区别就在于它们的因变量不同,其他的基本都差不多。正是因为如此,这两种回归可以归入一类,即广义线性模型(generalizedlinear model)。
此类回归的模型形式基本上都差不多,跟进因变量的不同可以有如下划分:
1.如果是连续的,就是多重线性回归;
2.如果是二项分布,就是Logistic回归;
3.如果是Poisson分布,就是Poisson回归;
4.如果是负二项分布,就是负二项回归。
Logistic回归的因变量可以是二分类的,也可以是多分类的,但是二分类的更为常用,也更加容易解释。所以实际中最常用的就是二分类的Logistic回归。
一般步骤为: