1. 线性回归与逻辑回归的区别
1)线性回归要求变量服从正态分布,logistic回归对变量分布没有要求。
2)线性回归要求因变量是连续性数值变量,而logistic回归要求因变量是分类型变量。
3)线性回归要求自变量和因变量呈线性关系,而logistic回归不要求自变量和因变量呈线性关系
4)logistic回归是分析因变量取某个值的概率与自变量的关系,而线性回归是直接分析因变量与自变量的关系
总之,
logistic回归与线性回归实际上有很多相同之处,最大的区别就在于他们的因变量不同,其他的基本都差不多,正是因为如此,这两种回归可以归于同一个家族,即广义线性模型(generalized
linear
model)。这一家族中的模型形式基本上都差不多,不同的就是因变量不同,如果是连续的,就是多重线性回归,如果是二项分布,就是logistic回归。logistic回归的因变量可以是二分类的,也可以是多分类的,但是二分类的更为常用,也更加容易解释。所以实际中最为常用的就是二分类的logistic回归。
1.2 回归和分类
分类就是到底是1类别还是0类别。
回归就是预测的不是一个类别的值,而是一个具体的值,具体借给你多少钱哪?
2. 线性回归
通过上面的公式转换下面的公式。
额度作为标签值,模型泛化能力比较强,误差不要怕。
张三和李四借钱彼此不认识的,独立;绝大多数的人接的钱误差是符合高斯分布的。均值为0
右边第一个公式,均值为0,带入即可。
第二个公式,从第一个公式转换成第二个公式,相当于找出什么样的θ值与x组合后接近Y值得概率值,它是越大的。
怎么办那?
这里有一个似然函数,第三个公式,为什么要累乘到一起,对于所有的样本来说,而不是对于一个样本。
我们希望似然函数越大越好,什么样的θ能够使得似然函数越大。
能不能把乘法转换成加法,好算一些,通过对数似然;
要想使得结果最大,首先想要让减去上式最小。
根据图一找到一个目标函数,使得求最小值J(θ)
对于一个矩阵的平方,相当于矩阵的转置乘以自身。
求导,先把转置打开,得到右边的式子。发现对θ求导yTXθ得到(yTX)T,为什啊?
以上都是线性回归。
3. 逻辑回归(Logistic回归)
想一下,0~1 相当于概率吧,线性回归得到的是一个值吧,我不想得到值,想做一个分类任务,不是0就是1。它是一个最经典的二分类问题,而不是一个多分类问题。
首先,数学表达,θTXz是一个值代入得到,之后的求导方式是类似的。
例子, 关于高尔夫球,判断球与球洞的距离和accuracy的关系。
- 找到θ1 权重,θ0 偏置;
- 除以m 排除样本大小的因素;
-
我们不用梯度下降,
上述不科学的,这只是一维的数据。
-
分别对θ1 ,θ0 求导,之后根据步长进行梯度下降,这个α值不可以很大也不可以很小。
下面代码演示:
分别对θ1 ,θ0 求导。
设置一个参数,如果下降误差很小,说明已经饱和啦,就不去下降啦,and 两种情况下都可以迭代。-= 是一个梯度下降得趋势。
最优化求解问题
-
有时候求导,不一定求出来,怎么不断优化那?不断去一个最好的值去靠近,在最短时间内下降得最快啊。沿着这个坡度,一次又一次的优化去前进。
2.为什梯度下降的哪?因为求导就是这个切线,它是一个上升的方向,求了一个反方向,所以往下走。
参考资料:
线性回归方程推导
逻辑回归与正则化
伯努利分布
逻辑回归的常见面试点总结
logistic回归原理解析及Python应用实例
logistic回归的数学推导
线性回归与逻辑回归
从最大似然再看线性回归