【数据分析理论】-03-回归算法

链接:

https://study.163.com/course/courseMain.htm?courseId=1003590004&share=1&shareId=1383716838

1 线性回归

1.1 概述

在一个区间范围内,确定对应目标值,属于有监督算法(存在标签,有参考指标)

1.2 目标

确定Y值(标签)与现有数据X1,X2,,Xn(特征)的关系

1.3 解决方法

1)添加误差项(偏置参数)将模型进行在标签维上的进行移动;

2)构建模型的矩阵形式

3)预测值:模型构建后对应的标签值;真实值:原本真实标签值;二者之差即为误差项

4)误差是独立(样本之间无影响)并且具有相同的分布(数据尽可能这样),并且服从均值为0方差为θ2的高斯分布(接近于零处占大部分)

5)参数θ和x组合完之后,与真实值越接近越好,即误差接近于零,即服从于高斯分布的误差对应概率越大越好,似然函数越大越好,什么样的参数跟我们的数据组合后恰好是真实值

高斯分布

6)独立同分布的前提:联合概率密度等于边缘概率密度的乘积,所以似然函数是累乘的,取对数得到相加的公式,不会改变极值点

7)最小二乘法:似然函数中的一部分

8)似然函数在各算法中通用

1.4 求解

1)目标函数=1/2(预测值-真实值)^2

2)对目标函数进行参数θ的偏导

1.5 梯度下降(优化)策略

1)除了线性回归问题,其他是求解不出真实答案的,可以看做巧合

2)Loss Function损失函数:模型对数据拟合程度的某种量化

梯度下降目标函数:m是样本数,平方为了扩大区别

3)批量梯度下降:容易得到最优解,但是由于每次考虑所有样本,速度很慢;随机梯度下降:每次找一个样本,迭代速度快,但不一定每次都朝着收敛的方向;小批量梯度下降法(mini-batch):小批量梯度下降法

4)学习率(步长):对结果会产生巨大的影响,一般小一些,0.1/0.01……,从大到小进行调整

2 逻辑回归算法(实质为分类算法)

1)逻辑回归的决策边界:可以是非线性的

2)逻辑回归主要解决二分类问题

3)Sigmoid 函数:将输入压缩到0-1范围内

Sigmoid
函数图像

4)分类任务的整合函数:P(y|x;\theta )=(h_{\theta } (x))^y(1-h_{\theta }(x) )^{1-y}

5)一般会将梯度上升问题转化为梯度上升问题

6)多分类的softmax:归一化

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容