目的:寻找一个非线性函数Sigmoid的最佳拟合参数,求解过程由最优化算法来完成。
优点:计算代价不高,易于理解和实现
缺点:容易欠拟合,分类精度可能不高
适用数据类型:数值型和标称型数据
Sigmoid函数,σ(z) =1 / (1+e^-z)
z = w0*x0+w1*x1+···+wn*xn
梯度上升:要找到函数的最大值,需要沿着该函数的梯度方向探寻
损失函数对应梯度下降,原理上是同样的
在特征数十分巨大的情形下,使用随机梯度下降,它还是一个在线学习算法,能够在新样本到来时对分类器做增量式更新
随机梯度下降的优化:
1.使用变化的步长,随迭代次数不断减小(添加常数项使得不会减小到0)
2.随机选取样本
数据缺省值的补全:
1.使用可用特征的均值
2. 使用特殊值,如0,1,-1
3.使用相似样本的均值
4.使用另外的机器学习算法预测缺失值
y = 1/(1+e^(-(wTx+b)))
回归与分类的互相转化
单位阶跃函数 与 对数几率函数
虽然名称是回归,但实际却是一种分类学习方法
求解 w和b:
将y视为一类后验概率估计p(y=1|x) 则 ln (p(y=1|x)/p(y=0|x)) = wTx+b
p(y=1|x) = e^(wTx+b)/(1+e^(wTx+b))
p(y=0|x) = 1/(1+e^(wTx+b))
采用“极大似然法”来估计 w和b:
l(w,b) = Σlnp(yi|xi;w.b),即令每个样本属于某真实标记的概率越大越好
具体推导见西瓜书P59,可使用梯度下降,牛顿法等数值优化算法