《学习TensorFlow(2)》这节只学习了机器学习基础--多分类。
学习内容包括:1.Softmax多分类公式 2.Loss function 损失函数(似然函数与交叉熵) 3.一个简单的Softmax分类例子 4.手写数字识别Softmax分类例子 5.神经网络手写数字识别Softmax分类例子
1.Softmaxt多分类公式
在Logistic regression二分类问题中,我们可以使用sigmoid函数将输入Wx+b映射到(0,1)区间中,从而得到属于某个类别的概率。将这个问题进行泛化,推广到多分类问题中,我们可以使用softmax函数,对输出的值归一化为概率值。
这里假设在进入softmax函数之前,已经有模型输出C值,其中C是要预测的类别数,模型可以是全连接网络的输出a,其输出个数为C,即输出为a1,a2,...,aC。所以对每个样本,它属于类别i的概率为:
python中,定义的softmax函数:
注意:当输入x值较大时,exp(x)就会溢出。所以很多机器学习算法中都会使用激活函数,将值变回到[-1,1]的区间内。
如果仍要输入较大数值x,可以改写softmax()函数,具体请参考:Softmax函数与交叉熵 文章。
2.Loss function 损失函数
2.1 对数似然函数
机器学习里面,对模型的训练都是对Loss function进行优化,在分类问题中,我们一般使用最大似然估计(Maximum likelihood estimation)来构造损失函数。对于输入的x,其对应的类标签为t,我们的目标是找到这样的θ使得p(t|x)最大。在二分类的问题中,我们有:
其中,y=f(x)是模型预测的概率值,t是样本对应的类标签。将问题泛化为更一般的情况,多分类问题:
由于连乘可能导致最终结果接近0的问题,一般对似然函数取对数的负数,变成最小化对数似然函数。
2.2 交叉熵Cross-Entropy
交叉熵是机器学习(Machine Learning, ML)领域经常会被提到的名词。
2.2.1 什么是信息量?
假设X是一个离散型随机变量,其取值集合为X,概率分布函数为p(x)=Pr(X=x),x∈X,我们定义事件X=x0的信息量为:
具体例子参考:小明和小王考试 (简略版:小明能考试及格的概率为0.1,小王能考试及格的概率为0.999,则对应事件A:小明及格。信息量为I(xA)=−log(0.1)=3.3219 ;对应事件B:小王及格。信息量为I(xB)=−log(0.999)=0.0014) 信息量可以理解为,一个事件发生的概率越大,则它所携带的信息量就越小。
2.2.2 什么是熵?
假设小明的考试结果是一个0-1分布XA只有两个取值{0:不及格,1:及格},在某次考试结果公布前,小明的考试结果有多大的不确定度呢?
怎么来度量这个不确定度?求期望!我们对所有可能结果带来的额外信息量求取均值(期望)。
再假设一个成绩相对普通的学生小东,他及格的概率是P(xC)=0.5,即及格与否的概率是一样的,对应的熵:
小东的不确定性比前边两位同学要高很多,在成绩公布之前,很难准确猜测出他的考试结果。 可以看出,熵其实是信息量的期望值,它是一个随机变量的确定性的度量。熵越大,变量的取值越不确定,反之就越确定。
信息熵公式:
2.2.3 什么是相对熵?
相对熵又称为KL散度(Kullback-Leibler Divergence),用来衡量两个分布之间的距离,记为DKL(p||q)。它度量当真实分布为p时,与假设分布q的差异程度的方法。
2.2.4 什么是交叉熵?
假设有两个分布p和q,它们在给定样本集上的相对熵定义为:
从这里可以看出,交叉熵和相对熵相差了H(p),而当p已知的时候,H(p)是个常数,所以交叉熵和相对熵在这里是等价的,反映了分布p和q之间的相似程度。交叉熵在计算语言学消岐领域,采用语句的真实语义作为交叉熵的训练集的先验信息,将机器翻译的语义作为测试集后验信息。计算两者的交叉熵,并以交叉熵指导对歧义的辨识和消除。实例表明,该方法简洁有效.易于计算机自适应实现。交叉熵不失为计算语言学消岐的一种较为有效的工具。交叉熵可在神经网络(机器学习)中作为损失函数,p表示真实标记的分布,q则为训练后的模型的预测标记分布,交叉熵损失函数可以衡量p与q的相似性。交叉熵作为损失函数还有一个好处是使用sigmoid函数在梯度下降时能避免均方误差损失函数学习速率降低的问题,因为学习速率可以被输出的误差所控制。
3.一个简单的Softmax分类例子
一个简单的softmax多分类例子:
4.一个简单的手写数字识别Softmax分类例子
手写数字识别的图片大小:
一个简单的手写数字识别代码:
5.神经网络手写数字识别Softmax分类例子
一个神经网络模型的手写数字识别例子:
Adam 算法和传统的随机梯度下降不同。随机梯度下降保持单一的学习率(即 alpha)更新所有的权重,学习率在训练过程中并不会改变。而 Adam 通过计算梯度的一阶矩估计和二阶矩估计而为不同的参数设计独立的自适应性学习率。
通过《学习TensorFlow(1)》与《学习TensorFlow(2)》总结:1)如果输出神经元是线性的,那么loss function选择二次代价函数比较合适;如果输出神经元是S型函数(eg:sigmoid函数),那么loss function选择交叉熵函数比较合适。 2)tf.nn.sigmoid_cross_entropy_with_logits()来表示跟sigmoid搭配使用的交叉熵; tf.nn.softmax_cross_entropy_with_logits()来表示跟softmax搭配使用的交叉熵。
参考文章:
【1】香港科技大学TensorFlow三天速成课件