语音合成学习(四)学习笔记
说的人工智能必然要了解机器学习,从信息化软件到电子商务然后到高速发展的互联网时代,到至今的云计算,大数据等,渗透到我们的生活,工作之中,在互联网的驱动下,人们更清晰的认识和使用数据,不仅仅是数据统计,分析,还强调挖掘,预测。
一. 什么是机器学习?
1. 机器学习概念
机器学习就是对计算机一部分数据进行学习,然后对另外一些数据进行预测与判断。
1.1 机器学习分类
算法构成机器学习的整个结构及其增长的基础。这些算法可以分为四大类:
- 受监督学习
监督学习就是训练机器学习的模型的训练样本数据有对应的目标值,监督学习就是通过对数据样本因子和已知的结果建立联系,提取特征值和映射关系,通过已知的结果,已知数据样本不断的学习和训练,对新的数据进行结果的预测。
监督学习通常用在分类和回归。比如手机识别垃圾短信,电子邮箱识别垃圾邮件,都是通过对一些历史短信、历史邮件做垃圾分类的标记,对这些带有标记的数据进行模型训练,然后获取到新的短信或是新的邮件时,进行模型匹配,来识别此邮件是或是不是,这就是监督学习下分类的预测。
监督学习难点是获取具有目标值的样本数据成本较高,成本高的原因在于这些训练集的要依赖人工标注工作。
- 无监督学习
无监督学习跟监督学习的区别就是选取的样本数据无需有目标值,我们无需分析这些数据对某些结果的影响,只是分析这些数据内在的规律。
如果训练信息没有以任何方式标记或分类,这些与受监督的算法形成对比并发挥作用。无监督学习不能为新数据提供 “正确” 的输出。相反,这些算法会探索数据,从数据集中形成推论,并揭示可能存在于未标记数据中的任何隐藏结构。
无监督学习也适用于降维,无监督学习比监督学习好处是数据不需要人工打标记,数据获取成本低。
- 半监督学习
半监督学习是监督学习和无监督学习相互结合的一种学习方法,通过半监督学习的方法可以实现分类、回归、聚类的结合使用。因为使用标记和未标记的数据进行训练。通常,未标记的数据量大于标记的数据量,并且算法使用标记的数据来了解未标记的数据。系统在此基础上不断提高学习的准确性。
半监督分类:是在无类标签的样例的帮助下训练有类标签的样本,获得比只用有类标签的样本训练得到更优的分类;
半监督回归:在无输出的输入的帮助下训练有输出的输入,获得比只用有输出的输入训练得到的回归器性能更好的回归;
半监督聚类:在有类标签的样本的信息帮助下获得比只用无类标签的样例得到的结果更好的簇,提高聚类方法的精度;
半监督降维:在有类标签的样本的信息帮助下找到高维输入数据的低维结构,同时保持原始高维数据和成对约束的结构不变。半监督学习是最近比较流行的方法。
**强化学习 **
强化学习是一种比较复杂的机器学习方法,强调系统与外界不断的交互反馈,它主要是针对流程中不断需要推理的场景,比如无人汽车驾驶,它更多关注性能。它是机器学习中的热点学习方法。
这是一种通过与环境的互动产生操作并发现错误和进行奖励的学习方法。通过这种方法,计算机和所有软件代理都能够在特定上下文中确定适当的行为,以获得最佳性能。
二.机器学习的应用
2.1 分类和回归
监督学习最常见的两类应用就是分类(classification)和回归(regression)。分类和回归的区别在 于输出变量的类型上。
定量输出称为回归,或者说是**连续**变量预测;
定性输出称为分类,或者说是**离散**变量预测。
线性回归 —— 连续分布的值(汽车速度,房子高度,房子价格等等)。输入变量与输出变量均为连续变量的预测问题是回归问题;回归最终输出的一般都是一个值。
分类问题 —— 输出变量为有限个离散变量的预测问题成为分类问题;分类最终输出的一般都是一组一组数据,大多为概率。比如有猫狗两个分类,最终输出的可能为0/1, 0.2/0.88, 代表着预测为猫的概率与预测为狗的概率。
回归不判定类别,而是预测数值。针对对以后数据的学习,得到一个模型,可对新输入的数据进行· 值的预测。比如天气预测、股票预测等等。
数据集(训练实例)如何确定参数:将模型与数据点之间的距离差之和作为衡量匹配好坏的标准,误差越小,匹配程度越大。
我想要找到的模型,最后想要使f(x)最大程度的与y相似,所以尽量减少f(x)与y之间差值
回归算法:
常见的回归算法按照因变量的不同可分为:多重线性回归,逻辑回归,泊松回归,负二项回归等。
评估方法
因为回归算法通常得到的结果是一个实数值,所以不是简单的对或者错,我们通常使用期望值来判断其性能的好坏。
常用术语
期望,方差,评价误差等统计学概念。
评价指标
方差(variance):描述预测值P的变化范围、离散程度,是预测值的方差,也就是离期望值E的距离;方差越大,数据的分布也就越分散。这是最简单的评价预测值和期望值之间距离的方法。
MAE(absolute error loss) :绝对误差损失的期望值。
MSE(mean squared Error):均方误差,描述的真实值减去预测值,然后平方之后求和平均
RMSE(ROOT mean squarederror):均方根误差,均方差开根号,实质上还是一样的。
交叉熵损失(cross-entropy loss):用来检验实际发生概率和预测准确率信息量的乘积
简单来说,当参数大于0时,则函数值趋近于1,而当参数值小于0时,函数值趋近于0.因此逻辑回归的Hypothesis可以解释为样本x属于正类别的概率。当θ.Tx>0后,概率趋近于1,反之则趋近于0。由此得到Cost function如下:
分类算法:
分类问题的关键在于分类模型经过训练之后能否对新的输入样本进行类别预测。且分类算法的输出是有限个离散值。
常用算法
评估方法
不同的算法有不同的评价方法,正确而全面的评价方法能够很好的反应算法的性能,评价一个分类器算法的好坏又包括许多项指标,首先介绍一些基础概念。
常用术语
在分类的过程中,通常假设我们的分类目标只有两类,计为正例(positive)和负例(negative)分别是:
True positives(TP): 被正确地划分为正例的个数,即实际为正例且被分类器划分为正例的实例数;
False positives(FP): 被错误地划分为正例的个数,即实际为负例但被分类器划分为正例的实例数;
False negatives(FN):被错误地划分为负例的个数,即实际为正例但被分类器划分为负例的实例数;
True negatives(TN): 被正确地划分为负例的个数,即实际为负例且被分类器划分为负例的实例数。
其中:
1)P=TP+FN表示实际为正例的样本个数。
2)True、False描述的是分类器是否判断正确。
3)Positive、Negative是分类器的分类结果,如果正例计为1、负例计为-1,即positive=1、negative=-1。用1表示True,-1表示False,那么实际的类标=TFPN,TF为true或false,PN为positive或negative。
4)例如True positives(TP)的实际类标=11=1为正例,False positives(FP)的实际类标=(-1)1=-1为负例,False negatives(FN)的实际类标=(-1)(-1)=1为正例,True negatives(TN)的实际类标=1*(-1)=-1为负例。
评价指标
正确率(accuracy)
正确率是分类算法中最常见的评价指标,accuracy = (TP+TN)/(P+N),正确率是被分对的样本数在所有样本数中的占比,通常来说,正确率越高,分类器越好。
错误率(error rate)
错误率则与正确率相反,描述被分类器错分的比例,error rate = (FP+FN)/(P+N),正确率 =1 - 错误率。
灵敏度(sensitivity)
sensitivity = TP/P,表示的是所有正例中被分对的比例,衡量了分类器对正例的识别能力。
特异性(specificity)
specificity = TN/N,表示的是所有负例中被分对的比例,衡量了分类器对负例的识别能力。
精度(precision)
precision=TP/(TP+FP),精度是精确性的度量,表示被分为正例的示例中实际为正例的比例。
召回率(recall)
召回率衡量正例被正确划分的比例,recall=TP/(TP+FN)=TP/P。与灵敏度是一样的。
精度和召回率反映了分类器分类性能的两个方面。如果综合考虑查准率与查全率,可以得到新的评价指标F1-score,也称为综合分类率。
对于分类算法还有其他的评价指标,如运行速度,鲁棒性,扩展性等。这些也是衡量算法性能的一部分。
以上主要是对机器学习有关的基础知识简单介绍。