ML_Zhou

1.绪论

1.引言:

学习算法是从数据中提取模型,机器学习是研究“学习算法”的。
一个正式的定义是:用P表示计算机程序对某任务类T的性能,若一个计算机程序使用经验E对任务类T的性能有改善,就可以说,针对于P和T,该程序对E进行了学习。

2.术语:

我自己定义了下面一组数据:
(颜色=黄;口感=甜;硬度=偏软;产地=山东)
(颜色=青;口感=酸;硬度=硬;产地=河北)
(颜色=红;口感=甜;硬度=适中;产地=山东)
以这个数据为例,说明下面这些术语:
1.数据集:上边所有数据组成了数据集,是所有数据。
2.样本/示例:其中的一个记录称为一个样本,例如:(颜色=黄;口感=甜;硬度=偏软;产地=山东)
3.属性/特征:例如,颜色、口感
4.属性值:例如,黄,甜
5.属性空间/样本空间/输入空间:所有属性组成的一个维度空间,(颜色;口感;硬度;产地)
6.特征向量:把属性空间理解为一个多维空间,那每一个示例,可以在这个空间中定位到一个点,那么每一个样本/示例也可成为一个特征向量。
从数据获得模型的过程称为“学习”或者“训练”,训练过程中使用的数据称为训练数据(每条记录称为训练样本)。训练样本组成的集合称为训练集。
我们经常会遇到一些“预测模型”,如果预测的是离散值,例如好苹果,坏苹果,称为分类。如果预测是连续值,例如:0.23,0.35,0.56 则称为“回归”。对于只有2个结果的分类,分别称为正类和负类。
学到模型后,使用它进行预测的过程称为测试。被测试的样本称为测试样本
还有一种,我们需要对样本数据进行分类,这种工作称为聚类。根据训练数据是否有标记分成监督学习(分类、回归)和无监督学习(聚类)。机器学习的目的是学得的目标能更好地适用于新的样本,学习模型适用新样本的能力称为“泛化”能力。

3.假设空间:

归纳:从特殊到一般;演绎:从一般到特殊。从样例中学习,明显是从特殊到一般的过程,也叫归纳学习。可以将学习过程理解为在所有假设组成的假设空间中搜索的过程,目标是找到与训练集匹配的假设。

4.归纳偏好:

NFL定理的寓意是:脱离实际问题,空谈“什么学习算法”更好毫无意义。

2.模型评估选择

1.经验误差和过拟合:

分类错误的样本数占样本总数的比例,叫做错误率,相应地,精度 = 1-错误率。学习器在训练集上误差称为训练误差(经验误差),在新样本上的误差称为泛化误差我们的目标是找到泛化误差小的学习器。
某些学习器对训练样本学习得太好了,以至于将训练样本中的一些特性当成了所有潜在样本都具有的一般特性。这种情况称为过拟合。与之相对的是欠拟合。过拟合是机器学习面临的重要障碍,很多算法都带一些针对过拟合的措施。但是过拟合无法避免只能缓解

http://ocw.sjtu.edu.cn/G2S/OCW/cn/CourseDetails.htm?Id=397

2.评估方法:

一般地,测试样本和训练样本要求是互斥的,不能有重复的样本。在有限样本中如何选择测试和训练样本。有以下方法可以完成:
1.留出法,直接将集合分为互斥的2部分,选择一部分样本作为训练集S,另外的部分作为测试集T。训练/测试集的划分尽可能保持数据分布的一致性。一般,选择样本的2/3 ~ 3/4作为训练,其余作为测试。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 2.模型评估和选择 2-1. 经验误差和过拟合 训练误差/经验误差: 学习器在训练样本的上的实际预测值与样本实际值...
    奉先阅读 741评论 0 0
  • 一、决策树应用体验 分类   从上面可以看出,决策树对分类具有线性回归无可比拟的优势, 如果对未参与训练的数据集是...
    杨强AT南京阅读 1,271评论 1 3
  • 集成学习算法应用比较广泛,只要包含Bagging,Boosting与Stacking三大类方法,这是本文的主要内容...
    杨强AT南京阅读 642评论 0 7
  • 转载自 http://www.52caml.com/head_first_ml/ml-chapter6-boost...
    麒麟楚庄王阅读 2,459评论 1 3
  • 概述断断续续,一个月的时间,把吴老师的机器学习视频教程看完,收获很多,从一无所知到概念的理解、公式的推导、算法的探...
    AnuoF阅读 674评论 0 0