吃瓜教程 - 概览西瓜书+南瓜书第1、2章总结笔记

第1章 绪论

    总的来说,西瓜书第1章介绍了机器学习的概念、基本术语、发展历史及当前应用情况。在本章中,作者用挑选西瓜的例子,说明了机器学习中的数据集(训练集、测试集)、样本、属性/特征、算法、泛化等等基本概念。

    值得一提的是,对于“算法只对某个或某类问题有效”这个“常识”,作者给出了推导过程,即NFL(No Free Lunch Theorem)定理,这是比较有特点的地方。

    接着就是介绍人工智能的发展历程,20世纪50年代到70年代的推理期(“逻辑理论家”程序、"通用问题求解"程序等)和知识期(大量专家系统),20世纪80年代的符号主义学习(决策树和基于逻辑的学习),20世纪90年代中期之前的基于神经网络的连接主义学习,20世纪90年代中期的统计学习(支持向量机等),21世纪初连接主义学习的重新崛起,这个发展过程是科学家们对人工智能实现的不断探索和尝试。21世纪以来,数据爆发增长,计算能力变得空前强大,为基于神经网络的学习创造了条件,发展出了深度学习。

    事实上,机器学习的应用早已在某些领域发挥重要作用,只是近年来收集、存储、传输、处理数据的能力飞速提升,使机器学习的作用在更多领域得到体现,变得与日常生活息息相关,如互联网搜索引擎、天气预报、环境监测、自动驾驶等,所以更多的人关注并意识到机器学习正在越来越大放光彩。

    对应到南瓜书的第1章,在本章中作者给出了NFL定理推导的更详细的步骤和说明。

第2章 模型评估与选择

       在本章中,作者介绍了机器学习中模型的评估方法和指标,以及一些基本概念,如错误率、精度、训练误差、泛化误差等。评估一个模型的好坏是很难的,评估标准的选择、训练样本和测试样本的选取、模型的参数调节、学习算法的选用以及训练中出现的如过拟合欠拟合等问题的解决等等都没有标准答案,要去不断尝试、调整。更有甚者,就算一个模型在训练集测试集的表现不错,也不能百分百肯定模型在新样本的预测上就能表现很好。所以准确来说,作者只是介绍了一些可能行之有效的方法,让大家在利用机器学习解决问题的时候可能效率高一些。

    在评估方法上,作者提到我们通常可通过实验测试来对学习器的泛化误差进行评估,但是在现实任务中往往还会考虑时间开销、存储开销、可解释性等方面的因素。这里我的理解是首先时间开销、存储开销等因素不满足的话,在工程上其实是失败的,因为无法落地再好的方案也没有实际价值。另外关于可解释性方面,现实的例子比如银行贷款业务需要做风险评估,对可解释性就有很高的要求,因为评估模型给用户打分甚至导致拒绝贷款请求,用户可以向监管部门反映,银行需要向监管部门解释,如果模型是个黑盒子就达不到要求,所以在这些业务上往往选用可解释性强的逻辑回归,这也充分说明了在不同的具体业务场景下,机器学习需要考虑不同的评估方法和指标以及选用不同的实现方案。

    在样本集中划分出训练集和测试集,以便对算法模型的训练和效果测试评估上,为了保证训练集和测试集尽可能保留样本总集的特点,作者介绍了留出法、交叉验证法和自助法来划分训练集和测试集。对于衡量模型泛化能力的评价标准,即性能度量,在回归任务上,作者介绍了均方误差,在分类任务上,作者介绍了错误率与精度,查准率、查全率、F1(调和平均)和F\beta (加权调和平均)、ROC和AUC、代价敏感错误率与代价曲线等性能度量。特别的,作者使用二分类问题来对这些性能度量做了说明,如P-R曲线与平衡点、F1度量的计算、ROC曲线的绘制和AUC面积的计算、代价敏感错误率的计算、代价曲线与总体期望代价的计算等。

    由于实际上泛化性能的比较结果未必与测试集的性能比较结果相同,而且测试集的选取以及算法的随机性都会导致结果未必稳定,所以作者介绍了学习器性能比较的假设检验、交叉验证t检验、Friedman检验和Nemenyi后续检验等比较方法。而在学习算法泛化性能解释工具上,则介绍了偏差-方差分解。

    对应到南瓜书的第2章,作者对AUC估算公式、排序损失\iota rank\varepsilon \leq \varepsilon 0下1-\alpha 的概率内所能观测到的最大错误率计算公式、学习算法的期望泛化误差进行分解等的推导、解析做了说明补充。


    总而言之,利用机器学习解决问题,其中的每个组成部分其实没有完美的答案,也没有所谓的银子弹,我们只能使用一些可能行之有效的方法,不断训练数据、不断调整各个部分,得到模型,然后去不断逼近实际问题的解。但毫无疑问,机器学习正在很多领域蓬勃发展,不断展示它的潜力,确确实实的在很多领域里体现了它日趋重要的价值。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容