前前言
也是用pages记录的,粘贴后排版也很不尽如人意。
沦为记录。
大概都只是梳理一遍所有的概念。
7.14 大概看到了 2.4
前言
(写于“前前言”之前)
旁听了自己学校暑校的深度学习的课,一门用六天时间速成的课,基本边听课边记了笔记(但里面很大一部分是没有推导过程的公式和没有弄懂的公式理论,毕竟速成课),边通读了一下《深度学习》的中文版,因为没有完全理解和清晰的内容实在太多,再加上对于老师的chinglish略头疼,现在只不过是和这个领域的好些概念混了个眼熟,并掌握了一些最最基础的专业知识。
打算等高年级重新读,那时候再写《深度学习》的学习笔记。粗浅地读完《深度学习》,继续拾起以前只读了个开篇的《机器学习》,你可以把它看做是前者的低配版,因为到目前为止,阅读和公式理解基本还没有出现障碍。
会随着阅读进度陆续更新。主要阅读受众是——自己。写作主要目的——监督自己认真读完。
《机器学习》 周志华
第1章 绪论
第2章 模型评估与选择
第3章 线性模型
第4章 决策树
第5章 神经网络
第6章 支持向量机
第7章 贝叶斯分类器
第8章 集成学习
第9章 聚类
第1章
数据集
示例(instance)/样本(sample)
标记(label)
学习任务分类:分类(输出离散值)与回归(输出连续值)
簇(cluster)
学习任务分类:监督学习和无监督学习
泛化(generalization)能力
假设空间
归纳偏好(简写为“偏好”)
奥卡姆剃刀(Occam’s razor)
没有免费的午餐定理(No Free Lunch Theorem) (NFL ) 前提:所有问题同等重要
第2章
错误率 精度(1-错误率)
训练误差或经验误差(在训练集上的误差)
泛化误差(在新样本上的误差)
欠拟合
过拟合 (只能缓解)
Q:包含m个样例的数据集,既要训练,又要测试,如何做到?
1.留出法(hold-out) :直接将数据集D划分为两个互斥的集合
2.交叉验证法:划分为k个子集,每次从中取k-1个子集作为训练集,剩下的那个作为测试集,重复p次 “p次k折交叉验证”
3.自助法:有放回地产生数据集D’:每次随机从D中挑选一个样本,将其拷贝放入D’,然后再将样本放回初始数据集D中,使得这个样本在下次采集是时还是有可能被采集到。重复m次。将D’作为训练集,D\D’作为测试集。
误差与“包外估计”:见书P27
适用情景:数据集较小,难以有效划分训练/测试集时很有用
调参
验证集
性能度量 包括: 错误率,精度
均方误差
查准率 查全率
P-R曲线 平衡点:考察学习器的优劣
F1度量:F1=公式……
Q:在n个二分类混淆矩阵上怎么考察查准率和查全率?
法一:每个上分别计算,再取平均值,得到“宏查准率”,“宏~”、“宏~”
法二:先将混淆矩阵的对应元素进行平均,再基于平均值得到“微~”、“微~”、“微~”
(具体公式定义见书P32)
分类阈值 正类 反类 截断点
ROC曲线:横轴是“真 正例率” TPR,纵轴是“假 正例率”FPR 现实中给出有限点时的绘制!
AUC(area under ROC curve):ROC曲线下的面积,用于比较学习器的优劣
排序损失 l rank=1-AUC
非均等代价
代价矩阵
希望最小化“总体代价” 代价敏感错误率
代价曲线 绘制! 得到期望总体代价