机器学习早期也比较初级,严格来说不是学习,即使到了知识库、专家工程阶段,依然是靠人的总结,输入的机器,有点像信息检索。
统计学的理论发展,促进了机器学习的进步,随着数据规模的增长,计算能力的不断增强,机器学习不断发展壮大,但是不得不佩服,老美在很早就已经把机器学习上升到了国家高度!
作为初学者,有一些名词需要搞懂:
分类:如果模型输出的结果是一些离散值,那么这是一个分类问题,比如西瓜好还是不好
回归:如果模型输出的结果是连续值,那么这是一个分类问题,比如西瓜好的程度是0.966
有监督学习/无监督学习:有没有对数据标注,有则是监督学习,没有则是无监督学习
样本:用于训练的数据,每个样本是一个N维的向量
模型:就是一个数学函数
泛化能力:训练好的模型,对于除样本之外的数据的输出结果越符合实际,泛化能力越强
作为初学者,还需要一些数学基础,大致罗列一些:
导数、向量、矩阵计算、定积分;
条件概率、全概率公式、贝叶斯公式、常见分布的概率密度、分布函数:
二项分布、几何分布、均匀分布、指数分布、泊松分布、正态分布
数学期望、方差、标准差、协方差、样本均值、样本方差(为啥是n-1)、极大似然估计、假设检验
Sigmond函数、最小二乘法、梯度下降
对于模型而言,我们不仅要有模型选择,还要对样本的划分,预测结果的评估:
对于给定的样本D,需要划分训练集和测试集,对于样本空间比较大的情况,直接留出法即可 8/2
预测结果的评估,主要是泛化误差,经常用的是均方误差 1/m(sum(f(xi) - yi)2)
感谢datawhale提供的学习交流平台和资源,学习视频可以参照:https://www.bilibili.com/video/BV1Mh411e7VU