机器学习定义
广义:从数据中学习模型
工程:T,E,P
为什么要使用机器学习
有哪几类问题是传统编程解决不了的
很多规则,比如垃圾邮件分类;
无法用传统编程解决,比如语音识别,图像识别;
适应新数据;
数据挖掘,复杂问题和海量数据中适应新数据;
机器学习的分类
不同维度分法:
《1》数据有没有标签
监督
分类:预测离散值,
算法:K-Means
比如:癌症患者识别、垃圾邮件的识别
回归:预测连续值,
算法:线性回归,逻辑回归,深度学习
比如:房价的预测、二手车价格的预测、CTR预测
注意:有些回归比如逻辑回归也可多用于分类,主要是可以预测概率
无监督
聚类
算法:K-Means
半监督
Google相册
强化学习
AlphaGo
机器学习的主要挑战
数据集少
数据不具有代表性:采样问题;
数据质量差:错误,异常值,噪声,缺失值
比如:有些实例明显是异常值,要么直接丢弃,要么手动修改;搜索中的spammer数据,可以丢弃掉;
比如:某些实例少部分特征;整体忽略这个特征,忽略缺失的实例,将缺失值补充完整,比如用中位数,均值填充;
无关特征:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。
特征工程(后面单独扩展):特征构造(四则运算),特征选择,特征生成
只有训练数据里包含足够多的相关特征,以及较少的无关特征,系统才能学好。
一个成功的机器学习项目,关键部分是提取出一组好的用来训练的特征集,即特征工程。
过度拟合:模型过于复杂,特征较多;可以尝试简化模型
拟合不足:模型过于简单,没有学到;增加数据集,增加特征
测试与验证
常用的概念:
数据集(data sets)
样本(sample)
属性/特征(attribute/feature)
标签(label)
训练集(training sets)
测试集(test sets)
验证集()
交叉验证
超参数
特征工程
特征提取