机器学习常见问题

1.损失函数

机器学习中损失函数:
线性回归使用的就是最小平方和损失函数、Logistic回归使用的交叉熵损失函数....
深度学习中一般情况下:
回归的应用:最小平方和损失函数,分类的应用:交叉熵损失函数

1.扩展的其它的线性回归算法

多项式线性回归、Lasso、Ridge、Elastic Net

多项式线性回归
因为在线性回归中,是假定特征属性x和目标属性y之间存在的映射关系是线性关系,但是在实际的业务数据上,x和y之间的关系有可能不是属于线性关系的,所以直接使用线性回归来做模型效果就不太好。解决方案:多项式线性回归。
可以考虑先将低维空间上的数据映射到高维空间中,让样本数据变的更加的离散,从而让数据变成线性数据,然后再使用普通的线性回归算法对扩展之后的数据做一个模型训练(一般常见方式:多项式扩展+线性回归)

  1. 欠拟合
    问题描述:模型没有提取出训练数据集上的数据特性,从而导致训练出来的模型在训练数据集上的效果都不佳。

产生的原因:

模型的学习能力太弱
数据集不适合当前模型
数据集中的样本数目太少
解决方案:

换一种强学习能力的模型
使用集成学习的思想来训练模型
进行数据的特征工程,将数据变化为适合当前模型的形式
增加数据的特征属性或者增加数据的样本量
eg: 如何使用线性模型对非线性的数据做一个训练???

多项式线性回归:可以考虑先将低维空间上的数据映射到高维空间中,让样本数据变的更加的离散,从而让数据变成线性数据,然后再使用普通的线性回归算法对扩展之后的数据做一个模型训练(一般常见方式:多项式扩展+线性回归)

  1. 过拟合
    问题描述:模型从训练数据中学习了太多的训练数据特征信息,有可能将一些噪音的异常数据特征也学到了,从而导致模型在测试数据或者生产数据上效果不佳,但是在训练数据集上效果不错。

产生的原因:

模型的学习能力太强
数据集中的样本数目太少
数据中的噪音异常样本比较多
解决方案

限制模型的学习能力(加入正则化项/加入惩罚项)

L1 norm

在线性回归中,也就是Lasso算法;比较容易导致模型参数稀疏化,比较适合特征选择
L2 norm

在线性回归中,也就是Ridge算法;算法效果比较稳定
更改一下模型超参数,降低一下学习能力

更改模型,使用学习能力弱一点的模型

使用集成算法

增加样本数据量

删除一些无用的特征属性(降低一些噪音特征属性的影响),同时增加一些有效特征属性

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容