特征选择的好处 便于理解和可视化数据,降低计算及存储压力,对抗维数灾难提高准确率,增加模型泛化能力; 总结一 三大主流方法:过滤式,包裹式,嵌入...
聊聊机器学习中的损失函数 机器学习中的损失函数 平方损失(线性回归) 对数损失(交叉熵损失 softmax, logstic) 最大熵原理(引出...
简书:决策树会有哪些特性?知乎:决策树是如何处理不完整数据的? 1. 连续值如何划分? C4.5:Information Gain (Ratio...
如何解决类别不平衡问题? 对大类欠采样,或者对小类过采样; 设置不同的学习率,大类权值小,小类权值大; 使用一些对样本分布不敏感的评价指标,F1...
博客:http://liuchengxu.org/blog-cn/posts/bias-variance/ 误差一般包含偏差,方差和噪声 偏差:...
过拟合的原因 数据方面,比如数据不规范,数据量少,还有可能是数据穿越(统计特征用到了未来的信息或者标签信息); 算法方面,模型过于复杂; 防止过...
最大似然估计 似然函数:这个函数反应的是在不同的参数θ取值下,取得当前这个样本集的可能性,因此称为参数θ相对于样本集X的似然函数。 最大似然估计...
知乎问题:https://www.zhihu.com/question/31989952 为什么LR需要归一化或者取对数? 归一化:可以提高收敛...
博客:http://blog.csdn.net/zouxy09/article/details/24971995博客:http://blog.c...