闫阿佳 - 简书

IP属地：北京

特征选择的方法
特征选择的好处便于理解和可视化数据，降低计算及存储压力，对抗维数灾难提高准确率，增加模型泛化能力；总结一三大主流方法：过滤式，包裹式，嵌入...

9974 0 1
损失函数
聊聊机器学习中的损失函数机器学习中的损失函数平方损失（线性回归）对数损失（交叉熵损失 softmax, logstic）最大熵原理(引出...

3114 0 0

决策树处理连续值，缺失值
简书：决策树会有哪些特性？知乎：决策树是如何处理不完整数据的？ 1. 连续值如何划分？ C4.5：Information Gain （Ratio...

12677 0 2
如何解决类别不平衡问题？
如何解决类别不平衡问题？对大类欠采样，或者对小类过采样；设置不同的学习率，大类权值小，小类权值大；使用一些对样本分布不敏感的评价指标，F1...

5468 0 0
方差和偏差
博客：http://liuchengxu.org/blog-cn/posts/bias-variance/ 误差一般包含偏差，方差和噪声偏差：...

2833 0 0
过拟合原因和方法
过拟合的原因数据方面，比如数据不规范，数据量少，还有可能是数据穿越（统计特征用到了未来的信息或者标签信息）；算法方面，模型过于复杂；防止过...

0.1 5534 0 2
极大似然估计&最小二乘
最大似然估计似然函数：这个函数反应的是在不同的参数θ取值下，取得当前这个样本集的可能性，因此称为参数θ相对于样本集X的似然函数。最大似然估计...

3297 0 0

LR模型的特征归一化和离散化
知乎问题：https://www.zhihu.com/question/31989952 为什么LR需要归一化或者取对数？归一化:可以提高收敛...

0.4 11885 0 5
L1和L2正则直观理解
博客：http://blog.csdn.net/zouxy09/article/details/24971995博客：http://blog.c...

2454 0 0