解决的主要问题是过拟合(Over fitting),用于模型调参和模型选择,确定测试集用于验证的模型。 决不能使用测试集(X_test)来进行参...
一、数据清洗 在讨论具体的方法前,想讨论一个大前提,数据的预处理是否是测试集和训练集一起进行?答案是不要。 简单而言,就是不应当把测试的信息引入...
温故而知新,可以为师也。 至于为什么要加入深度学习的对比,是想通过前沿算法的对比,体现出LR的优势与特点,以及深度学习可以期待的用途。 一、逻辑...
一、基本方法论 近似特征的差:适用于聚类、异常值检测等。电商领域常用的两个几乎相等的特征原始订单价和净订单价,相关系数0.9,对大多数用户而言,...
一、过拟合 模型复杂度太高的表现,模型的泛化能力十分重要,交叉验证是识别过拟合的好方法。 1、主要原因 数据有噪声,无法避免,会影响训练集的数据...
想起一位招聘的猎头说过,数据人员一年几十万,有时公司是会觉得没什么用,特别是非核心业务线。这几年自己有一些体会,分享一下,欢迎探讨。 首先很多业...
一、样本与目标变量的定义 A卡样本的确定: 同时考虑实际业务特性,如最好至少覆盖12个月(季节波动),模型的稳定性非常重要。假如模型(数据分析)...
一、政策风险 房地产三条红线,恒大债券违约、教培行业的政策打压、贸易战的影响等。 二、风险控制流程 KYC(个人信息验证)--> 信用风险评估(...
一、基本原理 降维,PCA更多的发现特征间的线性关系,t-SNE主打非线性降维。 Dimensionality reduction we nor...