240 发简信
IP属地:广东
  • Resize,w 360,h 240
    模型性能评估_交叉验证(Cross Validation)_简版

    解决的主要问题是过拟合(Over fitting),用于模型调参和模型选择,确定测试集用于验证的模型。 决不能使用测试集(X_test)来进行参...

  • 数据预处理小结_简版

    一、数据清洗 在讨论具体的方法前,想讨论一个大前提,数据的预处理是否是测试集和训练集一起进行?答案是不要。 简单而言,就是不应当把测试的信息引入...

  • Resize,w 360,h 240
    逻辑回归的基本原理&深度学习_简版

    温故而知新,可以为师也。 至于为什么要加入深度学习的对比,是想通过前沿算法的对比,体现出LR的优势与特点,以及深度学习可以期待的用途。 一、逻辑...

  • 特征工程与自动化_简版

    一、基本方法论 近似特征的差:适用于聚类、异常值检测等。电商领域常用的两个几乎相等的特征原始订单价和净订单价,相关系数0.9,对大多数用户而言,...

  • 过拟合与正则化小结_简版

    一、过拟合 模型复杂度太高的表现,模型的泛化能力十分重要,交叉验证是识别过拟合的好方法。 1、主要原因 数据有噪声,无法避免,会影响训练集的数据...

  • Resize,w 360,h 240
    模型的价值与适用性

    想起一位招聘的猎头说过,数据人员一年几十万,有时公司是会觉得没什么用,特别是非核心业务线。这几年自己有一些体会,分享一下,欢迎探讨。 首先很多业...

  • 评分卡建模流程

    一、样本与目标变量的定义 A卡样本的确定: 同时考虑实际业务特性,如最好至少覆盖12个月(季节波动),模型的稳定性非常重要。假如模型(数据分析)...

  • Resize,w 360,h 240
    风险管理小结_简版

    一、政策风险 房地产三条红线,恒大债券违约、教培行业的政策打压、贸易战的影响等。 二、风险控制流程 KYC(个人信息验证)--> 信用风险评估(...

  • PCA&SVD的基本原理

    一、基本原理 降维,PCA更多的发现特征间的线性关系,t-SNE主打非线性降维。 Dimensionality reduction we nor...