240 发简信
IP属地:广东
  • 欺诈检测

    背景介绍 数据集包含欧洲持卡人于2013年9月通过信用卡进行的交易。这个数据集显示了两天内发生的交易,在284,807笔交易中我们有492笔诈骗。数据集非常不平衡,正面类(欺...

  • 申请评分卡目录

    申请评分卡(1)——相关概念申请评分卡(2)——评分卡模型开发申请评分卡(3)——建模(R)

  • 120
    申请评分卡(3)——建模(R)

    理论说完了,来次实践。 数据理解与预处理 数据来自kaggle的Give Me Some Credit项目,有15万条的样本数据。要求根据历史数据,预测申请人违约的可能性,以...

  • 申请评分卡(2)——评分卡模型开发

    模型开发步骤 业务和风险定义 数据准备与预处理来源:自有数据和第三方数据 模型构建确定观察点、观察期和表现期,选择特征建模。 模型评估准备测试集进行验证。评估标准:ROC:评...

  • 120
    信贷评分卡——业务流程

    贷前流程: 用户申请:一般在该阶段会要求客户填写一些信息,评分卡建模的部分特征从这些信息当中提取,再结合其他来源的数据进行补充。 准入规则:一般根据国家和行业要求,结合公司政...

  • 申请评分卡(1)——相关概念

    信用风险 百科的释义是:信用风险(Credit Risk)又称违约风险,是指交易对手未能履行约定契约中的义务而造成经济损失的风险,即受信人不能履行还本付息的责任而使授信人的预...

  • 回归算法——逻辑回归

    在线性回归的基础上,如果因变量不是连续变量,而是0-1变量,怎么办呢?这里我们需要一个阈值函数,将因变量的取值做一下划分,映射成0-1变量。回归算法就加了一个sigmoid函...

  • 回归算法——线性回归

    线性回归是我们接触得最早的一种回归,只是当时他的名字不叫线性回归,当时可能说的是线性拟合。Y=aX+b+e没有看错,就是这货,一元线性回归。这里Y是连续变量,a和b是参数,e...

  • 回归简介

    背景介绍 “回归”一词在统计领域是弗朗西斯·高尔顿在研究父母身高和子女身高的关系时引入的。高尔顿发现:尽管存在父母高子女也高,父母矮子女也矮的趋势(个体角度),但是观察总样本...

  • 练手系列——mysql

    最近打算采用关系型数据库来理一下公司的运营数据,先拿点东西练手找感觉。下面是几个关于学生课业的表,需要建立一个数据库,含有以下四张表,在此基础上做练习。 表结构 第一行为表名...

  • 泰坦尼克号系列目录

    泰坦尼克号系列(一)——数据初探和初步特征选取泰坦尼克号系列(二)——建模和特征工程及其评估

  • 泰坦尼克号系列(二)——建模和特征工程及其评估

    【目录】 建模 逻辑回归 逻辑回归算法是一种很常用的用于二分类的分类算法,我们先用逻辑回归模型试一试。scikit-learn这个包中含有绝大部分数据挖掘需要用到的算法,可以...

  • 120
    泰坦尼克号系列(一)——数据初探和初步特征选取

    【目录】 问题背景 船沉了,大家惊慌逃生,但是没有足够的救生艇。是否获救并非随机,有些群体比其他人更有可能生存,如妇女、儿童和上层阶级等等。 数据集是乘客的个人信息以及存活状...

  • PYTHON分类

    分类简述 分类是一种监督学习算法,根据已知样本的训练集合来识别待测试集中哪一组子集归属哪一类别。实现分类算法的模块称之为分类器,主要包含2个部分,训练和分类。训练是从已知样本...

  • 120
    PYTHON可视化

    散点图绘制: 使用第一和第三维度(花萼的长和宽),结果如下图所示: 直方图绘制: 选择第二维度即选择花萼的宽做分析,情况如下: 根据上图的直方图,我们可以根据样本类型区分理解...

  • PYTHON数据导入

    处理数据前需先将数据导入库中,此处为指定网络位置的数据资源,通过urllib2包处理 数据包含鸢尾花(iris)数据集,这是一个包含了三种鸢尾花(山鸢尾、维吉尼亚鸢尾和变色鸢...