搭建金融信贷风控中的机器学习模型-(1)数据分析

        随着大数据、人工智能算法和机器学习算法的兴起,越来越多的金融风控人员将量化模型引入到风控业务当中去。这意味着数据分析技术在金融风控工作中起到一个非常重要的作用。

1.数据分析

        数据分析是一项从自然环境、社会环境、网络环境中提取数据,实验分析,得出结论并验证的工作。
常规步骤:数据获取>数据清洗>统计分析>可视化>形成结论>验证结论 >应用结论

2.数据获取

渠道 优点 缺点
公共数据库 免费 粒度粗、更新慢
私有数据库 粒度细,更新快 价格高,有访问权限
网络爬虫 免费 技术要求高,数据脏
问卷调查 有针对性、可靠性高 搜集量少,使用范围受限
设备采集 准确度高 成本高

3.数据清洗

清洗原因:脏数据不满足分析要求

原则 方法
完整性 数据补全
唯一性 主键去重,同一主键数据合并
权威性 选择最权威渠道的数据
一致性 统一数据维度、单位
合法性 统一字段内容格式规则

4.数据可视化

        数据可视化能够让使用者更加容易发掘数据的信息。比如春运人群流动规律。
通用工具:excel、python、R

5.数据分析模型

均值、方差/标准差、分位数、协方差、相关系数
分类:svm、分类树、逻辑回归、knn、神经网络
回归:线性回归、神经网络
排序:pangrank
集成模型:随机森林、gbdt、xgboost、adaboost
损失函数:loss=error cost+complexity cost

(如有不同见解,望不吝赐教!!)

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 本文编译自谷歌开发者机器学习术语表项目,介绍了该项目所有的术语与基本解释。 A 准确率(accuracy) 分类模...
    630d0109dd74阅读 2,064评论 0 1
  • 简书公式支持不太好,欢迎跳转到机器学习深度学习面试题总结GitHub看完整的总结,GitHub总结比较全,大多数是...
    MrMiaow阅读 3,996评论 1 8
  • 算法技术解构 1、Python基础知识 (1)IPythonIPython的开发者吸收了标准解释器的基本概念,在此...
    shenciyou阅读 5,511评论 0 10
  • Julia 入门 数据类型在 Julia 中特别重要,使用数据类型,可以使我们开发出的程序和函数具有更好的性能,并...
    iOSDevLog阅读 3,291评论 0 7
  • *EDG,无数个国内杯赛冠军,四次LPL冠军,2016年夏季赛大比分未尝一败,全胜夺冠,一次MSI冠军,诺言和阿布...
    郑洛田阅读 255评论 0 0