金融风控比赛二

在充分了解赛题之后,准备开始进行数据集的分析工作,分别从数据集维度,标签,字段属性和类型。
本次数据集主要有44列,其中有连续性数据和离散型数据以及几列脏数据。

  • 数据总体了解:
  • 读取数据集并了解数据集大小,原始特征维度;
  • 通过info熟悉数据类型;
  • 粗略查看数据集中各特征基本统计量;
  • 缺失值和唯一值:
  • 查看数据缺失值情况
  • 查看唯一值特征情况
  • 深入数据-查看数据类型
  • 类别型数据
  • 数值型数据
  • 离散数值型数据
  • 连续数值型数据
  • 数据间相关关系
  • 特征和特征之间关系
  • 特征和目标变量之间关系
    数据分析的目标是了解数据集的特性为接下来得步骤做准备。
    我们可以借助seaborn库与pandas 库对数据集概况数据密度进行整体了解。
    利用seaborn进行绘图大致了解数据字段的密度
    主要工作还是借助于各个简单的统计量来对数据整体的了解,分析各个类型变量相互之间的关系,以及用合适的图形可视化出来直观观察。
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

友情链接更多精彩内容