二手车交易价格预测-EDA

探索性数据分析(Exploratory Data Analysis)简称EDA,往往是我们了解、挖掘数据的至关重要的步骤。

EDA的主要工作有:

(1)了解数据基本属性:初步加载清洗数据、描述数据(了解数据大小、数据类型)、数据的异常情况分析(缺省值和异常值的刻画、处理)

(2)了解数据间的关系:数据分布的刻画、数据间关系刻画、数据与目标之间的关系刻画


1、数据加载和描述

数据下载地址:https://tianchi.aliyun.com/competition/entrance/231784/information

加载csv数据


加载数据、描述数据、基本属性获取

(1) 显示原始数据

            data.head(10),显示训练数据的前10行,结果见下图:

train_data.head(10)

 这里可以看出,数据大小为 10*31,有31列数据,但显示的时候,仅显示了一部分列。如果想显示全部列,可以这样设置,设置后显示结果如下:

pd.set_option('display.max_rows', None) #设置最大显示行数

pd.set_option('display.max_columns', None) #设置最大显示列数

train_data.head(3)

(2) 查看数据信息

data.info 包括每个字段的名称、非空数量、字段的数据类型,结果如下:

data.info()

从结果中可以看出,该df,共有150000行,索引从0-149999,共有31列,每一列的名称、非空行数、数据类型均给出;

且给出该df 有 20个float64, 10个int64, 1个object 数据类型;

占用内存大小为35.5+ MB

(3)数据缺省值刻画

        找出有缺省值的数据列,并给出缺省的行数,采用以下函数计算:

计算缺省值列,以及其缺省的行数

运行结果:

train 空值列名称,和空值个数:

{'model': 1, 'bodyType': 4506, 'fuelType': 8680, 'gearbox': 5981}

(4)数据统计特征刻画

            data.describe(),统计出所有列的以下信息:元素个数、均值、标准差、最小值、25%、50%、75%、以及最大值。从这里我们可看出,数据的取值范围和大致分布,对应数据有初步的了解。

data.describe()

2、数据间关系刻画

(1)数据大致分类

        根据数据类型,对数据进行初步分类,可分为,时间类型、连续类型、离散类型。这里我们可以通过统计大致区分连续数据和离散数据。

描述列可取值个数,以及占总比,大致区分数据类型
运行结果

        从上述结果可以看出,v_0至v_14数据取值多样化,占总比96%,可证明其为连续数值。同时,我们可以观测出部分变量的可取值范围,对数据有初步的了解。

(2)数据间关系刻画

            画图可采用seaborn 库,据图函数可参考,因分析关系较多,且与个人假设相关,后续如果时间允许,会添加部分自认为重要的关系结果图。

                https://blog.csdn.net/qq_40195360/article/details/86605860

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • pyspark.sql module Module context Spark SQL和DataFrames中的重...
    盗梦者_56f2阅读 5,523评论 0 19
  • 这是16年5月份编辑的一份比较杂乱适合自己观看的学习记录文档,今天18年5月份再次想写文章,发现简书还为我保存起的...
    Jenaral阅读 2,894评论 2 9
  • 今天是我的官方生日,收到了很多,嗯,祝福。比如10086,比如金鹰…… 听说公司食堂的滚屏上也在祝我生日快乐。 今...
    辛小婷阅读 100评论 1 0
  • 3月的天气是多变的,前几天还穿着厚棉袄,今天就穿着单薄的休闲外套了。 3月12的植树节,我与同学绕...
    阳_a017阅读 241评论 0 0
  • 爸爸走了 。 刚刚过完生日二十二天,正月十六的爸爸,爸爸离开了我和这个家,我总是在想他,关于爸爸。 爸爸留给我的苹...
    853afb130984阅读 204评论 0 0