1、数据加载和描述

数据下载地址：https://tianchi.aliyun.com/competition/entrance/231784/information

加载csv数据

加载数据、描述数据、基本属性获取

(1) 显示原始数据

data.head(10)，显示训练数据的前10行，结果见下图：

train_data.head(10)

这里可以看出，数据大小为 10*31，有31列数据，但显示的时候，仅显示了一部分列。如果想显示全部列，可以这样设置，设置后显示结果如下：

pd.set_option('display.max_rows', None) #设置最大显示行数

pd.set_option('display.max_columns', None) #设置最大显示列数

train_data.head(3)

data.info 包括每个字段的名称、非空数量、字段的数据类型，结果如下：

data.info()

从结果中可以看出，该df，共有150000行，索引从0-149999，共有31列，每一列的名称、非空行数、数据类型均给出；

且给出该df 有 20个float64, 10个int64, 1个object 数据类型；

占用内存大小为35.5+ MB

找出有缺省值的数据列，并给出缺省的行数，采用以下函数计算：

计算缺省值列，以及其缺省的行数

运行结果：

train 空值列名称，和空值个数:

{'model': 1, 'bodyType': 4506, 'fuelType': 8680, 'gearbox': 5981}

data.describe()，统计出所有列的以下信息：元素个数、均值、标准差、最小值、25%、50%、75%、以及最大值。从这里我们可看出，数据的取值范围和大致分布，对应数据有初步的了解。

data.describe()

根据数据类型，对数据进行初步分类，可分为，时间类型、连续类型、离散类型。这里我们可以通过统计大致区分连续数据和离散数据。

描述列可取值个数，以及占总比，大致区分数据类型

运行结果

从上述结果可以看出，v_0至v_14数据取值多样化，占总比96%，可证明其为连续数值。同时，我们可以观测出部分变量的可取值范围，对数据有初步的了解。

（2）数据间关系刻画

画图可采用seaborn 库，据图函数可参考，因分析关系较多，且与个人假设相关，后续如果时间允许，会添加部分自认为重要的关系结果图。

https://blog.csdn.net/qq_40195360/article/details/86605860

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。