1.关于Airbnb New User Booking 的分析——数据观察

前言

最近开始第一个数据分析的实战项目,项目为kaggle比赛中的Airbnb New User Booking 项目,该篇主要做数据观察用。所用的数据下载链接:Airbnb New User Booking 数据集,因为我最近很缺CSDN的积分,所以下载需要2积分,如果你没有积分,请留言。

以下开始具体的分析过程,所有代码都是使用Jupyter notebook 完成的。简书我没看到可以插入代码片段的地方,所以基本都用图片来展示过程,文章最后我把所有代码片段放到txt文件里,以供参考。

分析开始

首先引用一些相关包,并导入数据集  
观察数据集中各个字段的含义

查看数据集的shape,各有多少行多少列


数据集的shape

查看各字段类型是否合理。 注意: 1.date_first_booking,有三分之二是空的,可能考虑删除 ;2.date_account_created,应该是时间类型比较好 3.timestamp_first_active,应该是时间类型比较好

分析各字段间相差了多少

查看各字段空值情况,图中结果显示不完全,可以看到有几个字段空值很大

查看各字段空值情况


查看两个数据集有哪些不一样的字段
train数据集的dtypes

下面针对数据集各个字段进行分析:

首先对date_account_created进行分析

查看两个集的最大最小时间:

二者以14年6月末为分割

date_account_created

date_account_createdte特点散点图

timestamp_first_active

timestamp_first_active特点分析

date_first_booking

date_first_booking特点分析

Age散点图,柱状图

年龄与数量分布图
年龄段数量柱状图
画特点柱状图方法

gender 与 signup_method的柱状图

各个特点分别画图,这里只画了两个特点

所有特点柱状图集合,这里展示不全

代码下载地址:https://pan.baidu.com/s/1_rR-K4t-ghgNMxuds1MsPw

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容