前言
最近开始第一个数据分析的实战项目,项目为kaggle比赛中的Airbnb New User Booking 项目,该篇主要做数据观察用。所用的数据下载链接:Airbnb New User Booking 数据集,因为我最近很缺CSDN的积分,所以下载需要2积分,如果你没有积分,请留言。
以下开始具体的分析过程,所有代码都是使用Jupyter notebook 完成的。简书我没看到可以插入代码片段的地方,所以基本都用图片来展示过程,文章最后我把所有代码片段放到txt文件里,以供参考。
分析开始
查看数据集的shape,各有多少行多少列
查看各字段类型是否合理。 注意: 1.date_first_booking,有三分之二是空的,可能考虑删除 ;2.date_account_created,应该是时间类型比较好 3.timestamp_first_active,应该是时间类型比较好
查看各字段空值情况,图中结果显示不完全,可以看到有几个字段空值很大
下面针对数据集各个字段进行分析:
查看两个集的最大最小时间:
date_account_created
timestamp_first_active
date_first_booking
Age散点图,柱状图
gender 与 signup_method的柱状图
所有特点柱状图集合,这里展示不全
代码下载地址:https://pan.baidu.com/s/1_rR-K4t-ghgNMxuds1MsPw