2020-03-15
1. 数据获取
在Kaggle上获取Airbnb数据。
2. 数据导入
利用pandas.read_csv()方法导入数据。注意,数据集需要与脚本文件位于同一目录下。
3. 观察数据
head()方法,观察数据集的前五条数据。也可指定观察数据的条数,如head(10),即观察前10条数据
tail()方法,观察数据集末尾五条的数据
describe()方法,计算数据的总数、最大值、最小值、位于25%的值、位于50%的值、位于75%的值等等
shape方法,描述数据集的行数、列数
loc[1:3,'age']方法,取第二三四条age的数据
df1['age'] 取df1数据集里面所有的age数据
4. 修改数据格式
pandas.to_datetime() 将‘object对象格式’改为‘datetime时间格式’,方便进行加减操作。
format = ‘%Y%m%d%H%M%S’ 指定时间的格式,pandas.to_datetime(数据集,format = ‘%Y%m%d%H%M%S’ )
dropna()方法,删除空字段
4. 数据可视化
import seaborn
%matplotlib inline
导入seaborn库,用matplotlib画图
seabborn.boxplot(数据集) 箱型图
seaborn.distplot(数据集) 条形图