简书展示jupyter notebook的分布输出结果有问题,需要看分步结果的可以到我的CSND博客
https://blog.csdn.net/Itachi_dream
#!/usr/bin/env python
# coding: utf-8
# 明确分析⽬的:了解北京近年房价情况,为买房作出指导
# 各区房源数目、平均面积、均价
# 各区房屋总价均值-有/无地铁
# 各区-有地铁-是否配有电梯 均价
# 2017年 2室1厅1厨1卫户型房屋-有电梯/无电梯-有地铁/无地铁 各区均价
# 均价日趋势-统计每⽇所有房源的平均单价
# 2017年 总价200~400万、单价4~7万房源占比
# 引⼊使⽤的库
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
# 加载数据⽂件
# df = pd.read_csv('./beijing_houst_price.csv')
# 警告 DtypeWarning: Columns (0,6,7,9) have mixed types. Specify dtype option on import or set low_memory=False.
df = pd.read_csv('./beijing_houst_price.csv', dtype={'id':'str','tradeTime':'str', 'livingRoom':'str', 'drawingRoom':'str', 'bathRoom':'str'})
# 简单查看数据有哪些列
df.head()
# 查看列数目、类型
df.info()
# 查看数值类型数据的整体信息 常用统计值
df.describe()
# 查看各列⾮空值数量
df.count()
# 开始数据清理
# 查看是否有重复数据
df[df.duplicated()]
# -->无完全重复的条目
# 查看id字段是否有重复值
df[df['id'].duplicated()]
# -->无id重复的条目
# 根据分析目标,我们取出需要的列即可
# 'id', 'tradeTime', 'totalPrice', 'price', 'square', 'livingRoom', 'drawingRoom', 'kitchen', 'bathRoom', 'floor', 'elevator', 'subway','district', 'communityAverage'
df = df[['id', 'tradeTime', 'totalPrice', 'price', 'square', 'livingRoom', 'drawingRoom', 'kitchen', 'bathRoom', 'floor', 'elevator', 'subway','district', 'communityAverage']]
# 查看tradeTime列数据情况
df['tradeTime'].value_counts()
# 可见tradeTime列数据时间跨度大,且年代久远的数据没有太多参考价值,有些时间段数据量太少不具有参考性
# 需要对tradeTime列进行清理
df['tradeTime'] = pd.to_datetime(df['tradeTime'])
# 查看数据类型
df.dtypes
# 统计各年数据量
df['year'] = df['tradeTime'].dt.year
df['year'].value_counts()
# 02 03 08 09 10 18数据量较少
# 删除数据量较少和年代久远的数据,统计2013~2017年数据
df.drop(df[df['year'] < 2013].index, inplace = True)
df.drop(df[df['year'] > 2017].index, inplace = True)
# 清理totalPrice小于100万的数据-->偏远或者面积太小
df.drop(df[df['totalPrice'] < 100].index, inplace = True)
# 再次查看数据情况
df.info()
# 对于elevator和subway列,是否存在空值
print(df['elevator'].isnull(), df['subway'].isnull())
# 查看elevator和subway列是否有nan值
print(df['elevator'].value_counts(dropna = False))
print(df['subway'].value_counts(dropna = False))
df.elevator.fillna('ABCNAN', inplace = True)
df.subway.fillna('ABCNAN', inplace = True)
# 查看数据情况
df.info()
# 删除elevator和subway异常值数据行
df.drop(df[df['elevator'] == 'ABCNAN'].index, inplace = True)
df.drop(df[df['subway'] == 'ABCNAN'].index, inplace = True)
# 查看数据情况
df.info()
# 可见communityAverage有部分数据缺失
# communityAverage
df[df['communityAverage'].isnull()] #查看缺失值所在数据行
# 使用平均值填充communityAverage缺失值
df['communityAverage'].fillna(df['communityAverage'].mean(), inplace=True)
# 查看数据情况
df.info()
# 重新排序索引值
# 删除数据行后,行索引仍然不变,若想使用连续索引数值,则需重新生成
df = df.reset_index()
# 数据清洗完毕,开始分析
# 常⽤统计值
df['year'] = df['year'].astype('str') #以免使用describe时对年份进行各种计算
df.describe()
# 各区房源数目、平均面积、均价
df_dis = df.groupby('district', as_index = False)
df_dis_count = df_dis.count()[['district','id']]
df_dis_count.rename(columns={'id':'num'},inplace = True) # 各区房源数目
df_dis_mean_square = df_dis.mean()[['district','square']] # 各区房源平均面积
df_dis_mean_comm = df_dis.mean()[['district','communityAverage']] # 各区均价
df_dis_info = pd.merge(df_dis_count, pd.merge(df_dis_mean_square, df_dis_mean_comm, on = 'district'), on = 'district')
df_dis_info.sort_values('num', ascending = False, inplace = True) # 总表按照各区房源数目降序排列
df_dis_info
df_dis.head()
# 各区房屋总价均值-有/无地铁(假设subway值为1时为有地铁)
df_dis_sub = df[['id', 'district', 'subway','totalPrice']]
df_dis_sub = df_dis_sub.groupby(['district', 'subway']).mean()
print(df_dis_sub)
# df_dis_sub_1 = df_dis[df_dis['subway'] == 1]
# df_dis_sub_0 = df_dis[df_dis['subway'] == 0]
# df_dis_sub_0
# 各区-有地铁的-是否配有电梯 均价
df_dis_sub_01 = df[['id', 'district', 'subway', 'elevator', 'totalPrice']]
df_dis_sub_1 = df_dis_sub_01[df_dis_sub_01['subway'] == 1]
df_dis_sub_1 = df_dis_sub_1.groupby(['district', 'elevator'], as_index = False).mean()
df_dis_sub_1.rename(columns = {'totalPrice':'totalPrice_mean'}, inplace = True)
print(df_dis_sub_1)
# 各区-楼层高中低-是否配有电梯 均价
df_dis_f_e = df[['id', 'district', 'floor', 'elevator', 'totalPrice']]
class_gzd = []
class_id = []
for i in df_dis_f_e.index.tolist(): # 拿到每个索引
d = df_dis_f_e['floor'][i] # 取出 floor 下每行的值
list_f = d.split(' ') #得到 例如 ['高', '26']
list_d = list_f[0]
class_gzd.extend(list_d)
class_id.append(df_dis_f_e['id'][i])
# df_dis_f_e_c.insert(i,'gzd',list_d) # df.insert(iloc,column,value) iloc:要插入的位置 colunm:列名 value:值
# 创建dataframe df_dis_f_e_c 包含id和高中低信息
dict_id_gzd = {'id':class_id, 'gzd':class_gzd} # 问题点:id和gzd长度不同,无法生成DataFrame
df_dis_f_e_c = pd.DataFrame.from_dict(dict_id_gzd)
df_dis_f_e和df_dis_f_e_cmerge一下
df_dis_f_e_c.info()
# 2017年 2室1厅1厨1卫户型房屋-有电梯/无电梯-有地铁/无地铁 各区均价
df_dis_want = df[['id', 'district','livingRoom', 'drawingRoom', 'kitchen', 'bathRoom', 'subway', 'elevator', 'totalPrice','year']]
print(df_dis_want.info())
df_dis_w = df_dis_want[(df['year'] == '2017') & (df['livingRoom'] == '2') & (df['drawingRoom'] == '1') & (df['kitchen'] == 1) & (df['bathRoom'] == '1')]
# 注意到判别条件这里,数据类型不同判别条件中需要考虑是否加引号'',这也可认为是本次数据清洗环节的疏漏
df_dis_w = df_dis_w.groupby(['district', 'elevator', 'subway'], as_index = False).mean()
df_dis_w.rename(columns = {'totalPrice':'totalPrice_mean'}, inplace = True)
print(df_dis_w)
# 均价⽇趋势
# 统计每⽇所有房源的平均单价
df_day_price = df.groupby('tradeTime').mean()['price']
df_day_price.sort_index(inplace=True) # 按照索引排序
df_day_price.plot() # 画出趋势图
# 2017年 总价200~400万、单价5~8万、配电梯(假设elevator值为1时为有电梯) 的房源占比
df_2017 = df[df['year'] == '2017']
num1 = len(df[(df['totalPrice'] > 200) & (df['totalPrice'] < 400) & (df['price'] > 40000) &( df['price'] < 70000) & (df['elevator'] == 1)] )
num2 = len(df_2017) # 2017年数据条数
want_ratio = num1/num2
print(want_ratio) #占比