Python数据分析-北京房价

简书展示jupyter notebook的分布输出结果有问题,需要看分步结果的可以到我的CSND博客
https://blog.csdn.net/Itachi_dream

#!/usr/bin/env python
# coding: utf-8
# 明确分析⽬的:了解北京近年房价情况,为买房作出指导
# 各区房源数目、平均面积、均价
# 各区房屋总价均值-有/无地铁
# 各区-有地铁-是否配有电梯 均价
# 2017年 2室1厅1厨1卫户型房屋-有电梯/无电梯-有地铁/无地铁 各区均价
# 均价日趋势-统计每⽇所有房源的平均单价
# 2017年 总价200~400万、单价4~7万房源占比
# 引⼊使⽤的库
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
# 加载数据⽂件
# df = pd.read_csv('./beijing_houst_price.csv')
# 警告 DtypeWarning: Columns (0,6,7,9) have mixed types. Specify dtype option on import or set low_memory=False.
df = pd.read_csv('./beijing_houst_price.csv', dtype={'id':'str','tradeTime':'str', 'livingRoom':'str', 'drawingRoom':'str', 'bathRoom':'str'})
# 简单查看数据有哪些列
df.head()
# 查看列数目、类型
df.info()
# 查看数值类型数据的整体信息 常用统计值
df.describe()
# 查看各列⾮空值数量
df.count()
# 开始数据清理
# 查看是否有重复数据
df[df.duplicated()]
# -->无完全重复的条目
# 查看id字段是否有重复值
df[df['id'].duplicated()]
# -->无id重复的条目
# 根据分析目标,我们取出需要的列即可
# 'id', 'tradeTime', 'totalPrice', 'price', 'square', 'livingRoom', 'drawingRoom', 'kitchen', 'bathRoom', 'floor', 'elevator', 'subway','district', 'communityAverage'
df = df[['id', 'tradeTime', 'totalPrice', 'price', 'square', 'livingRoom', 'drawingRoom', 'kitchen', 'bathRoom', 'floor', 'elevator', 'subway','district', 'communityAverage']]
# 查看tradeTime列数据情况
df['tradeTime'].value_counts()
# 可见tradeTime列数据时间跨度大,且年代久远的数据没有太多参考价值,有些时间段数据量太少不具有参考性
# 需要对tradeTime列进行清理
df['tradeTime'] = pd.to_datetime(df['tradeTime'])
# 查看数据类型
df.dtypes
# 统计各年数据量
df['year'] = df['tradeTime'].dt.year
df['year'].value_counts()
# 02 03 08 09 10 18数据量较少
# 删除数据量较少和年代久远的数据,统计2013~2017年数据
df.drop(df[df['year']  < 2013].index, inplace = True)
df.drop(df[df['year']  > 2017].index, inplace = True)
# 清理totalPrice小于100万的数据-->偏远或者面积太小
df.drop(df[df['totalPrice']  < 100].index, inplace = True)
# 再次查看数据情况
df.info()
# 对于elevator和subway列,是否存在空值
print(df['elevator'].isnull(), df['subway'].isnull())
# 查看elevator和subway列是否有nan值
print(df['elevator'].value_counts(dropna = False))
print(df['subway'].value_counts(dropna = False))
df.elevator.fillna('ABCNAN', inplace = True)
df.subway.fillna('ABCNAN', inplace = True)
# 查看数据情况
df.info()
# 删除elevator和subway异常值数据行
df.drop(df[df['elevator'] == 'ABCNAN'].index, inplace = True)
df.drop(df[df['subway'] == 'ABCNAN'].index, inplace = True)
# 查看数据情况
df.info()
# 可见communityAverage有部分数据缺失
# communityAverage
df[df['communityAverage'].isnull()] #查看缺失值所在数据行
# 使用平均值填充communityAverage缺失值
df['communityAverage'].fillna(df['communityAverage'].mean(), inplace=True)
# 查看数据情况
df.info()
# 重新排序索引值
# 删除数据行后,行索引仍然不变,若想使用连续索引数值,则需重新生成
df = df.reset_index()
# 数据清洗完毕,开始分析

# 常⽤统计值
df['year'] = df['year'].astype('str') #以免使用describe时对年份进行各种计算
df.describe()
# 各区房源数目、平均面积、均价
df_dis = df.groupby('district', as_index = False) 
df_dis_count = df_dis.count()[['district','id']]
df_dis_count.rename(columns={'id':'num'},inplace = True)            # 各区房源数目
df_dis_mean_square = df_dis.mean()[['district','square']]           # 各区房源平均面积
df_dis_mean_comm = df_dis.mean()[['district','communityAverage']]   # 各区均价

df_dis_info = pd.merge(df_dis_count, pd.merge(df_dis_mean_square, df_dis_mean_comm, on = 'district'), on = 'district')
df_dis_info.sort_values('num', ascending = False, inplace = True)  # 总表按照各区房源数目降序排列
df_dis_info
df_dis.head()
# 各区房屋总价均值-有/无地铁(假设subway值为1时为有地铁) 
df_dis_sub = df[['id', 'district', 'subway','totalPrice']]
df_dis_sub = df_dis_sub.groupby(['district', 'subway']).mean()

print(df_dis_sub)
# df_dis_sub_1 = df_dis[df_dis['subway'] == 1]

# df_dis_sub_0 = df_dis[df_dis['subway'] == 0]
# df_dis_sub_0
# 各区-有地铁的-是否配有电梯 均价
df_dis_sub_01 = df[['id', 'district', 'subway', 'elevator', 'totalPrice']]
df_dis_sub_1 = df_dis_sub_01[df_dis_sub_01['subway'] == 1]
df_dis_sub_1 = df_dis_sub_1.groupby(['district', 'elevator'], as_index = False).mean()
df_dis_sub_1.rename(columns = {'totalPrice':'totalPrice_mean'}, inplace = True)
print(df_dis_sub_1)
# 各区-楼层高中低-是否配有电梯 均价
df_dis_f_e = df[['id', 'district', 'floor', 'elevator', 'totalPrice']]


class_gzd = []
class_id = []
for i in df_dis_f_e.index.tolist(): # 拿到每个索引
    d = df_dis_f_e['floor'][i] # 取出 floor 下每行的值
    list_f = d.split(' ') #得到 例如 ['高', '26']
    list_d = list_f[0]
    class_gzd.extend(list_d)
    class_id.append(df_dis_f_e['id'][i])
    
#     df_dis_f_e_c.insert(i,'gzd',list_d) # df.insert(iloc,column,value) iloc:要插入的位置 colunm:列名 value:值
    
# 创建dataframe  df_dis_f_e_c 包含id和高中低信息
dict_id_gzd = {'id':class_id, 'gzd':class_gzd} # 问题点:id和gzd长度不同,无法生成DataFrame
df_dis_f_e_c = pd.DataFrame.from_dict(dict_id_gzd)   
df_dis_f_e和df_dis_f_e_cmerge一下
df_dis_f_e_c.info()
    



# 2017年 2室1厅1厨1卫户型房屋-有电梯/无电梯-有地铁/无地铁 各区均价
df_dis_want = df[['id', 'district','livingRoom', 'drawingRoom', 'kitchen', 'bathRoom', 'subway', 'elevator', 'totalPrice','year']]
print(df_dis_want.info())
df_dis_w = df_dis_want[(df['year'] == '2017') & (df['livingRoom'] == '2') & (df['drawingRoom'] == '1') & (df['kitchen'] == 1) & (df['bathRoom'] == '1')]
# 注意到判别条件这里,数据类型不同判别条件中需要考虑是否加引号'',这也可认为是本次数据清洗环节的疏漏
df_dis_w = df_dis_w.groupby(['district', 'elevator', 'subway'], as_index = False).mean()
df_dis_w.rename(columns = {'totalPrice':'totalPrice_mean'}, inplace = True)
print(df_dis_w)
# 均价⽇趋势
# 统计每⽇所有房源的平均单价
df_day_price = df.groupby('tradeTime').mean()['price']
df_day_price.sort_index(inplace=True) # 按照索引排序
df_day_price.plot() # 画出趋势图
# 2017年 总价200~400万、单价5~8万、配电梯(假设elevator值为1时为有电梯) 的房源占比
df_2017 = df[df['year'] == '2017']
num1 = len(df[(df['totalPrice'] > 200) & (df['totalPrice'] < 400) & (df['price'] > 40000) &( df['price'] < 70000) & (df['elevator'] == 1)] )
num2 = len(df_2017) # 2017年数据条数
want_ratio = num1/num2
print(want_ratio) #占比
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,254评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,875评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,682评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,896评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,015评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,152评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,208评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,962评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,388评论 1 304
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,700评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,867评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,551评论 4 335
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,186评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,901评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,142评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,689评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,757评论 2 351