一、数据来源:通过python爬取链家已交易的二手房数据
二、项目背景:通过二手房交易的历史数据,观测影响价格有哪些因素。
三、初识数据:读取数据,并对数据进行预览
通过对数据的初步预览,我们发现本次爬取的数据有5672个观测数据,有35个变量,最低价是每平米1505元,最高价是每平米155589元,差距还是挺大的,初识数据之后,下一步就需要进行需求对数据清进行洗了。
四、数据清洗
1)、数据处理的思想:根据缺失值的数量进行判断是需要进行插补还是删除,包含异常值的进行删除 或者百分0.5的进行赋值,为了便于分析需要将数据类型间的相互转换以及不同量纲进行标准化。
2)、通过观察发现部分成交的房价并不是一个值,而是给了一个区间,这里需要进行判断,如果是一个值的话,取值他本身,如果是区间的话去他们的均值,赋值新变量把原始的变量删除后,因为这部分占比比较小,所以这样处理对结果影响不大。
通过两种删除变量的方式,优化之后数据还有30个变量。
3)、接下来我们需要查看一下数据中是否包含缺失值,如果有,哪些变量有缺水值,缺失值有多少,占比多少,是否超过了70%。
通过以上的操作,发现缺失值主要是在成交时间上,缺失值有171条,占比3%,通过对日期类型的转换这样就可以对日期进行计算了,接着对日期变量进行描述可以看到成交日期的均值是在2020-01-31日,最后我们把成交日期的均值进行了缺水值填充,如果如果缺失值比较大,我们可以选择进行多重插补法进行填充或者5%的分为点进行填充。
4)、为了方便后期分析的应用,我们那可以把变量的名称、位置进行调整:
5)、处理完缺失值后我们还需要查看数据是否存在异常值,接下来让我们先看看房价是否存在异常值。
最大面积2117平,而成交价仅仅是94元每平米,单价最低的是406.09,而建筑面积是98.5平米,最低价是1万元,最高价是3700万,均价是272,建筑面积36平米,这些数据是不太符合当前市场的所以需要把这些数值给删除掉,删除后剩余5668个观测记录和30个变量。
五、数据分析:
1)、分析各区与房价之间的关系:按区分类、各区住房量、各区均价。
通过观察数据:实际交易价格和每平米单价的变化基本上是一致的,距离城区越近的价格越高基本上是成正比的。西城、东城、海淀、朝阳的房价较高,门头沟、房山、怀柔、平谷房价较低,这说明越接近市中心的房价越高。
2)、分析房屋大小与房价的关系
通过观察数据:我们可以发现房屋面积和成交价格成长尾分布,价格随着面结的增大而增大。从成交数量上看,成交的房屋主要集中在房屋面积为80~100平米,随着面积的增大,每平米的均价也相对的在降低,说明面积和价格成反比,通过进一步观察,发现造成这种现象的主要是因为受离城区的距离影响。
3)、接下来我们看看哪些户型最受市场欢迎。
这里我们发现两室一厅一厨一卫和一室一厅一厨一卫的户型比较受市场欢迎,而随着庭室的增多交易数量相应的减少,这也说明了这些户型是属于人们生活的刚需,而房屋单价高,面积大占用的资金就会多,对于现在我国的发展水平而言也是哈符合实际的,有钱的先对来说还是少数的。
4)、分析房屋价格与装修类型的关系
从成交数量上看有电梯的偏多且有电梯的价格也相对偏高,但是价格差距不是很明显。
房屋价格与建筑年代
从图上可以观察2000年之后的交易房屋比较多,而年代越久数量相对较少。
年代较久远的建筑用房价格相对较贵一点,为什么老房子反而比新房子价格要高呐,查看了数据发现年代较早的楼层数比较低,有可能跟拆迁有关系.
六、总结:
通过上边的分析我们发现影响价格的关系主要跟距离市中心的距离和建筑年代关系比较密切和电梯和装修情况的关系不是很明显,同时两室一厅一厨一卫和一室一厅一厨一卫的户型比较受大家的喜欢,这个跟经济状况、家庭成员总数有一定的关系。