前言
临近房子到期,需要寻找新的栖身之所。正好赶上最近在学习数据分析,于是尝试对链家网上的租房信息进行分析,了解一下最近的租房行情。
数据源
获取
因为链家的租房信息在不进行筛选的情况下,最多显示100页的数据,因此决定以不同区域作为筛选条件,通过python爬虫分别爬取上海不同区域的数据,最终得到20782条租房信息,虽然不是全部数据,但是用于分析应该是足够了。
处理
直接获取到的信息如下:
标题 | 户型 | 面积 | 价格 | 小区 | 链接 | 时间 | 坐标 |
---|---|---|---|---|---|---|---|
生活很便利,高区阳光房,看房有钥匙,新鲜上架 | 1室1厅 | 45平 | 4000 | 崮山小区三街坊 | http://sh.lianjia.com/zufang/shz4001407.html | 2017.08.10上架 | '121.568311', u'31.245956' |
其中由于链家的网页地图使用的是百度地图,因此获取到的坐标信息与真实的坐标信息有所偏差,需要使用百度地图的API进行转换。而且每平方米的平均租金在分析时也需要进行使用,因此对数据进行了处理,最终数据格式如下:
标题 | 户型 | 面积 | 价格 | 均价 | 小区 | 链接 | 时间 | 经度 | 纬度 |
---|---|---|---|---|---|---|---|---|---|
生活很便利,高区阳光房,看房有钥匙,新鲜上架 | 1室1厅 | 45平 | 4000 | 88 | 崮山小区三街坊 | http://sh.lianjia.com/zufang/shz4001407.html | 2017.08.10上架 | 121.568311 | 31.245956 |
热力图
通过坐标信息在地图上进行映射,可以看出大部分的房源集中在上海市中心区域,长宁区的徐汇区附近的房源最为丰富,另外在市区周边区域,房源主要集中在奉贤区、松江区、青浦区和嘉定等区域。
标题分析
在链家网上查看房源时,每条房源信息中显示的就是房源的标题,链家网的房源标题比较长,类似于一个简介,因此我尝试对爬取到的房源标题进行一个统计,看看链家网在标题中使用频率最高词有哪些。
可以看出链家的标题中,出现频率比较高的词语有楼层,人气,实地看房等,另外生活便利,地铁的出现频率也不低,可见链家网的推荐方式主要是通过简述房源信息,并说明看房便利以及交通便利来进行描述。
户型占比
户型也是我们在租房时需要考虑的一环,而什么户型的房子最多这便成了一个问题,通过对房源户型进行统计后,结果如下:
户型 | 数目 | 占比 |
---|---|---|
2室2厅 | 4715 | 22.7% |
3室2厅 | 4270 | 20.5% |
2室1厅 | 3876 | 18.7% |
1室1厅 | 2832 | 13.6% |
3室1厅 | 1149 | 5.5% |
4室2厅 | 1049 | 5.0% |
其他 | 2890 | 13.9% |
户型的种类很多,因此截取频率前六的户型进行计算,结果发现大户型房子较多,而像适合个人单租的一室户反而占比很低,因此大部分人需要进行合租才能解决自己的住房问题。
通过一个饼状图更容易了解其中的分布:
面积性价比
通过计算每平米的的月平均租金,来计算租房面积的性价比,由此来找出性价比较高的房子,因为考虑到大部分人并不会去租面积十分大的房子,因此对截取了150平以下的房源数据进行统计计算:
由图可知平均租金随着面积的增大有明显的下降,在80平到130平左右基本持平,每平米的租金在70元左右,性价比最高,可以看出整租是一个性价较高的租赁方式,赶快拉着你的小伙伴去整租吧。
小区性价比
最后我们通过每平米的月平均租金来看看小区的性价比如果,通过对这2W多条数据进行分析,得出了如下结论:
-
性价比最高TOP10:
可以看出以上小区的房源性价比是十分高的,每平米每月才需要10元左右。 -
性价比最低TOP10
性价比最低的小区,每平米的月平均租金居然高达850元左右,真是土豪的住所啊。
总结
这篇分析由于只抓取了链家网的部分数据且对数据的真实性未做核实,因此可能会导致分析结果不准确的问题。
另外在分析方面,分析的东西比较简单,无法对租房的选择进行明确的指引。
如果能抓取各大中介网站的数据并对其数据的真实有效性进行保证,同时结合租户的信息(如:公司地点,可接受的通勤时间等),也许租房的推荐问题便可以得到解决。
PS
本次分析的源码全部都已上传至github
此分析的所有数据仅用于学习、研究和交流目的,请勿用于商业目的。