登录注册写文章

对珠海房租分析进行

对珠海房租分析进行

因为对好友搬家的原因，对珠海房租产生一定的兴趣，想要研究分析一下珠海的房租情况。
首先需要写一个收集数据的函数，从租房网站上爬去房源房租信息。将爬取下来的数据进行清洗，整合，然后再进行分析。
本次分析使用Python，用到的库有pandas库,numpy库，re库，BeautifulSoup库，requests库。
1、收集房源链接
设计函数makepage(n1,n2)。makepage(n1,n2)函数的功能是输入n1,n2，收集从第n1页到第n2页的房源链接，返回有房源连接的列表。

1.png

image.png

2、收集房源的具体信息
设计getHouse(url)函数，主要是将从makepage(n1,n2)函数收集到的房源链接上，获取房源的详细信息，例如房租，房子所在区域，房子面积等信息。
然后通过for循环，将makepage(n1,n2)函数收集到的房源链接一个个提取出来，使用getHouse(url)函数获取房子信息，然后将获取的信息放到一个空列表(houselist)里，然后用pandas库的pandas.DataFrame(houselist)，将数据表格化呈现。

3.png

4.png

5.png

3、清洗数据
数据被我们采集下来是非常混乱的，有些字段的的数据有着很多的空缺值，根据我们采集下来的数据字段，有65个字段，其中有很多楼层字段，例如：楼层（共10层）、楼层（共12层）。同时由于标题是不可能出现缺失值的，如果标题出现了缺失值，那就证明表格这一行数据都出现了缺失了。
使用df['标题'].notnull()，排除整行的缺失值。

7.png

4、将楼层数据汇集成一列，删掉关于楼层的多余列，从数据的缺失度，以及重要性来看，小区介绍，户型介绍，服务介绍,房源亮点，周边配套所在小区可以清洗掉,然后将床、空调、宽带、暖气、冰箱、电视、洗衣机、热水器合并成一列，再清洗相关字段

8.png

9.png

5、尽管将数据清洗了，但是数据里仍然包含了部分不需要的字段，而且数据排列很杂乱和不美观，而且想把建筑面积数值、所在区域和抵押方式提取出来。这里使用到strip(),split()以及正则表达式，来提取数据。

10.png

11.png

6、数据清洗完后，我们就来进行数据分析。
首先进行描述性分析

12.png

根据描述分析，中位数和均值，出现较大差距，证明租金和建筑面积都有极值出现，而且标准差和均值的差距较大，说明数据比较离散，存在极值。通过散点图、租金和建筑面积直方图得出，租金出现一个极值25000元，建筑面积出现2个极值300平米。

13.png

14.png

7、现在来看一下各个区域的房源数量和平均数据分别是多少，从图中可以看出平均房租租金收费高的前五地区是南屏、吉大、新香洲、唐家湾和兰埔，同时房源数量前五的区域分别是南屏、新香洲、吉大、唐家湾和前山

15.png

16.png

8、建立箱形图，图像化每个区域的房租分布。根据图中显示，分布比较均衡的区域是红旗、老香洲，三灶、唐家湾、南屏、夏湾、新香洲、湾仔、白藤头以及吉大房租租金都有极值出现，吉大甚至出现了整个数据极值25000块.

17.png

9、根据文章标题，建立词云图。词云图根据词语在标题中出现的频率，对词语进行统计描绘，字体大小决定该词汇在整个文本的权重。从图中可知，权重前3的词语分别是“精装”、“家电齐全”和“家私家电”。

1.png

pp1.jpg

2.png

由于采集的数据量较少，只有500多条，不能代表珠海整体的租房情况，仅供参考。

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

相关阅读更多精彩内容

Python 数据科学入门教程：Pandas
Python 和 Pandas 数据分析教程原文：Data Analysis with Python and P...
布客飞龙阅读 83,511评论 9赞 225
《利用Python进行数据分析·第2版》第6章数据加载、存储与文件格式
第1章准备工作第2章 Python语法基础，IPython和Jupyter第3章 Python的数据结构、函数和...
SeanCheney阅读 86,652评论 56赞 160

🔝[1/2]Clojure入门教程: Clojure – Functional Program...
//Clojure入门教程: Clojure – Functional Programming for the J...
葡萄喃喃呓语阅读 4,103评论 0赞 7
《利用Python进行数据分析·第2版》第5章 pandas入门
第1章准备工作第2章 Python语法基础，IPython和Jupyter第3章 Python的数据结构、函数和...
SeanCheney阅读 165,139评论 76赞 397
《利用Python进行数据分析·第2版》第11章时间序列
第1章准备工作[https://www.jianshu.com/p/04d180d90a3f]第2章 Pytho...
SeanCheney阅读 49,192评论 32赞 96

友情链接更多精彩内容

1赞2赞

赞赏

手机看全文