对珠海房租分析进行

因为对好友搬家的原因,对珠海房租产生一定的兴趣,想要研究分析一下珠海的房租情况。
首先需要写一个收集数据的函数,从租房网站上爬去房源房租信息。将爬取下来的数据进行清洗,整合,然后再进行分析。
本次分析使用Python,用到的库有pandas库,numpy库,re库,BeautifulSoup库,requests库。
1、收集房源链接
设计函数makepage(n1,n2)。makepage(n1,n2)函数的功能是输入n1,n2,收集从第n1页到第n2页的房源链接,返回有房源连接的列表。


1.png

image.png

2、收集房源的具体信息
设计getHouse(url)函数,主要是将从makepage(n1,n2)函数收集到的房源链接上,获取房源的详细信息,例如房租,房子所在区域,房子面积等信息。
然后通过for循环,将makepage(n1,n2)函数收集到的房源链接一个个提取出来,使用getHouse(url)函数获取房子信息,然后将获取的信息放到一个空列表(houselist)里,然后用pandas库的pandas.DataFrame(houselist),将数据表格化呈现。


3.png

4.png

5.png

3、清洗数据
数据被我们采集下来是非常混乱的,有些字段的的数据有着很多的空缺值,根据我们采集下来的数据字段,有65个字段,其中有很多楼层字段,例如:楼层(共10层)、楼层(共12层)。同时由于标题是不可能出现缺失值的,如果标题出现了缺失值,那就证明表格这一行数据都出现了缺失了。
使用df['标题'].notnull(),排除整行的缺失值。


7.png

4、将楼层数据汇集成一列,删掉关于楼层的多余列,从数据的缺失度,以及重要性来看,小区介绍,户型介绍,服务介绍,房源亮点,周边配套所在小区可以清洗掉,然后将床、空调、宽带、暖气、冰箱、电视、洗衣机、热水器合并成一列,再清洗相关字段
8.png

9.png

5、尽管将数据清洗了,但是数据里仍然包含了部分不需要的字段,而且数据排列很杂乱和不美观,而且想把建筑面积数值、所在区域和抵押方式提取出来。这里使用到strip(),split()以及正则表达式,来提取数据。
10.png

11.png

6、数据清洗完后,我们就来进行数据分析。
首先进行描述性分析


12.png

根据描述分析,中位数和均值,出现较大差距,证明租金和建筑面积都有极值出现,而且标准差和均值的差距较大,说明数据比较离散,存在极值。通过散点图、租金和建筑面积直方图得出,租金出现一个极值25000元,建筑面积出现2个极值300平米。
13.png

14.png

7、现在来看一下各个区域的房源数量和平均数据分别是多少,从图中可以看出平均房租租金收费高的前五地区是南屏、吉大、新香洲、唐家湾和兰埔,同时房源数量 前五的区域分别是南屏、新香洲、吉大、唐家湾和前山
15.png

16.png

8、建立箱形图,图像化每个区域的房租分布。根据图中显示,分布比较均衡的区域是红旗、老香洲,三灶、唐家湾、南屏、夏湾、新香洲、湾仔、白藤头以及吉大房租租金都有极值出现,吉大甚至出现了整个数据极值25000块.
17.png

9、根据文章标题,建立词云图。词云图根据词语在标题中出现的频率,对词语进行统计描绘,字体大小决定该词汇在整个文本的权重。从图中可知,权重前3的词语分别是“精装”、“家电 齐全”和“家私 家电”。
1.png

pp1.jpg

2.png

由于采集的数据量较少,只有500多条,不能代表珠海整体的租房情况,仅供参考。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,189评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,577评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,857评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,703评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,705评论 5 366
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,620评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,995评论 3 396
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,656评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,898评论 1 298
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,639评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,720评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,395评论 4 319
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,982评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,953评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,195评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,907评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,472评论 2 342

推荐阅读更多精彩内容