↑点击上方“李的读书观影笔记”免费订阅。各平台同号
0 前言
疫情还在继续,人们的生活也在继续。北上广等一线城市的房价三月份都有不同程度的下跌,其中上海跌幅最大,达到5.85%。而二三线城市的房价大部分依然坚挺,烟台、襄阳等城市的涨幅超过了5%。我们今天爬取一下郑州二手房的信息,作一些简要的分析。
1 爬取
我选择的网站是https://zz.58.com/ 58二手房网站,选择城市为郑州
可以看到这上面的信息非常丰富,有房源具体信息、房价等,通过查看网页源代码,使用xpath方法爬取该网站有关郑州的所有二手房信息。
代码如下
import requests
from lxml import etree
if __name__ == '__main__':
# 爬取页面全部源码数据
baseurl = ("https://zz.58.com/ershoufang/pn")
headers = {
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) '
'Chrome/75.0.3770.100 Safari/537.36 '
}
fp = open('./58二手房.txt', 'w', encoding='utf-8')
for i in range(1,31):
url = baseurl + str(i)
page_text = requests.get(url=url,headers=headers).text
#print(page_text)
# 数据解析
# 实例化一个etree对象,且将被解析的源码加载到该对象中
tree= etree.HTML(page_text) # 全部源码的加载
# 解析出所有符合该规则的标签
li_list = tree.xpath('//ul[@class="house-list-wrap"]/li')
for li in li_list:
title = li.xpath('./div[2]/h2/a/text()')[0]
content = str(li.xpath('./div[2]/p//text()'))
price = str(li.xpath('./div[3]/p//text()'))
fp.write(title+" "+content+" "+price+'\n')
print('正在爬取中')
print("爬取成功!")
爬取结果如下
对数据进行清洗,得到如下结果
共有1977条房源数据
2 分析
首先,对房源信息进行一个词云分析
可以发现,地铁口、精装、首付等是房源的最大特征,靠近地铁口,出行的方便对于房源的介绍上会有很大的增色。
其次,我们对房源的全部价格进行可视化展现
可以发现,郑州的房价悬差较大,最高突破5.5万,最低不足5000(注:部分二手房房源位于登封、新郑,这部分的房源,也对其进行了保留)
再其次,我们对针对各区的房源数量及平均房价进行分析
其中,金水区的二手房房源最多,有288套。而郑东新区的二手房均价最高,达到了19378,远高于其他区划,其次为郑开区、金水区。
作为郑州CBD所在地,众多高校聚集区,经过十多年时间的发展,郑东新区如今已站稳脚跟,已经逐步打造成集金融、商务、办公、住宅、旅游、娱乐、服务、信息和研究等多功能于一体的复合型区域,基本上具有“24小时城市”的功能。
郑东新区金融岛 来源网络
郑州经开区是河南省唯一的国家级经济技术开发区,郑州市对外开放的窗口,外资企业、工业企业和出口加工企业的聚集地,郑州东南部的绿色产业园,现已初步形成了汽车及零部件制造、铝产品深加工、装备制造、电子信息等主导产业。在今年郑州的“地王年”里,50天5个地王的经开区也是备受瞩目的区域。
金水区则是河南省委所在地,是河南全省的政治、经济、文化、金融、信息中心,是河南全省面积最大、人口最多、经济最发达的城区,区位优势明显,各种配套完善,科研资源丰富。
另外,对于各户型数量以及均价进行分析
可以发现,其中3室2厅1卫的房源数量是最多的,而4室2厅2卫的房型均价则是最贵的,达到了14968元/平方米。
时间有限,分析暂时就到这里。
加油吧,朋友们,为了未来而奋斗
- END -
李
读书、观影
分享生活的碎片
有理想的人不会伤心