【数据分析师养成记】全国天价小区究竟在哪里?

在中国,由于受到安土重迁的思想影响,无论是刚踏入社会的年轻人,还是步入中年的家庭中坚,人们对房价的关注从未减少过。从2016年起,房价一路走高,甚至有一些十分神秘的天价房产。本文将揭示从数据上看全国最贵的天价小区有哪些?高房价分布在哪些城市?天价房都有什么特点?

用Top-N从茫茫数据中找到天价房

本次分析需要涉及全国范围内的大量房地产数据,如果有一个函数可以快速从海量数据中找到某个维度(比如单价)上前20%的数据,就可以帮我们快速缩小要分析的范围,甚至直接定位目标。

于是,分析师小杜就想到了 Top-N。Top-N 在很多领域的分析中都很常用,简单来说,通过 Top-N 可以得到海量数据中符合要求的 N 个顶级项。 但在海量数据背景下,随着明细数据集越来越大,只通过在线计算的方式得到一个大数据集的 Top-N 结果需要耗费很长时间。

Kyligence Enterprise 作为使用预计算的 OLAP 引擎,引入了 Top-N 函数来解决上述问题。具体来说,一方面将需要聚合的指标预计算,另一方面对数据分组排序并舍弃尾端数据,整体上降低了查询成本,因而可以迅速地获取并返回Top-N的结果。

本例中,分析师将通过 Kyligence Enterprise 中 Top-N 函数对海量房产数据进行分析。数据爬取自房天下(全球最大的房地产家居网络平台),涉及全国 28 个城市的 34,944 个小区。获得的数据集中,包含房产所在城市(CITY),小区(GADERN),平米单价(UNIT_PRICE),以及总价(PRICE)。

为实现 Top-N 函数的预计算,分析师需在设计 Cube 时在“度量”步骤为UNIT_PRICE 添加 Top-N 度量。设置后如下图所示。


Top-N度量设置

全国房价最高的10个城市

首先,以城市为聚合组,来查看全国普遍房价。我们分别选取 25%、50%、75% 分位数来代表房价情况,对全国平米单价进行排序。使用 percentile 函数①, 选取UNIT_PRICE 分位数,利用 Top-N 进行排序。以 50% 分位数为例,查询语句如下:

select CITY, percentile_approx(UNIT_PRICE,0.5) as UNIT_PRICE_50

from CHI_PRICE_07271

group by CITY

order by percentile_approx(UNIT_PRICE,0.5) desc limit 20

有 Top-N 预计算的 Cube 只需要0.38秒就可以得到结果。结果如下:

全国28城市房价排行,50分位数


选取 25%、50%、75% 分位数来代替房价,三次计算的完整结果如下表。

全国房价 top10 的城市

结果显示,北京、深圳、上海、厦门四个城市,在各分位房价均位列全国前四。其中第一名的北京以房价中位数为 6.4万元/㎡ 远超同为直辖市的天津 。

总体看来,房价前十名的大多为一线城市。但有趣的是,厦门和福州两个来自闽南地区的二线城市,也进入了 top10 榜单。其中厦门更是以中位数 4.1万元/㎡ 的均价超过广州,成为全国房价第四高的城市。而老牌一线城市广州,则仅在 50% 和 75% 高分位数区域超过杭州,位列全国第五。看来随着杭州经济的发展,杭州房价已逐渐上涨,在低分位数区间尤为明显。

全国房价最高的10个小区

为了查找“天价小区”,接下来以小区为聚合组,选取 50% 分位数代表房价,利用 Top-N 预计算查询全国小区房价 Top 50。查询语句如下:

select CITY, GADERN, percentile_approx(UNIT_PRICE,0.5) as UNIT_PRICE_50 from CHI_PRICE_07271

group by CITY,GADERN

order by percentile_approx(UNIT_PRICE,0.5) desc limit 50

全国高价小区 top50


提取前十名如下:

全国房价 top10 的小区


高价小区所在城市饼图


分析师继续对全国范围内单价前50的小区所在城市进行分析,得出深圳和上海分别以40% 和 34% 的天价小区比例,占据了第一、第二名的位置。

其中深圳的纯水岸二期小区,以44.01万元/㎡的价格位列全国天价小区之首。天价小区在北京的分布比例为18%,最高价为23.06 万元/㎡,仅排18名。而四大一线城市之一的广州,仅有两个小区上榜,分别位列16名和29名。

天价小区的户型:多为别墅型

进一步分析上榜天价小区的面积,可以发现绝大部分(74%)的高价小区面积超过200平方米,为别墅型住宅。

对上榜的天价小区分别进行分析,可以发现单价前75%的小区存在更多的超大户型,且超过200平方米的别墅户型占比更多(77%);单价后25%的小区经济型住宅比例更大(60%)。究其原因,分析师推测可能是2006年以来国家出台的停批别墅用地政策,造成别墅型土地资源稀缺,各级城市已无在建别墅楼盘,因此别墅型住宅价格一路走高。

天价小区面积分布


房价前75%小区面积分布

小户型也有高单价

解密了天价小区的特点后,分析师开始关心更贴近居民生活的经济适用房,真的经济吗?比如面积低于 50㎡ 的小户型,房价如何?依旧以小区为聚合组,对50㎡(小户型)的房子进行Top-N排序。

查询语句如下:

select CITY, GADERN,UNIT_PRICE

from CHI_PRICE_0730 where SIZE_ROOM<50

order by UNIT_PRICE desc

全国房价top20的小户型小区


小户型高价小区分布

在小户型领域,单价前50名中,北京拥有其中的46%,超过上海和深圳的总和。地点多分布在德胜门、 西单、后海附近,多为地铁房。值得一提的是,天津也有4个小区进入 top50(8%),可见京津地区对小户型是很青睐的。

结语

利用 Kyligence Enterprise 的 Top-N 预计算,能够在1秒以内实现对全国房价的排序查询。从全国来看,天价小区主要集中在深圳、上海,多为超豪华别墅区。从房型来看,对于面积小于 50㎡ 的小户型来说,天价小区主要集中在北京、天津地区。看来长三角、珠三角人民更愿意为休闲度假花钱,而京津冀人民更愿意为便捷买单。

Kyligence Enterprise 提供了基于海量数据的 Top-N 函数计算,通过预计算提供亚秒级查询响应。对全国天价房产的分析,只是对 Top-N 预计算性能的一个小尝试。之后还会针对更多统计函数推出实例介绍和使用展示,敬请期待。

参考内容:

《Apache Kylin 的 Top-N 近似预计算》

①:函数类型之一,用于计算数据的K百分位点及该点上的数值。该数值称为“分位数”


关于 Kyligence

Kyligence (上海跬智信息技术有限公司)由首个来自中国的 Apache 软件基金会顶级开源项目 Apache Kylin 核心团队组建,是专注于大数据分析领域创新的数据科技公司。Kyligence 提供基于 Apache Kylin 的企业级智能大数据分析产品 Kyligence Enterprise及云计算产品 Kyligence Cloud。目前,Kyligence 已赢得了海内外多家保险、证券、电信、制造、零售、广告等行业的企业级客户,包括华为、中国联通、OPPO、上汽集团、太平洋保险集团、中国银联、国泰君安、欣和等行业领导者。公司总部在上海,同时,在北京、深圳等地设有办事机构, 在美国硅谷设有分公司,目前,已获得来自红点中国、思科、宽带资本、顺为资本及斯道资本(富达国际自有投资机构)等投资机构的多轮投资。

更多大数据洞察,欢迎来 Kyligence 官网

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 219,753评论 6 508
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,668评论 3 396
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 166,090评论 0 356
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 59,010评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 68,054评论 6 395
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,806评论 1 308
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,484评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,380评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,873评论 1 319
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,021评论 3 338
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,158评论 1 352
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,838评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,499评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,044评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,159评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,449评论 3 374
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,136评论 2 356

推荐阅读更多精彩内容