文/恰恰天蓝
1
我本人十分喜欢摆弄数据,但从来没有如『城市数据团』这么深入过,原来数据是如此好玩有趣,且有意义。
一路读来,还算轻松有趣,写作的口吻有很大的戏谑成分,且排版编辑,数据复核处有些许错误(如P116),似乎极不严谨,给予本书不好的印象,但读到末尾,作者对此情节有所交代,原来是被逼的!
因此我对书中的结论大多数呈怀疑态度,这其中夹杂着多种因素,姑且不去考虑我的个人认知问题,因其书中数据来源,指标设计,推理过程等的复杂性,有些结论我还是选择不能完全认同。
毕竟,城市数据团是一帮上班族和在校生的数据爱好者聚在一起利用业余时间来做的,加之数据的来源他们无从把握,所以其完整性、可靠性必然大打折扣。
难能可贵的是,一般年轻人无功利的做这件事,我的鼓励多过苛责,这是一拨有责任感无私的人。用进化的眼光看,他们会学习成长,会迭代更新,定会越来越好。同时,我也能看到业余社团(非技术不专业)的参与社会管理的力量,这迫使ZF与民间更多、更好地互动和良性沟通,其实ZF也不要怕民众(称蛮流),民众也不要怕ZF(阴谋陷害),随着社会的发展,公共事务的透明化是一个趋势,一件事情好与不好,信与不信,不会再是『至于你们信不信,我反正信了』。
此路不通,会开辟新路。分享传递,引发关注、讨论,参与精进。
城市数据团好样的!
2
数据分析和文章创作的方法
一、数据分析和写作流程
首先,选择大致的研究方向。综合考虑研究需求、时效性、趣味性和可行性。
第二,列出可能用到的数据和研究方法,并通过各种渠道获取数据。接着,对数据进行预处理。包括数据清新、数据集成、数据变换、数据规约等。
第三,对总体情况进行简单统计,发掘和调整选题。目的是了解每一个数据字段的基本属性、频率分布、随着时间或地域的变化趋势,以及寻找多个字段间可能存在的交互影响,从而得到一些较为具体的、值得进一步研究的选题。逐一分析每个题目,进行取舍。
第四,梳理逻辑,精炼结论,撰写文章。注意,文章撰写和数据分析就相辅相成、同时进行的。
二、数据类型(按数据来源)和获取方式
1、权威机构公开发布的数据。一般可从该机构网站或特定渠道获取;
2、互联网开饭数据。可以通过手动下载或爬虫爬取;
3、企业级数据。与企业合作获取;
4、调研数据。发起活动,向特定群体收集。
三、主要分析工具
Python;R、SAS、stata、matlab;arcGIS;Excel等。
四、分析方法
1、简单数理统计:数据标准化处理、平均值、分位数、方差、指标在时间和空间上的变化趋势比较等。
2、现有分析模型的应用:t-test、ANOVA、Correlation、Regression、Spatial Regression、PCA、Cluster、Decision Tree、SVM、Neural Network等。
3、自己设计指标。目的是帮助读者迅速理解文章想要表达的类容。
4、现有数学模型的改进或新模型的建立。
5、数据可视化。
3
精进之路(精华在附录)
一、最最重要的始终是热情和创意。
好的点子不常有,而能够表征这个点子的数据、分析这些数据的工具则比比皆是。
如果,我们有着用数据探究某个问题的愿望、有着基本的数据处理技能,那么就可以行动起来。
在数据分析过程中,思考问题、收集数据、整理分析、提出新问题、学习型技能等多个阶段总是交替出现的。
1、最最需要的,是一颗想要通过数据认识世界的心;
2、此次,是一个创造性的脑洞;
3、然后,是严谨的逻辑;
4、最后,才是数据和技术。
二、金句(结论)触发
1、什么都不懂就神经网络,什么都不会就遗传算法。
2、逛商场买买买所花掉的,始终只是小钱而已。真正能刷卡消费的,仍然是男人,更胜者是商场里看不到的老男人。
3、让更多的人聚集在一起,是人类发明城市的最重要的意义。
4、这是一个看脸的世界,丑,就得多学习。
5、我们这个时代早已不可逆转地走向二次元(我的理解:动漫和游戏,也就是虚拟)化了。
6、学区房,是一个彻头彻尾的市场问题。
4
经典案例
一、区域性适龄劳动人口数据决定城市兴衰,大城市的抽血功能。
对于『年轻人总在犹豫,回归家乡惬意小城镇,还是奔赴(北上广深类)大都市』的结论:假如你最终选择留在一个生活安逸风景如画的小城镇上,你也许会幸福地过完一生;但在你的子女到了你这个年纪的时候,很可能他们有且只有一个选择,那就是奔赴大城市。
二、餐馆更容易活下来的选址条件(条件设置):
1、很多人都住(常住人口多)在这里;
2、很多人都在这里工作(就业人口多);
3、交通很方便;
4、尽量保证这个地区至少有一部分人爱吃的(多样性高);
5、周边现有的类似餐馆还不太多(竞争性弱)。
三、快捷酒店的选址(瞬间最优解罢了):
1、酒店周边有常住人口——探亲访友的目标源;
2、酒店周边有企业客户——商务出行和部分员工亲友访客的目标源;
3、酒店附近的城市交通——方便的交通条件会扩大前两个要数的辐射能力(贵阳PL选址几何?)。
四、我们注定(大概率)过平庸的一生,如要逆袭建议(强者越强,弱者越弱):
1、需要找到那些稳居在金字塔顶尖的少数派,并和他们一起竞争;
2、需要找到处在风口浪尖的舞台,并承受昂贵的成本;
3、需要非常努力,还要更早努力且一直努力,否则可能一个闪失就再也没有任何机会了。
五、房价关系图
1、好工作机会越多的地方,房价越贵;
2、高级餐厅越多的地方,房价越贵;
3、所有的『学区房』单价都高于全区房单价;
4、租售比越远离市中心越离散,越靠近市中心则越收敛;中心城区的房屋价格中包含的功能性价值更强,郊区的房产更依赖投资性(或者叫预期性)价值。
5、国际经验:少于200个月(17年)能收回投资,说明该地区有较高的投资价值;而高于300个月(25年),则表示该地区有潜在的房地产泡沫风险。(2015年4月,北京的全市售租比中位数是555个月,即46年;上海522个月,43.5年;我看到网上2018年4 月最新数据是上海、深圳、广州、北京四座城市,分别需要54、52、50、49.5年,那么按某些人的推论,租金是否要再涨2-3倍呢?)