数据分析小结

一、方法论

想明白核心的目标是什么,不妨在纸上写写画画,梳理问题,很有效的。

先看时点,再看趋势;先看整体,再看结构;先看存量,再看增量。

拆解是十分重要的,类似于军训中的动作拆解,可以明确定位问题。

更加深入的去思考二阶问题,寻找最根本的问题,不要停留在表面的问题和分析,找到源头。

事无定法。

二、数据校验

数据分析,最怕的就是基础数据取错,瞎分析。

第二怕的就是根据观点去分析,用各种口径统计数据迎合观点,再去做业务决策。

a. limit 100原则:如果产出的数据中有流水,明细等数据,最好select * from tablename limit 100看看。这虽然是个简单的技巧,但好多人经常是急急忙忙接需求,匆匆跑数,然后就把数据发出去了。如果运算逻辑或者方法有问题,limit 100兴许就能命中一些问题数据,让开发人员一眼就看出问题。

b. null 值检查:这也是简单的where语句就能搞定的,null值未必意味着不合理,但要给出合理的解释

c. order by检查:有时候问题数据经常是出现在最大最小值或者topN数据,一个order by 语句,可能就能看出数据明显不合理的地方。

d. 字段间的关联关系检查:有一个案例,让我至今印象深刻,有两个数据字段,其中一个是过去1周的最大值,另一个字段是过去一个月的最大值,而算出来居然是过去一周的最大值比过去一个月的最大值大,这怎么可能,自己稍微用点心就能检查出这种错误,也就是一个sql语句就能搞定的事情。

e. 数值分布检查:某个数值字段可能就取几个值,当值的分布与常理相悖的时候,大概率是出了问题,比如要统计某视频app用户的收看时长,如果发现大多数人的日均观看时长都超过2个小时,这可能就有问题了;又比如,比例类的字段超过100%,不符合业务含义。

可以通过统计量快速了解数据的分布,及所反映的业务情况。

三、避坑指南

数据分析的结论是有适用条件的,不同的信贷产品、特定时期的宏观环境、客群等,未必通用,把分析结论当教条使用、决策,是风险部门的风险

从方法论中可以看到,其实数据分析的核心就是比较,数据要比较才有意义,而比较的基础在于数据的可比性。

至于结论是否靠谱,类似于模型验证,时段外,根据新的数据进行判断,并及时迭代分析。

不要急,一个问题翻来覆去的想,想上它两三个小时;特别是睡过一觉,第二天清早会有新的思路,是极好的。

不要想当然,骄兵必败。可以培养对数据的敏感性,知道合理的数据范围,多思考数据的业务含义,也可以发现问题。

附,参考资料:

1、如何保证生成数据正确性,https://zhuanlan.zhihu.com/p/76583297

2、如何用数据解决实际问题,[日] 柏木吉基

3、简单统计学

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容