《大数据时代的统计学思维》

看了《大数据时代的统计学思维》(作者刘强),给这本书打4颗星。因为作者不是从统计学的知识点开始逐个讲起,而是从生活中的很多实例入手来讲解用到的统计学理论,这样的好处是读者不会觉得枯燥,而且容易理解。
接下来,将根据自己的理解和体会,来跟大家分享这本书里提到的一些统计知识点,希望能对大家有所帮助。
----------------------------------知识点总结-----------------------------------
1、 数据可分为三大类:分类数据、顺序数据、数值型数据。
一说到数据,我们想到的往往是数值型。比如去应聘某岗位,我们会关注工资多少、几点上下班等。在美团上订餐,我们会关注商家距离远近、商家的评分等。这些都是数值型数据。
除了数值型数据,分类数据也很常见。比如打开淘宝,我们可以看到商品分类:衣服、鞋包、食品、图书等。这些也是数据。
此外,还有一种数据,如春夏秋冬、早中晚、前后左右等,存在某种顺序规律的数据。
2、数据的好处:准确客观、给予反馈。
比如我们说某个人很高,每个人对高的定义是不一样的,在沟通中会产生很大误差。如果说某个人180cm,那么就比较客观准确了。
众所周知,减肥是一件很辛苦的事情,需要每天坚持,如果不用体重称每天称一下重量,看到数字变化,恐怕我们很难坚持下来。每天体重的微小变化,是让我们每天坚持下去的动力。
3、根据来源,可以把数据分为一手数据和二手数据。
获取一手数据的方式有调查和实验两种,一手数据非常重要性。
二手数据可以通过网络、报纸、期刊获得,但是需要亲自辨别数据的真伪。如果不加辨别的使用二手数据,可能会带来很多问题。比如我们在网上看到的商家好评数量,一定是真实的吗?不是的,很多都是商家为了忽悠消费者而编造的假数据,商家正是利用了很多消费者不加分辨的相信二手数据这一点,赚得盆满钵满。
4、权重。
举个最近在工作中遇到的例子,比如定义某K歌软件的热搜排序。初步定义热搜相关的因素有搜索次数(反映伴奏搜索量的多少)、点击转化率(反映搜索伴奏后的演唱意愿)。根据实际业务数据等其他限制,得出热搜排名的总分=搜索次数+1000x昨天点击转化率。这里就给搜索次数和点击转化率赋予了不同权重,来保证热搜排序规则的体验和合理性。
5、不要迷信数据。
数据有所能有所不能,它可以说明问题,也可以掩盖问题。比如某培训班报名人数很多,并不能跟该培训班教学质量高划等号,很可能是该培训班的营销做得好。
6、抽样:简单抽样、分层抽样。
在实际业务场景中,可以灵活采用抽样方法,但是不管怎么抽样,目的都是为了让样本尽可能跟总体相似。
7、相关性。
研究不同变量之间的关系,叫相关性。比如学习绩好和投入的学习时间呈现一定的相关性。可能存在一些偶然因素导致两者不是必然相关,但是不必钻牛角尖,只考虑通常情况即可。
用X和Y来表示统计数据中两个不同的变量,用r表示他们之间的皮尔逊相关系数。
【插入图片无法显示】
除了通过相关系数计算公式,还可以通过散点图来展示两个变量之间的相关程度。
【插入图片无法显示】
需要说明的一点是,两者是相关关系并不意味着是因果关系,因此在实际业务场景中,要对相关关系做出充分的论证和合理的解释之后,才可能会明确因果关系。比如,在K歌软件中,发现进过歌房的新用户比随便看看的新用户留存要高,那么是否要在新用户一进入APP,就引导用户进入歌房呢?当然不可以,因为这部分用户留存高的真正原因并没有找到,他们留存高的原因可能不是因为进了歌房,可能是因为他们本身目的明确所以留存高,或者进歌房的这部分新用户是朋友邀请来歌房玩的导致留存高,还可能有很多其他因素,需要多方数据验证才能下结论。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容