[学习]写在第一周之描述性统计

[学习]写在第一周之描述性统计


偶然间从朋友圈得知居士的公众号,然后进入了数据学习小组,觉得这是一个很好的学习形式和契机。跟着一群有学习热情的人,一起学习和分享这个应该是最好的学习形式了,虽然我自己没有办法保证我一定能够坚持学下去,但是我希望能够利用这个机会建立和从别的人身上学习一些良好的学习习惯,这个是会很受益的。

第一周来学习一些描述性统计。

虽然都是一些非常基础的概念,但是在具体的业务中针对不同的场景应该会有不同的理解。

思维导图先上。

1.数据集中趋势

众数不一定只有一个,可能存在好几个。

中位数是特殊的分位数,也就是二分位数。中位数计算要考虑奇偶数。

平均数应该包括简单平均数,加权平均数,几何平均数,调和平均数。

给个平均数的例题给大家参考

假如你去登山,以6千米/小时的速度上山,以4千米/小时的速度原路下山,求上、下山的平均速度。这个就是典型的调和平均数计算。

众数(适用于分类、顺序、数值型数据)

不受极端值影响

具有不惟一性----出现次数最多的那个

数据分布偏斜程度较大时应用

中位数(适用于顺序、数值型数据)

不受极端值影响----数到中间那个

数据分布偏斜程度较大时应用

平均数(适用于数值型数据)

易受极端值影响

数学性质优良----平衡跷跷板的那个

数据对称分布或接近对称分布时应用

2.数据离散程度

异众比率:非众数组的频数占总频数的比率

用于衡量众数的代表性: 其值越小,众数的代表性越好。

四分位差:上四分位数与下四分位数之差,用于衡量中位数的代表性。

极差:一组数据的最大值与最小值之差,易受极端值影响。

方差与标准差:数据离散程度的最常用测度值,反映了各变量值与均值的平均差异。

要注意样本方差与总体方差的区别。

自由度的概念,附上一个知乎的链接,讲的很容易懂。

为什么样本方差(sample variance)的分母是 n-1?

标准分数:便于对不同变量的值进行对比,用于对变量的标准化处理。计算公式如下:

Z_{i} =\frac{x_{i} -\tilde{x} }{s}

离散系数:标准差与其相应的均值之比,对数据相对离散程度的测度,消除了数据水平高低和计量单位的影响。

离散系数计算公式为:

V_{s} =\frac{s}{\bar{x} }

V越大,说明标准差占均值的比重越大,数据越分散。


3.数据分布形态

用来形容数据分布形态比较常见的就是偏态系数和峰态系数,这两个的公式比较复杂,在需要使用的时候可以自行查找。记住偏态是三次方,峰态是四次方。


偏态系数

偏态系数= 0  为 对称 分布

        偏态系数> 0 为 右偏 分布

        偏态系数< 0 为 左偏 分布


关于偏态,大家常说的“长尾”效应我个人理解是跟偏态有关的,应该是一个偏态系数较大的右偏分布,当尾巴朝向哪边,就是哪边的偏分布。

附上一个常见的长尾分布图


峰态系数

        峰态系数= 0  为峰度适中。

        峰态系数< 0 为 扁平 分布。

         峰态系数> 0  为 尖峰 分布。系数越大,形状越尖。


以上就是这一周关于描述性统计的基础知识,主要还是把以前上课的知识拿出来回顾了一下,真正的理解这些概念,在以后活学活用还是需要一定的操练,并且运用工具来实现它。

祝各位周末愉快,学习不止!


PRECIOUS!

Adam

2019-07-21

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 写在前面的话 平静心湖起涟漪,开始新的挑战。我会根据每周工作繁忙程度来完成作业,时间充裕的时候尽量高质量完成...
    鱼百里阅读 5,054评论 0 0
  • 最近加入一个数据挖掘学习小组,热心的群主制定了一个详细的每周学习计划,分为统计学和机器学习两大知识点。学习完要提交...
    诺馨阅读 5,790评论 0 6
  • 理论篇 数据的集中趋势众数数据集合中出现次数最多的数为众数,可能不止一个数值。中位数对于数据集合,按照从小到大或从...
    evanzh7阅读 4,021评论 0 0
  • 数据的集中趋势 众数 是一组数据中出现次数最多的数值,有可能没有也有可能有多个。 中位数 中位数,又称中点数,中值...
    当_下阅读 10,910评论 5 8
  • 0x00 前言 参加居士的数据挖掘学习小组,按周产出笔记,这周的学习内容是 【数据的描述性统计】,按照居士的推荐,...
    曹操a阅读 4,170评论 0 0