描述统计

描述性统计分析要对调查总体所有变量的有关数据做统计行描述,找到反映数据分布特征的各个代表值,主要包括数据的集中趋势分析(均值、中位数、四分位数、众数)、数据离散程度分析(异众比率、四分位差、极差、平均差、方差、标准差、离散系数)、数据分布(偏态、峰态)。
描述性统计量.png
集中趋势

集中趋势是指一组数据想某一中心值靠拢的程度,反映了一组数据中心点的位置。

分类数据

众数是一组数据中出现次数最多的变量值,主要用于测度分类数据的集中趋势,也可以作为顺序数据以及数值型数据集中趋势的测度值。一般情况下,只有在数据量较大的情况下众数才有意义。众数是一组数据分布的峰值,不受极端值影响,其缺点是具有不唯一性。

顺序数据

中位数是一组数据排序后出狱中间位置的变量值,主要用于测度顺序数据的集中趋势,也适用于数值型数据,但不适用于分类数据。中位数是一组数据中间位置的值,不受极端值影响。当一组数据的分布偏斜程度较大时,采用中位数衡量数据的集中趋势是一个较好的选择。
四分位数是一组数据排序后处于25%(下四分位数)和75%(上四分位数)位置上的值。

数值型数据

平均数(均值)是一组数据相加后除以数据个数的结果,主要适用于数值型数据,不适用于分类数据与顺序数据。平均数利用了全部数据信息,是应用最广泛的集中趋势测量值,但平均数容易受到极端数据的影响,因此当数据为偏态分布时,中位数或众数的代表性比平均数要好,而当数据呈对称分布或接近对称分布时,三个值相等或接近相等,应当选择平均数作为集中趋势的代表值。根据数据的 不同,平均数的计算可以分为简单平均数加权平均数几何平均数
简单平均数:根据未分组数据计算的平均数。

简单平均数.png

加权平均数
加权平均数.png

几何平均数:适用于变量值本身是比率形式时,主要用于计算平均比率。实际应用中,集合平均数主要用于计算现象份平均增长率。
几何平均数.png

离散程度

离散程度反映的是各变量值远离中心值的程度。数据的离散程度越大,集中趋势的测量值对该组数据的代表性越差。

分类数据

异众比率:指非众数组的频数占总频数的比例,主要被用来衡量众数对一组数据的代表程度。适合用来测量分类数据的离散程度,也可以用于测量顺序数据和数值型数据的离散程度。

顺序数据

四分位差 (内距):反映了中间50%数据的离散程度。此外,由于中位数在数据的中间位置,因此四分位差的大小在一定程度上说明中位数对一组数据的代表程度。适合用于测量顺序数据的离散程度。

数值型数据

极差 (全距):一组数据的最大值与最小值的差,容易受到极端值影响,是最简单描述数据离散程度的测量值,不能准确描述数据的离散程度。
平均差 (平均绝对离差):指一组数据各个变量与其平均数离差绝对值的平均数。反映了每个数据与平均数的平均差异程度,能全面准确地反映一组数据的离散程度。
方差:指各变量值与其平均数离差平方的平均数。样本量减一得到自由度,样本方差是用离差平方和除以自由度。方差是没有量纲的。

方差.png

标准差:方差的平方根。标准差有量纲,与变量值的计量单位一致,因此实际意义比方差清楚。实际分析中更多地使用标准差。
image-20210319131717795.png

方差和标准差能较好的反映数据的离散程度,是应用最广泛的测量值。

相对离散程度

方差与标准差反映的是数据的离散程度的绝对值,当比较平均水平不同或计量单位不同的组别间的变量值,不能用标准差直接比较其离散程度,需要计算离散系数。
离散(变异)系数:是一组数据的标准差与其相应的平均数的比值,主要用于比较不同样本数据的离散程度。

分布形状
偏态

偏态是对数据分布对称性的测度。其统计量是偏态系数。
未分组数据的偏态系数计算:

未分组偏态.png

分组数据的偏态系数计算:
分组偏态.png

当分布对称时,SK=0;当SK为正值时,判断为正偏或右偏;当SK为负值时,判断为负偏或左偏。

峰态

峰态是对数据分布平峰或尖峰的测度,测度峰态的统计量是峰态系数。
未分组数据的峰态系数计算:

未分组峰态.png

分组数据的峰态系数计算:
分组峰态.png

用峰态系数说明分布的尖峰和扁平的程度,是通过与标准正态分布的峰态系数进行比较来实现的。由于正态分布的峰态系数为0,当K>0时为尖峰分布,数据的分布更集中;当K<0时为扁平分布,数据的分布越分散。

会员到期了,没有定时发布了,就现在吧。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 217,406评论 6 503
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,732评论 3 393
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 163,711评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,380评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,432评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,301评论 1 301
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,145评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,008评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,443评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,649评论 3 334
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,795评论 1 347
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,501评论 5 345
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,119评论 3 328
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,731评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,865评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,899评论 2 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,724评论 2 354

推荐阅读更多精彩内容

  • 最近在公众号认识大V居士老师,最初说要组织人一起系统学习数据挖掘,其中涉及统计+机器学习的理论基础。赶着这么好的机...
    蓝莲花zx阅读 1,266评论 0 6
  • 描述统计是数据模式的概要描述,用于描述来自于一个实验参与者或更经常是不同的几组参与者的数据。 心理学是如何使用描述...
    今谨晋阅读 738评论 0 1
  • 概括 变量类型 数据类型可以分为分类和数值。进一步,我们可以将数值变量分为连续或离散。我们还发现我们可以将分类变量...
    赵阳_c149阅读 862评论 0 5
  • 基本概念 统计是对数据进行收集、分析、展示和解读的科学和艺术,这句话听起来很高深,但其实也没必要非要把统计想得过于...
    拓季阅读 10,806评论 0 6
  • 一、描述统计并不是只有平均数 我们经常会自嘲自己总是被各种指标平均,比如我和中国首富平均几百亿资产。而实际在工作中...
    赵重楼阅读 169评论 0 0