描述性统计分析之集中趋势分析

描述性统计分析是指通过图表或数学的方法,对数据资料进行整理、分析,并对数据的分布状态、数字特征和随机变量之间的关系进行估计和描述的方法。描述性分析主要有三大类:

1、集中趋势分析(平均数、中数、众数)

2、离中趋势分析(全距、四分差、平均差、方差、标准差)

3、相关分析(研究现象之间是否存在某种依存关系,并对具体有依存关系的现象进行其相关方向及相关程度的研究「相关系数=》回归方程」)

先讲第一类,集中趋势分析。

1、平均数

平均数是表示一组数据集中趋势的量数,是指在一组数据中所有数据之和在除以这组数据的个数。它反映数据集中趋势的一项指标。解答平均数应用题的关键在于确定“总数量”以及和总数量对应的总份数。在统计工作中,平均数和标准差是描述数据资料集中趋势和离散程度的两个最重要的测度值。

平均数是统计中的一个重要概念。小学数学里所讲的平均数一般是指算术平均数,也就是一组数据的和除以这组数据的个数所得的商。在统计中算术平均数常用于表示统计对象的一般水平,它是描述数据集中位置的一个统计量。既可以用它来反映一组数据的一般情况、和平均水平,也可以用它进行不同组数据的比较,以看出组与组之间的差别。用平均数表示一组数据的情况,有直观、简明的特点,所以在日常生活中经常用到,如平均速度、平均身高、平均产量、平均成绩等等。

(1)算术平均数

算术平均数是指在一组数据中所有数据之和再除以数据的个数。它是反映数据集中趋势的一项指标。

把n个数的总和除以n,所得的商叫做这n个数的算术平均数。

公式:

(2)几何平均数

n个观察值连乘积的n次方根就是几何平均数。根据资料的条件不同,几何平均数分为加权和不加权之分。

公式:

(3)加权平均数

加权平均数是不同比重数据的平均数,加权平均数就是把原始数据按照合理的比例来计算,若 n个数中,x1出现f1次,x2出现f2次,…,xk出现fk次,那么

叫做x1、x2、…、xk的加权平均数。f1、f2、…、fk是x1、x2、…、xk的权。

公式:

其中

f1、f2、…、fk叫做权(weight)。平均数是加权平均数的一种特殊情况,即各项的权相等时,加权平均数就是算术平均数。

2、中数

中数是按顺序排列在一起的一组数据中居于中间位置的数,即在这组数据中,有一半的数据比它大,有一半的数据比它小。

对一组数进行排序后,正中间的一个数(数字个数为奇数);或者中间两个数的平均数(数字个数为偶数)。这个数可能是数据中的某一个,也可能根本不是原有的数。中数是集中量数的一种,它能描述一组数据的典型情况。中数又名中位数。

3、众数

众数是一组数据中出现次数最多的数值,叫众数,有时众数在一组数中有好几个。用M表示。 理性理解:简单的说,就是一组数据中占比例最多的那个数。

平均数非常明显的优点之一是,它能够利用所有数据的特征,而且比较好算。另外,在数学上,平均数是使误差平方和达到最小的统计量,也就是说利用平均数代表数据,可以使二次损失最小。因此,平均数在数学中是一个常用的统计量。但是平均数也有不足之处,正是因为它利用了所有数据的信息,平均数容易受极端数据的影响。例如,在一个单位里,如果经理和副经理工资特别高,就会使得这个单位所有成员工资的平均水平也表现得很高,但事实上,除去经理和副经理之外,剩余所有人的平均工资并不是很高。这时,中位数和众数可能是刻画这个单位所有人员工资平均水平更合理的统计量。中位数和众数这两个统计量的特点都是能够避免极端数据,但缺点是没有完全利用数据所反映出来的信息。由于各个统计量有各自的特征,所以需要我们根据实际问题来选择合适的统计量。

当然,出现极端数据不一定用中位数,一般,统计上有一个方法,就要认为这个数据不是来源于这个总体的,因而把这个数据去掉。比如大家熟悉的跳水比赛评分,为什么要去掉一个最高分、一个最低分呢,就认为这两个分不是来源于这个总体,不能代表裁判的鉴赏力。于是去掉以后再求剩下数据的平均数。需要指出的是,我们处理的数据,大部分是对称的数据,数据符合或者近似符合正态分布。这时候,均值(平均数)、中位数和众数是一样的。只有在数据分布偏态(不对称)的情况下,才会出现均值、中位数和众数的区别。所以说,如果是正态的话,用哪个统计量都行。如果偏态的情况特别严重的话,可以用中位数。

除了需要刻画平均水平的统计量,统计中还有刻画数据波动情况的统计量。比如,平均数同样是5,它所代表的数据可能是1、3、5、7、9,可能是4、4.5、5、5.5、6。也就是说5所代表的不同组数据的波动情况是不一样的。怎样刻画数据的波动情况呢?很自然的想法就是用最大值减最小值,即求一组数据的极差。数学中还有方差、标准差等许多用来刻画数据特征的统计量。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,904评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,581评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,527评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,463评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,546评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,572评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,582评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,330评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,776评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,087评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,257评论 1 344
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,923评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,571评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,192评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,436评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,145评论 2 366
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,127评论 2 352

推荐阅读更多精彩内容

  • 《数据分析的统计基础》的读书笔记 作 者:经管之家、曹正凤 出版社:电子工业出版社 版 次:2015年2月第1...
    格式化_001阅读 9,556评论 1 58
  • 数据分析中总离不开统计学中的相关概念和方法,因而统计思维也是数据分析思维之一。在数据分析中,统计思维就是用统计的相...
    keeya阅读 9,374评论 1 16
  • 利用数据的图表展示数据,可以对数据的分布形状和特征有一个大致的了解。但是要全面的把握数据的分布特征,还需要找到反映...
    没有那么委屈阅读 2,454评论 0 4
  • 在研究数据整体的时候,统计特征可以有效的帮助我们快速了解数据。 集中量数和差异量数是描述数据的两种概念。 一:集中...
    rol_ling阅读 3,196评论 0 3
  • 越来越觉得周总结的重要性,瞬间这一周又过去了,仔细翻看微博和笔记本才记得这周的所行所事。 这一周看的电影比较多。 ...
    DL诺尔阅读 157评论 0 1