描述性统计分析

1. 直方图

        直方图:图像由一批长方形构成,通过长方形的面积或高度来代表对应组在数据中所占的比例。

        直方图有两种类型:当用长方形的面积代表对应组的频数与组距的比时,则称为频率分布直方图;当用长方形的高代表对应组的频数时,则称为频数分布直方图。

        观看直方图的关键是看区间对应面积的大小。

        直方图的画法包括散步:第一步对数据进行分区;第二步画一条水平轴;第三步画长方形。在进行分区是,找出给定数据的最大值和最小值,然后根据最大值和最小值设计出合理的等距区间。

        由于小组区间的面积为区间所占总数的百分比,因此在计算小组区间的长方形的高度时,应将百分数除以区间的长度,由此绘制出来的所有长方形的面积之和为1,其对应的刻度称为密度尺度,绘制在直方图的左边。

2. 数据的计量尺度

        数据的计量尺度是指对计量对象量化是采用的具体标准,它分为四类:定类尺度、定序尺度、定距尺度和定比尺度。

数据的计量尺度

3. 数据的集中趋势

        集中趋势在统计学中是指一组数据向某一中心值靠拢的程度,它反映了一组数据中心点的所在的位置。集中趋势测度就是寻找数据水平的代表值或中心值。在数据量大的情况下,就需要有一些确切的指标来表明其整体状态。

        平均数是描述定量数据的集中趋势,主要适用于定量数据,而不适用于定性数据。平均数的计算形式和计算公式主要包括简单算术平均数、加权算法平均数和几何算法平均数等。平均数容易受极端值影响,随着极端值的变化而变化,而且有向极端值靠近的趋势。为了消除极端值对平均数的影响也可以根据实际情况去掉极端值。

        分位数是一种比较常用的数据探索性分析的指标,它的适用范围较广,既适合顺序数据,也适合定量数据。它是指介于最大值和最小值之间的一个数值,它使得数据的一部分观察值小于或等于它,另一部分的观察值大于或等于它。常见的分位数有百分位数、四分位数和中位数等。

        众数是描述分类数据的集中趋势最常用的一种测度值,它主要适用于分类数据,当然也适用于顺序数据及定量数据。一般只有在数据量较大的情况下,众数才有意义。

4. 数据的离中趋势

        离中趋势在统计学中是指一组数据在某一中心值分散的程度,它反映了各个数据远离其中心点的程度,并且从另一个方面说明了集中趋势测度值的代表程度。描述数据离散程度采用的测度值,根据所依据数据类型的不同主要有极差、分位距、平均差、方差、标准差和离散系数。

        极差(也叫全距)是一组数据中的最大值于最小值的差距。用公式表示为:

                                                极差 = 最大值 - 最小值

如果统计数据已经整理过,并形成组距数列,则极差的近似值为:

                                                极差 = 最大组的上线 - 最小组的下限

在实际的应用中,极差可用于粗略检查产品质量的稳定性和进行质量控制。

        分位距是对全距地一种改进,它是从一组数据中剔除了一部分极端值之后重新计算的类似于全距的指标。

                                 四分位距 = 第三个四分位数 - 第一个四分位数

数组:[7,6,8,9,8,4,8,6],求四分位距。

解答:升序排序:[4,6,6,7,8,8,8,9],

四等分:[4,6][6,7][8,8][8,9],

四分位数:第一个=(6+6)÷2=6,第二个=(7+8)÷2=7.5,第三个 =(8+8)÷2=8,

四分位距:8 - 6 = 2。

        平均差是数据组中各数据值与其算术平均数离差绝对值的算术平均数,常用符号“M.D”。

                                                          M.D =  \frac{\sum\nolimits_{}\vert x - \bar{x}  \vert  }{n}

平均差是根据数列中所有数值计算出来的,受极端值影响较小,所以对整个统计数列的离中趋势有较充分的代表性。

        方差是数据组中各数据值与其算术平均数离差平方的算术平均数,用符号“s^2 表示。方差的平方根就是标准差,用符号“s”表示。

                                                            s=\sqrt{\frac{\sum_{i=1}^n(x-\bar{x} )^2  }{n} }

标准差的性质:

(1)标准差度量了偏离平均数的大小。

(2)标准差是一类平均偏差。

(3)标准差指出了数列中的数离他们的平均数有多远

        离散系数是指数据组相对离中程度的指标,用来衡量数据组的离中程度。常用的离散系数指标是标准差系数

        标准差系数是将一组数据的标准差与其算术平均数对比的结果,以测定其相对离中程度,常用符号“V_{s} ”表示。

                                                            V_{s} =\frac{s}{\bar{x} } \times 100 \%

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 218,640评论 6 507
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,254评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 165,011评论 0 355
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,755评论 1 294
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,774评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,610评论 1 305
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,352评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,257评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,717评论 1 315
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,894评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,021评论 1 350
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,735评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,354评论 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,936评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,054评论 1 270
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,224评论 3 371
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,974评论 2 355

推荐阅读更多精彩内容