描述性统计分析

1. 直方图

        直方图:图像由一批长方形构成,通过长方形的面积或高度来代表对应组在数据中所占的比例。

        直方图有两种类型:当用长方形的面积代表对应组的频数与组距的比时,则称为频率分布直方图;当用长方形的高代表对应组的频数时,则称为频数分布直方图。

        观看直方图的关键是看区间对应面积的大小。

        直方图的画法包括散步:第一步对数据进行分区;第二步画一条水平轴;第三步画长方形。在进行分区是,找出给定数据的最大值和最小值,然后根据最大值和最小值设计出合理的等距区间。

        由于小组区间的面积为区间所占总数的百分比,因此在计算小组区间的长方形的高度时,应将百分数除以区间的长度,由此绘制出来的所有长方形的面积之和为1,其对应的刻度称为密度尺度,绘制在直方图的左边。

2. 数据的计量尺度

        数据的计量尺度是指对计量对象量化是采用的具体标准,它分为四类:定类尺度、定序尺度、定距尺度和定比尺度。

数据的计量尺度

3. 数据的集中趋势

        集中趋势在统计学中是指一组数据向某一中心值靠拢的程度,它反映了一组数据中心点的所在的位置。集中趋势测度就是寻找数据水平的代表值或中心值。在数据量大的情况下,就需要有一些确切的指标来表明其整体状态。

        平均数是描述定量数据的集中趋势,主要适用于定量数据,而不适用于定性数据。平均数的计算形式和计算公式主要包括简单算术平均数、加权算法平均数和几何算法平均数等。平均数容易受极端值影响,随着极端值的变化而变化,而且有向极端值靠近的趋势。为了消除极端值对平均数的影响也可以根据实际情况去掉极端值。

        分位数是一种比较常用的数据探索性分析的指标,它的适用范围较广,既适合顺序数据,也适合定量数据。它是指介于最大值和最小值之间的一个数值,它使得数据的一部分观察值小于或等于它,另一部分的观察值大于或等于它。常见的分位数有百分位数、四分位数和中位数等。

        众数是描述分类数据的集中趋势最常用的一种测度值,它主要适用于分类数据,当然也适用于顺序数据及定量数据。一般只有在数据量较大的情况下,众数才有意义。

4. 数据的离中趋势

        离中趋势在统计学中是指一组数据在某一中心值分散的程度,它反映了各个数据远离其中心点的程度,并且从另一个方面说明了集中趋势测度值的代表程度。描述数据离散程度采用的测度值,根据所依据数据类型的不同主要有极差、分位距、平均差、方差、标准差和离散系数。

        极差(也叫全距)是一组数据中的最大值于最小值的差距。用公式表示为:

                                                极差 = 最大值 - 最小值

如果统计数据已经整理过,并形成组距数列,则极差的近似值为:

                                                极差 = 最大组的上线 - 最小组的下限

在实际的应用中,极差可用于粗略检查产品质量的稳定性和进行质量控制。

        分位距是对全距地一种改进,它是从一组数据中剔除了一部分极端值之后重新计算的类似于全距的指标。

                                 四分位距 = 第三个四分位数 - 第一个四分位数

数组:[7,6,8,9,8,4,8,6],求四分位距。

解答:升序排序:[4,6,6,7,8,8,8,9],

四等分:[4,6][6,7][8,8][8,9],

四分位数:第一个=(6+6)÷2=6,第二个=(7+8)÷2=7.5,第三个 =(8+8)÷2=8,

四分位距:8 - 6 = 2。

        平均差是数据组中各数据值与其算术平均数离差绝对值的算术平均数,常用符号“M.D”。

                                                          M.D =  \frac{\sum\nolimits_{}\vert x - \bar{x}  \vert  }{n}

平均差是根据数列中所有数值计算出来的,受极端值影响较小,所以对整个统计数列的离中趋势有较充分的代表性。

        方差是数据组中各数据值与其算术平均数离差平方的算术平均数,用符号“s^2 表示。方差的平方根就是标准差,用符号“s”表示。

                                                            s=\sqrt{\frac{\sum_{i=1}^n(x-\bar{x} )^2  }{n} }

标准差的性质:

(1)标准差度量了偏离平均数的大小。

(2)标准差是一类平均偏差。

(3)标准差指出了数列中的数离他们的平均数有多远

        离散系数是指数据组相对离中程度的指标,用来衡量数据组的离中程度。常用的离散系数指标是标准差系数

        标准差系数是将一组数据的标准差与其算术平均数对比的结果,以测定其相对离中程度,常用符号“V_{s} ”表示。

                                                            V_{s} =\frac{s}{\bar{x} } \times 100 \%

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容