4.差异性

箱线图和IQR

箱线图(Box Plot):是由一组数据的最大值(maximum),最小值(minimum),中位数(median),两个四分位数(quartiles)这五个特征值绘制而成的,它主要用于反映原始数据分布的特征,还可以进行多组数据分布特征的比较。

四分位距(interquartile range,IQR):又称四分差,是第三四分位数和第一四分位数之间的距离。其计算公式为:

四分位距反映了中间50%数据的离散程度,其数值越小,说明中间的数据越集中;其数值越大,说明中间的数据越分散。


离群值(Outlier):是指数据中一个或几个数值与其他数值相比差异较大的值。可以通过IQR来识别离群值,我们可以定义离群值以外的观测值范围为:


方差与标准差

方差(Varlance):是各变量值与其平均数离散差平方的平均数。计算公式为

标准差(Standard Deviation):方差的平方根

在正态分布中,65%的数据介于均值减去一个标准差和均值加上一个标准差之间,95%的数据介于均值减去两个标准差和均值加上两个标准差之间,99.7%的数据介于均值减去3个标准差和均值加上三个标准差之间。


贝塞尔校正(Bessel's Correction):在统计学中,贝塞尔校正是在样本的方差和标准差的公式中用n-1来代替n。这个方法校正了样本方差/样本标准差,与总体方差/样本标准差之间的误差。即样本方差公式为:

image.png

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

  • 按照用途分类出以下统计函数: AVEDEV 用途:返回一组数据与其平均值的绝对偏差的平均值,该函数可以评测数据(例...
    四方院祭司阅读 8,062评论 0 3
  • 《数据分析的统计基础》的读书笔记 作 者:经管之家、曹正凤 出版社:电子工业出版社 版 次:2015年2月第1...
    格式化_001阅读 13,557评论 1 58
  • Activity 一、四种形态 运行状态: 当 Activity 处于栈的顶层,可见,并可与用户进行交互 onRe...
    任教主来也阅读 5,784评论 1 10
  • 雨一直下,连着下了好多天了。 雨一直下,今天早上看到了一点阳光便以为天会放晴。没想到只是中间休息一下,让太阳出来透...
    梦里诗阅读 1,540评论 0 0
  • 文/呼呼 我已经十几年没有再投稿了,时隔十多年依然恍然如梦。和上次没什么不同,冰冷的城市里,温暖自己的身体。热闹的...
    心里有只猫阅读 3,003评论 0 0

友情链接更多精彩内容