数据挖掘01-描述性统计

小白入门数据挖掘,从零开始,每周一更


01 数据集中趋势度量

  1. 众数

    • 是一组数据中出现次数最多的数值,有可能没有也有可能有多个

    • 用众数代表一组数据,可靠性较差;不过众数不受极端数据的影响,并且求法简便

  2. 中位数

    • 是按顺序排列的一组数据中居于中间位置的数

    • 如果是这组数据是奇数个数,则为中间那个数,如果是偶数个数,则为中间那两个数的平均数

    • 中位数是以它在所有标志值中所处的位置确定的全体单位标志值的代表值,不受分布数列的极大或极小值影响,从而在一定程度上提高了中位数对分布数列的代表性

  3. 平均数

    • 是数据中各观测值相对集中较多的中心位置
  4. 算数平均数

    • 它是一组数据之和,除以这组数据个数or项数

    • 优点,就是它较中位数、众数更少受到随机因素影响

    • 缺点,是它更容易受到极端值影响

算术平均数公式
  1. 几何平均数

    • 通过使用它们的值的乘积来指示一组数字的集中趋势或典型值

    • 多用于流程转化中的平均,比如多步骤的转化率求平均值

几何平均数公式
  1. 加权平均数

    • 数据中的每个点对于平均数的贡献并不是相等的,有些点要比其他的点更加重要

    • 加权平均数十分常见,此处不多介绍,额外提出一个有意思的理论-辛普森悖论

      加权算数平均数公式

  2. 分位数

    • 是指用分割点将一个随机变量的概率分布范围分为几个具有相同概率的连续区间

    • 箱线图的数据基础就是分位数,通常超过1和3分位的差值成为四分位距(IQR),而超出Q1和Q3的1.5+IQR部分,称为异常点。

箱线图

02 数据离散趋势度量

  1. 数值型数据

    • 方差,度量随机变量和其数学期望(即均值)之间的偏离程度

      • 如果所有变量+常数,方差不变Var(X + a) = Var(X)

      • 如果所有变量*常数,方差变大Var(aX) = a^2Var(X)

    • 标准差,方差的开方,可与平均值同单位比较

    • 平均差,各个变量值同平均数的离差绝对值的算术平均数

  2. 顺序数据

    • 上述的分位数,通常用(Q1-1.5IQR,Q3+1.5IQR)范围衡量数据健康范围
  3. 分类数据

    • 异众比率,是总体中非众数次数与总体全部次数之比。

    • 换句话说,异众比率指非众数组的频数占总频数的比例


03 相对离散度量

  1. 离散系数

    • 定义为标准差平均值之比
    离散系数计算公式
    • 在两组样本均值不同时,比较离散系数好于标准差

    • 平均值接近于0的时候,微小的扰动也会对变异系数产生巨大影响,因此造成精确度不足


04 分布的形状

  1. 偏态系数

    • 偏态系数以平均值中位数之差对标准差之比率来衡量偏斜的程度

      偏态系数公式

    • 偏态系数小于 0,因为平均数在众数之左,是一种左偏的分布,又称为负偏。

    • 偏态系数大于 0,因为均值在众数之右,是一种右偏的分布,又称为正偏

    • 描述:偏态系数是根据众数中位数均值各自的性质,通过比较众数或中位数与均值来衡量偏斜度的,即偏态系数是对分布偏斜方向和程度的刻画

    • 偏态系数的绝对数值越小,表示数据偏倚的程度越小;偏态系数的绝对数值越大,表示数据偏倚的程度越大

  2. 峰态系数

    • 是对数据分布平峰或尖峰程度的测度

    • 峰态系数就是概率分布函数中,与众数概率的高低有直接关系,众数概率越高,峰态系数越大

    • 正态分布的峰态系数是 3,常常计算出来的峰态系数会跟 3 作比较,如果小于 3 则具有不足的峰度,如果大于 3 则具有过度的峰度。反正理解为大于 3 比正态分布的更尖

    • 在相同的标准差下,峰度系数越大,分布就有更多的极端值


Day Day Up~

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,189评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,577评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,857评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,703评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,705评论 5 366
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,620评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,995评论 3 396
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,656评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,898评论 1 298
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,639评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,720评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,395评论 4 319
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,982评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,953评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,195评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,907评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,472评论 2 342