2021-11-18

概率论 统计学

常见数字特征

数学期望(均值)

在概率论和统计学中,数学期望(mean)(或均值,亦简称期望)是试验中每次可能结果的概率乘以其结果的总和,是最基本的数学特征之一。它反映随机变量平均取值的大小。其公式为:E(X)=\sum_{k=1}^ ∞x_{k} \times p_{k}   x_{k} :表示观察到随机变量X的样本的值。p_{k} :表示x_{k} 发生的概率。

数学期望反映的是平均水平。通过它,我们能够了解一个群体的平均水平(比如说,一个班平均成绩80)。但另外一个方面,它所包含的信息也是十分有限的,首先是个体信息被压缩了,其次如果单纯看期望的话,是看不出样本的数量。(平均成绩为80,在1人班和100人班的含义是不一样的),通过这个问题想说明,在刻画群体特征的时候,多个数字特征配合才能达到效果

方差

  方差(variance)是在概率论和统计方差衡量随机变量或一组数据时离散程度的度量。概率论中方差用来度量随机变量和其数学期望(即均值)之间的偏离程度。在许多实际问题中,研究方差即偏离程度有着重要意义。

  方差(D(X)或Var(X))计算公式如下:D(X)=Var(X)=E([X-E(X)]^2) X:表示随机变量。
E(X):表示X的期望。
D(X):是每个样本值与全体样本值的平均数之差的平方的平均数。

标准差

标准差也是用于衡量一组数据的离散程度的。公式如下,可以看出标准差(\sigma (X)表示)于随机变量X处于同一量纲下,这为X以及\sigma (X)在同一公式中计算提供了很好的支持。\sigma (X)=\sqrt{D(X)}  D(X):表示随机变量X的方差

标准差和均值的量纲(单位)是一致的,在描述一个波动范围时标准差比方差更方便。比如一个班男生的平均身高是170cm,标准差是10cm,那么方差就是100cm^2。可以进行的比较简便的描述是本班男生身高分布是170±10cm,方差就无法做到这点

  再举个例子,从正态分布中抽出的一个样本落在[μ-3σ, μ+3σ]这个范围内的概率是99.7%,也可以称为“正负3个标准差”。如果没有标准差这个概念,我们使用方差来描述这个范围就略微绕了一点。万一这个分布是有实际背景的,这个范围描述还要加上一个单位,这时候为了方便,人们就自然而然地将这个量单独提取出来了。

协方差

标准差,方差一般用来描述一维的,现实中我们遇到的大多是多维的,这时候虽然可以每一维独立计算出方差,但信息单一,这就引出协方差。前面一直在探讨单个随机变量(1维),但是事实上当我们考察一个群体的时候,往往事物的属性是多方面的(多维),这里只考察2维情况,形式如:(X,Y)(X,Y)的意思这类事物具有两个方面的属性,更进一步来说,一个样本有X,Y两方面的值,体现在数据库中,有两列(X列,Y列)。当X,Y这两个属性出现在同一类事物中的时候,我们很自然想到X,Y之间有某种关系,但是如何来刻画这种关系呢?(X,Y)是2维的,只考虑1维会无法从整体把握问题。而如果进行关联分析,有时候却需要对维度拆分来进行研究,这就引出了下面的协方差公式:Cov(X,Y)=E( [X-E(X)][Y-E(Y)] )Cov(X,Y):表示随机变量X,Y的协方差,2维因素
E(X),E(Y):分别表示随机变量X,Y的期望,1维因素

均值描述的是样本集合中平衡点,因为信息是有限的。

标准差描述的是样本集合中各个样本点到均值之间距离的平均值

而方差则仅仅是标准差的平方。方差是协方差的一种特殊情况,即当两个变量是相同的情况 

协方差矩阵

  前面已经说了协方差的意义,协方差在于探索随机变量之间的关系。协方差矩阵计算的是不同维度之间的协方差,不是样本之间的关联关系。协方差探索的是随机变量X,Y之间的相关性,是放在同一个样本中来进行的。举一个简单的例子,学生小明(年龄17岁,年级为高2),小红(年龄17岁,年级为高3),小明、小红就是我们所说的样本,而年龄、年级则是随机变量。计算协方差时,考虑的是小明年龄和小明年级之间的关联关系(一个样本自身属性之间的关联关系)。ps:未考虑小明、小红之间是否有关联关系(样本之间是否有关联关系)。

协方差矩阵是一个对称的矩阵,而且对角线是各个维度上的方,对于机器学习领域的PCA来说,如果遇到的矩阵不是方阵,需要计算他的协方差矩阵来进行下一步计算,因为协方差矩阵一定是方阵,而特征值分解针对的必须是方阵,SVD针对的可以是非方阵情况。协方差矩阵在主成分分析中主成分分析有关键作用。主成分分析就是把协方差矩阵做一个奇异值分解,求出最大的奇异值的特征方向。协方差矩阵计算的是不同维度之间的协方差,而不是不同样本之间的,这点要记牢了。

  当样本含有大量维度(随机变量多)的时候,我们就需要使用矩阵来刻画各个维度之间的关联关系。(每一行代表一个样本,每一列代表一个随机变量)

某一个矩阵
协方差矩阵
三维
求解协方差矩阵的步骤

参考资料:https://www.jianshu.com/p/a6f8d992a0ab

                 https://blog.csdn.net/thesnowboy_2/article/details/69564226

                 https://blog.csdn.net/kuang_liu/article/details/16369475

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,657评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,662评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,143评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,732评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,837评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,036评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,126评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,868评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,315评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,641评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,773评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,470评论 4 333
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,126评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,859评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,095评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,584评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,676评论 2 351

推荐阅读更多精彩内容

  • 历史寻根概率论的前世今生 人类所有的知识来源都与生活息息相关的的并非是凭空捏造的,数学知识更是如此与其说数学是一门...
    罗泽坤阅读 7,771评论 9 39
  • 简介 本文的目的是为了能够让读者对PCA有一个清晰的理解,并且能够用代码自己实现其算法。PCA是一种较常用的统计分...
    HaloZhang阅读 4,930评论 0 14
  • 数学中的常见的距离公式 最近看唐人街2,听起来非常之高大上的曼哈顿算法,今天就来一起脑补一下那些数学中常见的...
    BOLDRainbow阅读 846评论 0 0
  • 1 摘要 上一篇文章已经介绍了矩阵类自己的方法,本章将会详细介绍和矩阵运算相关的函数。下表简单列举了列举了这些以矩...
    RichardJieChen阅读 10,385评论 0 41
  • 参考博客:沈春旭的博客 1.前言 看论文的时候又看到了协方差矩阵这个破东西,以前看图像处理的书籍的时候就特困扰,没...
    默写年华Antifragile阅读 1,246评论 0 4