描述性统计

1.1基本概念

随机变量:在同一组条件下,每一次实验都会出现不同的结果,并且所有的结果都能列举出来,即X1,X2……Xn。具有概率P(X1),P(X2)……P(Xn),其中P(Xi) = P(X=Xi),称为概率函数(probability function),则X称为P(X)的随机变量,反之称为概率函数
可以说,随机变量是用随机事件描述随机现象的数量关系的推广,且随机变量在概率论和数据统计研究中的应用普遍。
离散型随机变量: 如果随机变量X的所有取值都可以逐个列举出来,则称X为离散型随机变量。例如:在一批产品中取到次品的个数、单位时间内某交换机台收到呼机次数。
连续随机变量: 如果随机变量X的所有取值无法逐个列举出来,而是取数轴上某一区间内的任何一点,则称X为连续随即变量。例如:一批电子元件的寿命,实际工作中遇到的测量误差。

古典概率:如果某一随机试验的结果有限,而且各个结果出现的随机性相等,则某一事件A发生的概率为该事件所包含的基本事件个数m与向本空间中所包含的基本事件个数n的比值。
条件概率 条件概率是一种带有附件条件的概率。是指若事件A与事件B是相依事件,即事件A的概率随事件B是否发生而变化,同样事件B的概率与随事件A是否发生而变化,则在实践A已发生的条件下,事件B出现的概率成为事件B的条件概率。
期望值 期望值是指一个人对某目标能够实现的概率估计,期望值也称做期望概率。在离散型随机变量X的一切可能完备值的完备组中,各可能值x与其对应的概率p的乘积之和称为随机变量X的期望值,记作E(X)
大数定律 大数定律分为强大数定律和弱大数定律。大数定律通常指强大数定律,它是描述相当多次数重复试验的结果的定律。根据这个定律,样本数量越多,则其算数平均值就有越高的概率接近期望值。
2.1离散变量的概率分布

二项分布 二项分布是由伯努利提出的概念,指的是重复n次独立的伯努利试验。在每次试验中只有两种可能的结果,而且两种结果发生与否互相对立,并且相互独立,与其它各次试验结果无关,事件发生与否的概率在每一次独立试验中都保持不变,则这一系列试验总称为n重伯努利实验,当试验次数为1时,二项分布服从0-1分布。
二项分布有以下特点:
a.包含n个相同的实验
b.每次实验只有两个可能的结果
c出现“成功”的概率p对每一次实验是相同的,“失败”的概率q也是如此,并且p+q=1
d.实验是相互独立的。
e.试验成功或失败可以计数
泊松分布 泊松分布是用来描述在一指定时间范围内或在指定的面积或体积之内某一事件出现的次数的分布。
泊松分布与二项分布的关系:当二项分布的n很大而p很小时,泊松分布可作为二项分布的近似,其中λ为np。常当n≧20,p≦0.05时,就可以用泊松公式近似得计算。
3.1 连续性随机变量的概率分布

均匀分布 均匀分布也叫矩形分布,它是对称概率分布,在相同长度间隔的分布概率是等可能的。 均匀分布由两个参数a和b定义,它们是数轴上的最小值和最大值,通常缩写为U(a,b)。
正态分布 正态分布(Normal distribution),也称“常态分布”,正态曲线呈钟型,两头低,中间高,左右对称因其曲线呈钟形,因此人们又经常称之为钟形曲线。若随机变量X服从一个数学期望为μ、方差为σ2的正态分布,记为N(μ,σ2)。其概率密度函数为正态分布的期望值μ决定了其位置,其标准差σ决定了分布的幅度。当μ = 0,σ = 1时的正态分布是标准正态分布。

指数分布 指数分布(也称为负指数分布)是描述泊松过程中的事件之间的时间的概率分布,即事件以恒定平均速率连续且独立地发生的过程。指数函数的一个重要特征是无记忆性(Memoryless Property,又称遗失记忆性)。这表示如果一个随机变量呈指数分布,当s,t>0时有P(T>t+s|T>t)=P(T>s)。即,如果T是某一元件的寿命,已知元件使用了t小时,它总共使用至少s+t小时的条件概率,与从开始使用时算起它使用至少s小时的概率相等。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,053评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,527评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,779评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,685评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,699评论 5 366
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,609评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,989评论 3 396
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,654评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,890评论 1 298
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,634评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,716评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,394评论 4 319
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,976评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,950评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,191评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,849评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,458评论 2 342

推荐阅读更多精彩内容

  • 在实际工作中,对于刚接手的数据集,在正式处理需求前,除了需要梳理清楚数据上报及转发环节,还需要对数据集进行质量评估...
    davidac阅读 3,982评论 0 0
  • 数据的集中趋势 众数 是一组数据中出现次数最多的数值,有可能没有也有可能有多个。 中位数 中位数,又称中点数,中值...
    当_下阅读 5,431评论 5 8
  • 描述性统计描述性统计是用来概括、表述事物整体状况以及事物间关联、类属关系的统计方法。通过统计处理可以简洁地用几个统...
    AnthRax阅读 25,538评论 -1 5
  • 本次主要是从数据的描述性统计开始学习,主要包括有数据的集中趋势、离中趋势、相对离散程度和分布的形状四个方面开始学习...
    这里假装有个名字阅读 3,098评论 1 2
  • 小白入门数据挖掘,从零开始,每周一更 01 数据集中趋势度量 众数是一组数据中出现次数最多的数值,有可能没有也有可...
    南小明阅读 890评论 1 0