数据分析(二):《深入浅出数据分析》


第2章 《集中趋势的度量》

求出平均数往往是掌握一大堆数字的的第一步;有了平均数就能找到最具有代表性的数值,得出重要结论。有关的概念:

  • 均值:平均数的一般度量;平均数不止一种。用μ表示。
  • 中位数
  • 众数:一批数字中最常见的数值,即频率最大的数值;它必须是一批数中的一个,而且是最频繁出现的一个。
  • 频数

对称数据 vs 向右偏斜 vs 向左偏斜

寻找中位数:
当偏斜数据或异常值使均值产生误导时,就需要用其它方式表示典型值。


第3章 《分散性与变异性的量度》

平均数能让你知道数据集的中心所在,能帮你寻找数据集中的典型值,但是要分析数据,平均数还远不够。本章介绍各种距和差

描述数据分散程度的几个概念:

全距,也叫极差,最大数叫上界,最小数叫下界,上界减去下界等于全距。全局的局限性在于无法消除异常值的影响。

迷你距

四分位数:全距无法消除异常值的影响,那么我们就只取中间50%的数据的影响,50%数据的左端是下四分位数,右端是上四分位数。上下四分位数的差就是四分位距

以上等于是将数字划分为四等份;还可以将数字划成100等份。第k百分位数就是k%处的数值,用Pk来表示。

箱线图,将上界、下界、上四分位数、下四分位数、四分位距、中位数等集合在一起的示意图。

全距和四分位距的问题是:他们仅仅告诉你最大值和最小值的差,无法告诉你最大值和最小值出现的频率。也就是说没有工具度量变异性

方差:度量数据分散情况的方法;方差是数值和均值的距离的平方数的平均值;反应的是跟均值的距离的平方。
标准差:取方差的平方根。它反应的是跟均值的距离。

方差
方差速算

标准分:对不同环境下相关数据的进行比较的一种方法;对于一个数据集来说,标准分指的是一个特定数值的标准分,计算如下:

标准分的计算方式

标准分的应用场景就是:对不同数据集进行比较,这些数据集的均值、标准差都不一样(不一样就不能那他们直接进行比较);通过标准分,我们可以把这些数据集视为来自同一个数据集或数据分布。为什么标准分有这个作用?为什么能视为来自同一个数据集?

两位球员的均值和标准差都不相同,但是对于本次训练的命中率(75、55),能得出该特定数值的标准分

为什么以上最右边的图,能把两个球员的标准分(放在同一个图中)进行比较?
因为以上右图是一个标准化的新分布(均值=0,标准差=1)

为什么能生成这样一个标准化的分布图?
因为根据标准分的定义,均值=0,标准差=1,意味着数据集中每个特定值跟它的标准分相等。

每个数据集都能转换成通用分布

第4章 《概率计算:把握机会》

两种图形化概率数据的方式:
韦恩图
概率树

对立事件 vs 独立事件
互斥事件 vs 相交事件
相关事件

交集 vs 并集

P(A|B) vs P(A∩B)
P(A|B):已知条件,在已知B发生的条件下发生A的概率
P(A∩B):A和B同时发生的概率

条件概率

P(A | B) 在已知B已经发生的条件下发生A的概率,定义为
P(A | B) = P(A ∩ B) / P(B),即定义为:A和B同时发生的次数和B发生的次数相除的结果。这是一个定义,并未推理结果。

P(A ∩ B) = P(B ∩ A) 两者等价

P(B | A) = P(B ∩ A) / P(A)

在韦恩图中理解P(A | B)的含义

全概率公式

B发生的方式:跟事件A一起发生,不跟事件A一起发生,以上两种情况的总和,如下:

P(B) = P(A ∩ B) + P(A' ∩ B)

结合条件概率,推理出全概率公式

P(B) = P(B | A) x P(A) + P(B | A') x P(A')

贝叶斯定理

条件概率

结合全概率公式(分母)和条件概率(分子),推导出贝叶斯定理

贝叶斯定理

该定理提供了一种计算逆条件概率的方法,在你无法预知每种概率的情况下,它十分有用。


第5章 《概率计算:把握机会》

概率连续性 vs 离散性

期望

期望等于每个数值X乘以该数值发生的概率,然后将所有数值求和。

期望的计算公式和例子

期望表示一个变量的典型值或均值,但不能提供有关数值分散性的任何信息。方差的作用正在此

方差

方差计算方法
E(X-μ)²的计算方法

第6章《排列与组合》

排列和组合的概念对比

相同点:都是从一组数中选取部分数进行排队,求排队的方法总数;
不同点:是否对顺序有要求。

排列和组合的概念对比

排列和组合的计算方法

排列和组合的计算方法

排列组合的应用场景

三匹公马和三匹母马进行排队:

  • 如果求所有排队方式,那就用排列
  • 如果不考虑个体特征、只考虑性别,求所有排队方式,那就用组合

第7章《几何分布、二项分布和泊松分布》

(等式)几何分布

几何分布

几何分布的条件:

  • 进行一系列相互独立的实验
  • 每一次实验既有成功的可能,也有失败的可能,且单次实验失败和成功的概率相同

几何分布的目的:

  • 我们主要关心的是,为了第一次成功需要进行多少次实验

注:成功和失败,还可以改成“感兴趣和不感兴趣”两个对立的目标

几何分布的计算公式:

几何分布的计算方法

几何分布的图形和众数(1):

集合分布的图形和众数

(不等式)几何分布

不等式的几何分布

几何分布简明指南

几何分布简明指南

几何分布、二项式分布、泊松分布的对比

几何分布、二项式分布、泊松分布的对比

第8章 正态分布的运用:保持正态

离散变量 vs 连续随机变量
离散变量: 对于每个确定的值都有确定的概率值
连续随机变量: 对于每个确定的值没有确定的概率值,只有概率区间

概率密度函数

描述连续随机变量的概率分布

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,047评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,807评论 3 386
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,501评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,839评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,951评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,117评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,188评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,929评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,372评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,679评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,837评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,536评论 4 335
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,168评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,886评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,129评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,665评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,739评论 2 351

推荐阅读更多精彩内容