统计理论

\color{green}{AI|背景知识| 1.1.3 }

  记得刚开始学机器学习时,对于突然冒出来的成本函数、正则项等感到莫名其妙,不知道是怎么出现的,后来才知道源自统计决策。统计学是机器学习中最大的基础知识来源,因此,在背景知识的最后一篇中,让我们一起来梳理一下统计学的整体的非常粗的一个框架。

一、统计理论

image.png

图1 :统计学的理论及来源
  描述性统计用于总结和描述数据特征,通过图表、数字摘要等呈现出来,使用平均值、中位数、众数(集中);极差、方差、标准差、四分位距(离散);偏度、峰度(分布特征);直方图(频率分布)等来描述。
  统计决策关注在不确定性条件下如何根据数据和模型来选择最优行动,通常要结合贝叶斯统计和经典统计来制定决策规则。
  通过增添与经典统计状态空间相垂直的参数空间,扩展了经典统计框架,可以处理非独立,依赖时间或空间的动态数据。这就构成了随机过程的研究范围。强化学习中使用的Markov 决策过程、Google 搜索引擎中的PageRanK算法使用的平稳分布都是随机过程的内容,这个领域非常专业,本文不做讨论。

二、概率论与数理统计

  经典统计的基本内容都在这里。平时我们学的时候,基本都是概率与数理统计一起学习的,可以全面联系起许多知识点。


image.png

三、 贝叶斯统计

1.著名的贝叶斯公式

  贝叶斯统计是基于贝叶斯定理的一种统计推断方法,其核心思想是以当下样本的数据证据(似然函数)来修正先验知识(先验分布),更新对参数或模型的信念(后验分布)。这和我们人类的思维非常接近,就是我们有过去的经验(先验分布),再加上当下得到的现实情况(似然函数),一起来估计可能的结果(后验分布)。
  其核心是贝叶斯公式:


image.png

公式有些复杂,我们就直接转化为汉字清晰描述如下:


image.png

2.微博上识别网络水军应用

  实际上是一个分类任务,在把贝叶斯公式应用到分类任务是,具体到这个分类应用②式就转变为③式。


image.png

  ③式中,类别(是,不是),特征②(非空转发比,转发内容重复率,用户双向关注比,博主具体的等级级别,阳光信用…)。P( 类别 ) 是先验概率,可以根据我经验和过去的统计数据知道,具有“用户双向关注比”、“阳光信用”、“某个级别的博主”等特征博主分别是网络水军的概率,这是关于总体的先验假设。P( 特征 | 类别 ) 表示:如果类别是网络水军,在样本中,分别具备“用户双向关注比”“阳光信用”“某个级别的博主”等特征分别对应的是网络水军博主的概率。P( 特征 ) 是一个归一化因子,一个常数,在实际应用中可以不计算出来。有了以上数据,就可以计算后验分布 P(类别|特征),将“用户双向关注比”“阳光信用”“某个级别的博主”…具体的取值带入训练好的模型中就可以预测该博主属于网络水军人员的概率。

3.求后验分布的两种方法

贝叶斯统计核心内容就是求后验概率。

1) 通过先验分布与似然函数求后验分布

  基于主观经验或历史数据对参数的初步假设,构造先验分布。基于数据生成机制,刻画数据给定参数时的分布,确定似然函数。应用公式①计算后验分布。简单情况下,后验分布可以解析求解,例如共轭分布。

2) 直接求后验分布

  当后验分布难以解析求解时,可直接通过数值方法或近似方法进行估计。常使用数值法,如MCMC生成后验分布的样本,从而近似后验分布。具体到Gibbs抽样方法等,核心思想是通过随机采样,逼近高维复杂分布。MCMC、Gibbs,这些词许多编程的人员应该都很熟悉,机器学习中使用也较多,原来源头是在这里。所以真的有必要了解一些背景知识。

四、 统计决策

  在不确定条件下选择最优行动。下图从生活逻辑出发,抽象出统计决策的结构,再对应形式化的表示。整体还是很好理解。终于明白风险函数的来源,什么是经验风险、结构风险这些统计学习的观点。对于我们理解强化学习等打下了基础。有了这些知识,不仅可以能更好理解程序,更重要的是可以在底层去优化甚至创建全新的算法,这时,你的独特优势就显示出来了。所以,真的需要有理论基础和原理,能比同行有更好的视野和办法。


image.png

附件:

  鉴于概率和数理统计是机器学习中最重要的基础知识,故给出了更详尽的关系梳理,比较专业,可以不看。


image.png

image.png

image.png
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,723评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,003评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,512评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,825评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,874评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,841评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,812评论 3 416
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,582评论 0 271
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,033评论 1 308
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,309评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,450评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,158评论 5 341
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,789评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,409评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,609评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,440评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,357评论 2 352

推荐阅读更多精彩内容