贝叶斯

贝叶斯

1. 贝叶斯简介

  • 贝叶斯Thomas Bayes,英国数学家
  • 贝叶斯方法源于他生前为解决一个“逆概”问题写的一篇文章。
  • 贝叶斯要解决的问题:
    • 正向概率:假设袋子里面有N个白球,M个黑球,你伸手进去摸一把,摸出黑球的概率有多大?
      • 黑球数量/总球数量
    • 逆向概率:如果我们事先不知道袋子里黑白球的比例,而是闭着眼睛摸出一个(好几个)球,观察这些取出来的球的颜色之后,那么我们可以就此对袋子里面的黑白球的比例作出什么样的推测。
  • 为什么使用贝叶斯?
    • 现实世界本身就是不确定的,人类的观察能力是有局限性的
    • 我们日常所观察到的只是事物表面上的结果,因此我们需要提供一个猜测。

2. 贝叶斯推导实例

有个学校,男生占60%,女生占40%。男生总是穿长裤,女生一半穿长裤一半穿裤子。

  • 正向概率:随机选择一个学生,他(她)穿长裤的概率和穿裙子的概率是多大
  • 逆向概率:迎面走来一个学生,你能够看的见他(她)穿的是否是长裤,而无法确定性别,你能够推断出他(她)是女生的概率是多大?
  • 求解穿长裤的人里面有多少女生
    • 假设学校里面总人数是U个
    • 穿长裤的男生:U * P(Boy) * P(Pants|Boy)
      • P(Boy)是男生的概率=60%
      • P(Pants|Boy)是条件概率,即在Boy这个条件下穿长裤的概率是多大,这里是100%,因为所有男生都穿长裤。
    • 穿长裤的女生:U * P(Girl) * P(Pants|Girl)
    • 穿长裤总数:U * P(Boy) * P(Pants|Boy) + U * P(Girl) * P(Pants|Girl)
    • P(Girl|Pants) = U * P(Girl) * P(Pants|Girl)/穿长裤总数
    • 化简后: P(Girl|Pants) = P(Girl) * P(Pants|Girl)/P(Boy) * P(Pants|Boy) + P(Girl) * P(Pants|Girl)
    • 化简后发现与校园内的总数无关,可以消去。
    • 分母其实就是P(Pants)
    • 分子其实就是P(Pants,Girl)
  • 贝叶斯公式:
    贝叶斯公式

3. 拼写纠正实例

问题是我们看到用户输入了一个不在字典中的单词,我们需要去擦测用户真正想输入的单词是什么?

  • P(我们擦测它输入的单词|他实际输入的单词)
  • 用户实际输入的单词记为D
    • 猜测1:P(h1|D),猜测2:P(h2|D),猜测3:P(h3|D)...统一为:P(h|D)

    • P(h|D)=P(h)*P(D|h)/P(D)

      • P(h):代表猜测的词在字典中出现的概率,比如语料库中有10000个词(有重复),the出现5000次,那么P(the)=5000/10000。P(h)其实是一个先验概率,拿到数据之后,可以事先统计好。
      • P(D|h):想输一个词,输错的概率。比如,D:tha,h:the,P(D|h)表示想输入the,输的是tha的概率有多大。
    • 对于具体的不同的猜测h1,h2,h3...,P(D)都是一样的,所以在比较P(h1|D)和P(h2|D)的时候我们可以忽略这个常数

    • P(h|D) 正比于 P(h)*P(D|h)

      对于给定的观测数据,一个猜测的是好是坏取决于“这个猜测先验概率的大小”和“这个猜测生成我们观测到的数据的可能性大小(the写成tha的概率大小)”。

  • 贝叶斯方法计算:P(h)*P(D|h),P(h)是特定猜测的先验概率
  • 比如用户输入tlp,那到底是top还是tip呢?这个时候,当最大似然估计不能做出判断时,先验概率就可以插手进来给出指示——top出现的程度要高许多,所以更可能输入的是top。

4. 垃圾邮件过滤实例

问题:给定一封邮件,判定它是否属于垃圾邮件,D表示这封邮件,D由N个单词组成。用h+来表示垃圾邮件,h-表示正常邮件。

  • P(h+|D)=P(h+) * P(D|h+)/P(D)
  • P(h-|D)=P(h-) * P(D|h-)/P(D)
  • P(h+)和P(h-)这两个先验概率都是很容易求出来的,要计算一个邮件库里面垃圾邮件和正常邮件的比例就行了。
  • D里面含有N个单词d1,d2,d3...,P(D|h+)=P(d1,d2,...,dn|h+)
    • P(d1,d2,...,dn|h+)就是说在垃圾邮件当中出现跟我们这封邮件一模一样的一封邮件的概率是多大!(可想而知,一模一样的概率会非常小,但是我们判定为垃圾邮件不一定要一模一样,大致相同就认为是垃圾邮件了。)
    • P(d1,d2,...,dn|h+)扩展为:P(d1|h+) * P(d2|d1,h+) * P(d3|d2,d1,h+) * ...
  • 把原始贝叶斯转换为朴素贝叶斯。假设di与di-1是完全条件无关的(朴素贝叶斯假设特征之间是独立的,互不影响。)
    • 简化为:P(d1|h+) * P(d2|h+) * P(d3|h+) * ...
    • 对于P(d1|h+) * P(d2|h+) * P(d3|h+) * ... 只要统计di这个单词在垃圾邮件中出现的频率即可。
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 205,132评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,802评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,566评论 0 338
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,858评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,867评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,695评论 1 282
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,064评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,705评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 42,915评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,677评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,796评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,432评论 4 322
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,041评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,992评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,223评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,185评论 2 352
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,535评论 2 343

推荐阅读更多精彩内容