数据挖掘第六讲

数据挖掘第六讲

<script type="text/javascript" src="http://cdn.mathjax.org/mathjax/latest/MathJax.js?config=default"></script>

1什么是马尔可夫模型,什么是转移概率,什么是C-K方程?

1.马尔可夫模型

  • 过程(或系统)“将来”的情况与“过去”的情况无关,则成过程(或系统)具有马尔可夫性
  • 具有马尔可夫性的随机过程称为马尔可夫过程
  • 时间和状态都是离散的马尔可夫过程称为马尔可夫链
  1. 转移概率
    条件概率
    $$ P_{ij}(m, m +n) = P(X_{m + n} = a_j | X_m =a_i)$$
    为马氏链在时刻 m 处于状态$a_i$条件下,在时刻m+n转移到状态$a_j$的转移概率
  2. 转移矩阵
    由转移概率组成的矩阵称为马氏链的转移概率矩阵.
    (吸收壁,反射壁的概念)
  3. C-K方程

什么是HMM,HMM的三大问题是什么?

  • 隐马尔可夫模型HMM是由两个随机过程组成,其中一个是不可观测的有限状态马氏链(使用作弊骰子),而且它的转移概率可能也是不知道的,这个马氏链称为状态链,另一个随机过程是可观测到的,称为观测链,某时刻观测链的观测结果受该时刻状态链的状态影响。
  1. 评估问题:给定观察序列O和HMM λ=(π, A, B),判断O是由λ产生的可能性有多大?
  • 求解:前向和后向算法
  1. 解码问题:给定观察序列O和HMM λ=(π, A, B),判断序列O对应的最优状态序列是什么?
  • 求解:维特比(viterbi)算法
  1. 学习问题:给定观察序列O,确定产生O的最可能HMM λ=(π, A, B)
  • 求解:鲍姆威尔士(Baum-Welch)算法

什么叫抽样?抽样方法都有哪些,如何抽样?

指从目标总体(Population,或称为母体)中抽取一部分个体作为样本(Sample),通过观察样本的某一或某些属性,依据所获得的数据对总体的数量特征得出具有一定可靠性的估计判断,从而达到对总体的认识

  • 样本特征体现总体特征
  • 样本特征与总体特征的偏差在可接受范围内
  1. 随机抽样
    1. 简单随机抽样
      • 对总体单位不做任何分类排队,完全按照随机原则直接从总体中随机抽取一部分单位组成样本的抽样组织方式
        • 先将总体各单位进行编码,然后按照随机原则,用抽签法或随机数法抽取若干数码,所有中选的数码对应的单位即构成样本
    2. 分层抽样
      • 将总体按某个主要标志进行分组,再按随机原则采用简单随机抽样方式从各组中抽取一定数目的总体单位组成样本的抽样组织方式。
      • 按随机原则根据各层中单位数量占总体单位数量的比例抽取各层的样本数量。
    3. 分层最佳抽样
      • 指不仅按各层单位数占总体单位数的比例分配各层的样本数,还根据各层标准差的大小来调整各层样本数目的抽样方法。
    4. 系统抽样
      • 将总体单位按某一标志排序,而后按一定间隔抽取样本单位的抽样组织方式。
    5. 整群抽样
      • 将总体全部单位分为若干“群”,然后随机抽取一部分“群”,被抽中群体的所有单位进行全面调查的抽样组织方式
  2. 非随机抽样
    1. 任意抽样
      • 调查人员本着随意性原则去选择样本的抽样方式
        • 简单、经济
        • 默认个体是相同的
        • 误差较大
    2. 判断抽样
      • 根据调查人员的主观经验从总体样本中选择那些被判断为最能代表总体的单位作样本的抽样方法
      • 抽样依照调查者个人偏好来选择样本
      • 人的因素至关重要
      • 好的很好,差的很差,两极分化
    3. 配额抽样
      • 指调查人员将调查总体样本按一定标志分类或分层,确定各类(层)单位的样本数额,在配额内任意抽选样本的抽样方式
      • 按照一定的标准和比例分配样本的数额,然后根据配额抽取样本
      • 做法与分层抽样完全相同,区别只在于抽的时候是随机抽还是非随机的抽
    4. 滚雪球抽样
      • 先选择一组调查对象,通常是随机地选取的。访问这些被调查者之后,再请他们提供另外一些属于所研究的目标总体的调查对象,根据所提供的线索,选择此后的调查对象。这一过程会继续下去,形成滚雪球的效果
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,163评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,301评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,089评论 0 352
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,093评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,110评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,079评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,005评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,840评论 0 273
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,278评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,497评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,667评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,394评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,980评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,628评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,796评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,649评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,548评论 2 352

推荐阅读更多精彩内容