word2vec 初步入门(1)---预备知识

知识预备

在了解wrod2vec之前,我们需要了解sigmoid函数,贝叶斯公式,哈夫曼编码等内容。

sigmoid函数

使用过逻辑回归的同学应该了解,是一个定义域为(-∞,+∞),值域为(0,1),其定义为:

image.png

函数图像如下:

image.png

贝叶斯公式

贝叶斯公式是用来描述两个条件概率之间的关系,基于贝叶斯公式的分类方法可以查看我之前写的文章 http://www.jianshu.com/p/7b0ab1bddaf0

哈夫曼(hufuman)编码

赫夫曼编码的具体方法:先按出现的概率大小排队,把两个最小的概率相加,作为新的概率 和剩余的概率重新排队,再把最小的两个概率相加,再重新排队,直到最后变成1。每次相 加时都将“0”和“1”赋与相加的两个概率,读出时由该符号开始一直走到最后的“1”, 将路线上所遇到的“0”和“1”按最低位到最高位的顺序排好,就是该符号的赫夫曼编码。

哈夫曼(hufuman)树的构造

简单来说,假设有给定 n个权值{w1,w2,w3,...,wn}, 我们可以把这些通通看成一颗树,每棵树只有一个节点。
1.从这些权值中找出最小的两个,合并构建一棵新的树,这两个权值分别作为新树的左右子树,新树的根节点则是子树根节点和相加。
2.n个权值中去除合并的值,添加新树的值,继续上一步骤,直至所有的权值合并完全。

举个例子:

hufumantree.png

由图可见,权值越大的离根节点越近。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 树的概述 树是一种非常常用的数据结构,树与前面介绍的线性表,栈,队列等线性结构不同,树是一种非线性结构 1.树的定...
    Jack921阅读 4,510评论 1 31
  • 定义指针变量,如果不赋给它地址,系统会随机给它分配一个地址。 C++标准库 C++ Standard Librar...
    纵我不往矣阅读 308评论 0 1
  • 各位小伙伴们大家好,前些日子,我看了一些关于贝叶斯方法的文章,其中以今天这一篇文章觉得最好,不仅讲的简单通俗易懂并...
    云时之间阅读 5,671评论 4 72
  • 1 序 2016年6月25日夜,帝都,天下着大雨,拖着行李箱和同学在校门口照了最后一张合照,搬离寝室打车去了提前租...
    RichardJieChen阅读 5,265评论 0 12
  • 第二个Topic讲深度学习,承接前面的《浅谈机器学习基础》。 深度学习简介 前面也提到过,机器学习的本质就是寻找最...
    我偏笑_NSNirvana阅读 15,769评论 7 49