2021-04-19 ch9 词向量技术

矩阵分解法

构造矩阵X 形状式词库size×词库size
分解后得到S\V\D, 其中S矩阵就是词向量
坏处是 矩阵分解是全局方法,分解的过程依赖于所有的语料库,一旦语料库变了,X就变了。不方便做增量更新。


矩阵分解法

Glove 一个融合矩阵分解(全局)和SkipGram模型(局部)的方法

Huffman编码

构建词表的一种方法:
词频越高,节点所处的层数越小,希望越快查找到(从根节点出发)。
较小值放在右边。
1)所以先找最小的top2词,词频分别是1和3
2)1+3 = 4 得到上一级的节点值
3)构造好一棵树后进行huffman编码,保证高频词码长越短。

构建huffman树

huffman编码
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容