登录注册写文章

Word Hasing

Word Hasing

何为Word Hashing？

仅用于英文中。具体以book这个单词为例，分为三个步骤：

在book两端添加临界符#book#
采用n-gram的方式分成多个部分，如果是trigrams那么结果是[#bo, boo, ook, ok#]
最终book将会用[#bo, boo, ook, ok#]的向量来表示

上面的过程就是word hashing，不难发现，hashing后的结果[#bo, boo, ook, ok#] 每个letter长度都是3个字母，因此成为tri-letter。
这种方式还叫BPE （Byte Pair Encode）

作用

单词词表很大，很容易出现OOV。但是word hashing后，词表不再是单词，而是每个letter，也就是词根，这样词表规模就会小很多。即使单词没有收入，但是词根都有，可以有效避免OOV。

当然，随之而来的可能有副作用，会存在两个不同的单词也有可能具有相同的tri-grams，针对这个问题论文中做了统计，这个冲突的概率非常的低，500K个word可以降到30k维，冲突的概率为0.0044%。

在中文中，其实我们也效仿了这种做饭，会采用字向量的形式，而非词向量，词典包含了大部分的中文，能有效降低oov的可能性。

最后编辑于：2022.05.21 15:55:55

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

比较全的NLP参考资源
NLP 自然语言处理（Natural Language Processing）是深度学习的主要应用领域之一。教程...
御风之星阅读 8,192评论 0赞 17
Pytorch学习记录-TextMatching几个经典模型
Pytorch学习记录-TextMatching文本匹配01本文是对知乎上这篇文章的阅读笔记，查了一下ACL和ar...
我的昵称违规了阅读 9,312评论 0赞 0

文本表示: 从 One-Hot 到 Word2Vec
在自然语言处理（NLP）领域，如何对文本这种非结构化的数据进行表示是 NLP 的一个重要研究方向。 One-Hot...
DejavuMoments阅读 9,275评论 0赞 0
DSSM
原文：Learning Deep Structured Semantic Models for Web Searc...
xiiatuuo阅读 10,829评论 0赞 0
MV-DSSM- Learning Deep Structured Semantic Mode...
MV-DSSM 解决的问题解决用户冷启动问题更深的user和item表达同时学习不同域的item，user共...
logi阅读 3,207评论 0赞 0

赞1赞

赞赏

手机看全文