文本表示|独热编码|整数编码|词嵌入

文本表示(Representation)

作用:将非结构化的信息(文本)转化为结构化的信息(向量)

文本表示的方法:

1.one-hot representation 独热编码
2.整数编码
3.word embedding 词嵌入

word embedding 词嵌入

优点:
1.可以将文本通过地位向量来表达
2.语意相似的词在向量空间上也会比较相近
3.通用性强,可用于不同的任务中

主流的 word embedding 算法:word2vec GLoVe

word2vec
一种基于统计方法来获得词向量的方法
两种训练模式:
1.通过上下文来预测当前词
2.通过当前词来预测上下文

GloVe
对word2vec的扩展
将全据统计和word2vec的基于上下文的学习结合了起来

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容