2020-07-07

1、gensim

gensim是一款具备多种功能的神器,开源的第三方工具包,用于从原始的非结构化的文本中,无监督地学习到文本隐层的主题向量表达,支持TF-IDF,LSA,LDA、word2vec在内的多种主题模型算法,支持流式训练

gensim的corpus通常是一个可迭代的对象(比如列表),每次迭代返回一个可用于表达文本对象的稀疏向量,这里的model是一个抽象的术语,定义了两个向量空间的变换(即从文本的一种向量表达变换为另一种向量表达)。

训练语料的预处理指的是将文档中原始的字符文本转换成Gensim模型所能理解的稀疏向量的过程。

对于词袋模型的步骤:字符串分割成词语列表(可以使用分词库)——生成字典——转化为向量

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

友情链接更多精彩内容