1、gensim
gensim是一款具备多种功能的神器,开源的第三方工具包,用于从原始的非结构化的文本中,无监督地学习到文本隐层的主题向量表达,支持TF-IDF,LSA,LDA、word2vec在内的多种主题模型算法,支持流式训练
gensim的corpus通常是一个可迭代的对象(比如列表),每次迭代返回一个可用于表达文本对象的稀疏向量,这里的model是一个抽象的术语,定义了两个向量空间的变换(即从文本的一种向量表达变换为另一种向量表达)。
训练语料的预处理指的是将文档中原始的字符文本转换成Gensim模型所能理解的稀疏向量的过程。
对于词袋模型的步骤:字符串分割成词语列表(可以使用分词库)——生成字典——转化为向量