导入gensim并创建语料库:

初始化一个转换:

文本导入:

记号化:
对文档进行记号化(tokenize,或称标记化等)处理,屏蔽常用词(利用停用词表)和整个语料库中仅仅出现一次的词:

总结属性字典:

产生稀疏文档向量:

建立语料库流:

转换接口:

创建一个转换:

五种转换类型:
•词频-逆文档频(Term Frequency * Inverse Document Frequency, Tf-Idf)
•潜在语义索引(Latent Semantic Indexing,LSI,or sometimes LSA)
•随机映射(Random Projections,RP)
•隐含狄利克雷分配(Latent Dirichlet Allocation, LDA)
•分层狄利克雷过程(Hierarchical Dirichlet Process,HDP)
相似度接口:

文本相似度:TF-IDF
TF-IDF:是一种加权技术。采用一种统计方法,根据字词在文本中出现的次数和在整个语料中出现的文档频率来计算一个字词在整个语料中的重要程度。
TF = 某词在文章中出现的次数/文章包含的总词数(或者等于某词出现的次数)
DF = (包含某词的文档数)/(语料库的文档总数)
IDF = log((语料库的文档总数)/(包含某词的文档数+1))
TFIDF= TF*IDF