gensim模块分析与使用实践

导入gensim并创建语料库:

初始化一个转换:

文本导入:


记号化:

对文档进行记号化(tokenize,或称标记化等)处理,屏蔽常用词(利用停用词表)和整个语料库中仅仅出现一次的词:


总结属性字典:


产生稀疏文档向量:


建立语料库流:


转换接口:


创建一个转换:


五种转换类型:

•词频-逆文档频(Term Frequency * Inverse Document Frequency, Tf-Idf)

•潜在语义索引(Latent Semantic Indexing,LSI,or sometimes LSA)

•随机映射(Random Projections,RP)

•隐含狄利克雷分配(Latent Dirichlet Allocation, LDA)

•分层狄利克雷过程(Hierarchical Dirichlet Process,HDP)

相似度接口:


文本相似度:TF-IDF

TF-IDF:是一种加权技术。采用一种统计方法,根据字词在文本中出现的次数和在整个语料中出现的文档频率来计算一个字词在整个语料中的重要程度。

TF = 某词在文章中出现的次数/文章包含的总词数(或者等于某词出现的次数)

DF = (包含某词的文档数)/(语料库的文档总数)

IDF = log((语料库的文档总数)/(包含某词的文档数+1))

TFIDF= TF*IDF

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容