240 发简信
IP属地:浙江
  • 120
    LDA模型伪代码块2

    LDA模型应用:一眼看穿希拉里的邮件 我们拿到希拉里泄露的邮件,跑一把LDA,看看她平时都在聊什么。 首先,导入我们需要的一些库 然后,把邮件读取进来。 这里我们用panda...

  • 120
    LDA模型伪代码块

    Gensim的基本用法 Gensim非常适合用来实现各种文本模型、主题模型,包括tf-idf模型、LSI模型以及LDA模型。本节简单介绍一下Gensim中核心的三个数据结构、...

  • 理解TF-IDF(转载)

    TF-IDF,理解起来相当简单,他实际上就是TF*IDF,两个计算值的乘积,用来衡量一个词库中的词对每一篇文档的重要程度。下面我们分开来讲这两个值,TF和IDF。 TF TF...

  • 120
    自然语言处理学习复习2(贝叶斯)

    贝叶斯公式 贝叶斯公式就一行: 而它其实是由以下的联合概率公式推导出来: 其中 P(Y) 叫做先验概率, P(Y|X) 叫做后验概率, P(Y,X) 叫做联合概率。 机器学习...

  • 自然语言处理学习复习1

    jieba.cut 以及 jieba.cut_for_search 相同点:1 返回值都是迭代值。2.接受参数都有(1)需要分词的字符串(2)是否使用 HMM 模型不同点:j...