10 主题模型 - 代码案例一 - LDA主题模型初识

08 主题模型 - LDA
09 主题模型 - LDA参数学习-Gibbs采样

安装 lda 库
使用第三方的lda库:import lda.datasets


需求


常规操作
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import matplotlib as mpl
import random

import lda.datasets # 使用第三方的lda库
from pprint import pprint
1、 加载数据
### 词袋法&TF-IDF转换之后的X矩阵
X = lda.datasets.load_reuters()
print("训练文本数据X的类型: {}".format(type(X)))
print("训练文本数据X的大小: {}".format(X.shape))
print(X[:10, :10])


### 词汇表
vocab = lda.datasets.load_reuters_vocab()
print("\n词汇表数据类型: {}".format(type(vocab)))
print("词汇表数据大小: {}".format(len(vocab)))
print(vocab[:10])


titles = lda.datasets.load_reuters_titles()
print("\n文档名称对象数据类型: {}".format(type(titles)))
print("文档数量: {}".format(len(titles)))
pprint(titles[:10])

2、数据测试

下面是测试文档编号为64,单词编号为2119的数据,X[64,2119]:

doc_id = 64
word_id = 2119
print("文档id: {} 单词id: {}".format(doc_id, word_id))
print("-- 出现数量  : {}".format(X[doc_id, word_id]))
print("-- 单词为    : {}".format(vocab[word_id]))
print("-- 文档名称  : {}".format(titles[doc_id]))

3、训练集和测试集获取
random.seed(28)
random.shuffle(X)
X_train = X[:300]
X_test = X[300:]
print("训练集大小:{}".format(len(X_train)))
print("测试集大小:{}".format(len(X_test)))

训练集大小:300
测试集大小:95


4、模型训练

n_topics: 给定主题的数目
iter: 给定迭代次数,默认2000
alpha: 给定主题分布的Dirichlet参数,默认0.1
eta: 给定词分布的Dirichlet参数,默认0.01

topic_num = 20
model = lda.LDA(n_topics=topic_num, n_iter=500, random_state=28)
model.fit(X_train)

INFO:lda:n_documents: 300
INFO:lda:vocab_size: 4258
INFO:lda:n_words: 66760
INFO:lda:n_topics: 20
INFO:lda:n_iter: 500
WARNING:lda:all zero column in document-term matrix found
INFO:lda:<0> log likelihood: -819816
INFO:lda:<10> log likelihood: -532386
INFO:lda:<20> log likelihood: -512472
INFO:lda:<30> log likelihood: -505420
INFO:lda:<40> log likelihood: -500555

...
INFO:lda:<460> log likelihood: -479203
INFO:lda:<470> log likelihood: -479151
INFO:lda:<480> log likelihood: -479064
INFO:lda:<490> log likelihood: -478373
INFO:lda:<499> log likelihood: -479039
<lda.lda.LDA at 0x2541873e10>


5、 模型预测,得到文档-主题映射关系

doc_topic = model.transform(X_test)
print("大小:{}".format(doc_topic.shape))
pd.DataFrame(doc_topic).head()

6、获取模型的主题词

topic_word = model.topic_word_
print("主题词数据类型: {}".format(type(topic_word)))
print("主题词数量: {}".format(topic_word.shape))
print(vocab[:3])
print(topic_word[:, :3])

主题词数据类型: <class 'numpy.ndarray'>
主题词数量: (20, 4258)
('church', 'pope', 'years')
[[2.29108793e-02 4.66887820e-02 5.82848593e-04]
[7.98818405e-03 4.43541591e-06 6.21401769e-03]
[2.65704462e-06 2.65704462e-06 6.37956414e-03]
[2.30189725e-02 2.47489222e-06 2.97234555e-03]
[3.37276012e-04 3.33936646e-06 3.33936646e-06]
[4.82216994e-03 4.01512901e-06 6.42822154e-03]
[4.06904353e-06 4.06904353e-06 5.70072999e-03]
[4.93822195e-03 1.82829395e-06 6.40085710e-03]
[7.99181461e-03 3.07259308e-06 3.07259308e-06]
[1.08134799e-02 2.92177246e-06 4.09340322e-03]
[6.55292546e-03 4.36570650e-06 4.37007221e-03]
[1.39036744e-02 3.39031320e-06 3.39031320e-06]
[2.79887247e-03 1.20179831e-03 3.99268540e-06]
[1.56016463e-06 1.40570833e-03 3.43392235e-03]
[3.59011373e-02 3.81886366e-06 1.60430462e-02]
[1.65078597e-02 3.66759824e-06 3.66759824e-06]
[3.57835524e-06 3.57835524e-06 3.57835524e-06]
[1.91183301e-03 3.18108653e-06 1.05007666e-02]
[1.26477681e-02 9.61522529e-02 2.18027376e-06]
[2.50590140e-06 2.50590140e-06 1.05272918e-02]]

for n in range(5):
    # 计算当前主题对应的所有词汇的概率
    sum_pr = sum(topic_word[n, :])
    print("主题: {} 概率和: {}".format(n, sum_pr))

主题: 0 概率和: 1.0000000000001952
主题: 1 概率和: 1.0000000000001659
主题: 2 概率和: 1.0000000000000964
主题: 3 概率和: 1.0000000000001859
主题: 4 概率和: 0.9999999999998916


7、每个主题中的前7个单词

np.argsort => 对当前主题中各个单词的频率按照从小到大排序,返回索引值
np.array(vocab)[np.argsort(topic_dist)] => 获取从小到大排序后的单词(频率/概率)
np.array(vocab)[np.argsort(topic_dist)][:-(n + 1):-1] => 获取最后的n个单词

n = 7
for i, topic_dist in enumerate(topic_word):
    topic_words = np.array(vocab)[np.argsort(topic_dist)][:-(n + 1):-1]
    print('*主题 {}\n- {}'.format(i, ' '.join(topic_words)))

8、计算输入前10篇文字最可能的topic
doc_topic = model.doc_topic_
print("文档主题数据类型: {}".format(type(doc_topic)))
print("文档主题数据大小: {}".format(doc_topic.shape))
for i in range(10):
    topic_most_pr = doc_topic[i].argmax()
    print(u"文档: {} 主题: {} value: {}".format(i, topic_most_pr, doc_topic[i][topic_most_pr]))

文档主题数据类型: <class 'numpy.ndarray'>
文档主题数据大小: (300, 20)
文档: 0 主题: 5 value: 0.9873913043478262
文档: 1 主题: 14 value: 0.9862318840579711
文档: 2 主题: 5 value: 0.9917391304347827
文档: 3 主题: 3 value: 0.7516746411483254
文档: 4 主题: 13 value: 0.7900369003690035
文档: 5 主题: 13 value: 0.5736401673640168
文档: 6 主题: 13 value: 0.8024305555555554
文档: 7 主题: 13 value: 0.8011070110701105
文档: 8 主题: 13 value: 0.7833333333333334
文档: 9 主题: 7 value: 0.9928571428571425


9、画图
mpl.rcParams['font.sans-serif'] = [u'SimHei']
mpl.rcParams['axes.unicode_minus'] = False

计算每个主题中单词权重分布情况:

plt.figure(figsize=(8, 9))
# f, ax = plt.subplots(5, 1, sharex=True)
for i, k in enumerate([0, 5, 9, 14, 19]):
    ax = plt.subplot(5, 1, i+1)
    ax.plot(topic_word[k, :], 'r-')
    ax.set_xlim(-50, 4350)   # [0,4258]
    ax.set_ylim(0, 0.08)
    ax.set_ylabel(u"概率")
    ax.set_title(u"主题 {}".format(k))
plt.xlabel(u"词", fontsize=14)
plt.tight_layout()
plt.suptitle(u'主题的词分布', fontsize=18)
plt.subplots_adjust(top=0.9)
plt.show()

Document - Topic

plt.figure(figsize=(8, 9))
for i, k in enumerate([1, 3, 4, 8, 9]):
    ax = plt.subplot(5, 1, i+1)
    ax.stem(doc_topic[k, :], linefmt='g-', markerfmt='ro')
    ax.set_xlim(-1, topic_num+1)
    ax.set_ylim(0, 1)
    ax.set_ylabel(u"概率")
    ax.set_title(u"文档 {}".format(k))
plt.xlabel(u"主题", fontsize=14)
plt.suptitle(u'文档的主题分布', fontsize=18)
plt.tight_layout()
plt.subplots_adjust(top=0.9)
plt.show()

11 主题模型 - 代码案例二 - scikit-learn中的LDA模型
12 主题模型 - 代码案例三 - scikit-learn中的LSA模型
13 主题模型 - 代码案例四 - scikit-learn中的NMF模型

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 222,252评论 6 516
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 94,886评论 3 399
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 168,814评论 0 361
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 59,869评论 1 299
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 68,888评论 6 398
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 52,475评论 1 312
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 41,010评论 3 422
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,924评论 0 277
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 46,469评论 1 319
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,552评论 3 342
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,680评论 1 353
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 36,362评论 5 351
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 42,037评论 3 335
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,519评论 0 25
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,621评论 1 274
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 49,099评论 3 378
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,691评论 2 361

推荐阅读更多精彩内容

  • [{"reportDate": "2018-01-23 23:28:49","fluctuateCause": n...
    加勒比海带_4bbc阅读 768评论 1 2
  • 删掉重新来一次吧,记得改那个脚本修改 /home/ubuntu/eos/scripts/install_depen...
    卢衍泓阅读 1,154评论 0 1
  • mean to add the formatted="false" attribute?.[ 46% 47325/...
    ProZoom阅读 2,701评论 0 3
  • 何为人?怎样才能称为人?人和猴鸡狗猪有什么区别?这种问题太深奥回答不了,但可以拿来说一下。今天班上数学测验,有8、...
    简单啥阅读 534评论 0 0
  • 最近真的好累,身心疲惫,胃口还极差,把我们家这位给担心的够呛。 工作上的事情已经懒得去发牢骚了,胃...
    hh1895阅读 181评论 0 0