10 主题模型 - 代码案例一 - LDA主题模型初识

安装 lda 库
使用第三方的lda库：import lda.datasets

需求

常规操作

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import matplotlib as mpl
import random

import lda.datasets # 使用第三方的lda库
from pprint import pprint

1、加载数据

### 词袋法&TF-IDF转换之后的X矩阵
X = lda.datasets.load_reuters()
print("训练文本数据X的类型: {}".format(type(X)))
print("训练文本数据X的大小: {}".format(X.shape))
print(X[:10, :10])


### 词汇表
vocab = lda.datasets.load_reuters_vocab()
print("\n词汇表数据类型: {}".format(type(vocab)))
print("词汇表数据大小: {}".format(len(vocab)))
print(vocab[:10])


titles = lda.datasets.load_reuters_titles()
print("\n文档名称对象数据类型: {}".format(type(titles)))
print("文档数量: {}".format(len(titles)))
pprint(titles[:10])

2、数据测试

下面是测试文档编号为64，单词编号为2119的数据，X[64,2119]：

doc_id = 64
word_id = 2119
print("文档id: {} 单词id: {}".format(doc_id, word_id))
print("-- 出现数量  : {}".format(X[doc_id, word_id]))
print("-- 单词为    : {}".format(vocab[word_id]))
print("-- 文档名称  : {}".format(titles[doc_id]))

3、训练集和测试集获取

random.seed(28)
random.shuffle(X)
X_train = X[:300]
X_test = X[300:]
print("训练集大小:{}".format(len(X_train)))
print("测试集大小:{}".format(len(X_test)))

训练集大小:300
测试集大小:95

4、模型训练

n_topics: 给定主题的数目
iter: 给定迭代次数，默认2000
alpha: 给定主题分布的Dirichlet参数，默认0.1
eta: 给定词分布的Dirichlet参数，默认0.01

topic_num = 20
model = lda.LDA(n_topics=topic_num, n_iter=500, random_state=28)
model.fit(X_train)

INFO:lda:n_documents: 300
INFO:lda:vocab_size: 4258
INFO:lda:n_words: 66760
INFO:lda:n_topics: 20
INFO:lda:n_iter: 500
WARNING:lda:all zero column in document-term matrix found
INFO:lda:<0> log likelihood: -819816
INFO:lda:<10> log likelihood: -532386
INFO:lda:<20> log likelihood: -512472
INFO:lda:<30> log likelihood: -505420
INFO:lda:<40> log likelihood: -500555

...
INFO:lda:<460> log likelihood: -479203
INFO:lda:<470> log likelihood: -479151
INFO:lda:<480> log likelihood: -479064
INFO:lda:<490> log likelihood: -478373
INFO:lda:<499> log likelihood: -479039
<lda.lda.LDA at 0x2541873e10>

5、模型预测，得到文档-主题映射关系

doc_topic = model.transform(X_test)
print("大小:{}".format(doc_topic.shape))
pd.DataFrame(doc_topic).head()

6、获取模型的主题词

topic_word = model.topic_word_
print("主题词数据类型: {}".format(type(topic_word)))
print("主题词数量: {}".format(topic_word.shape))
print(vocab[:3])
print(topic_word[:, :3])

主题词数据类型: <class 'numpy.ndarray'>
主题词数量: (20, 4258)
('church', 'pope', 'years')
[[2.29108793e-02 4.66887820e-02 5.82848593e-04]
[7.98818405e-03 4.43541591e-06 6.21401769e-03]
[2.65704462e-06 2.65704462e-06 6.37956414e-03]
[2.30189725e-02 2.47489222e-06 2.97234555e-03]
[3.37276012e-04 3.33936646e-06 3.33936646e-06]
[4.82216994e-03 4.01512901e-06 6.42822154e-03]
[4.06904353e-06 4.06904353e-06 5.70072999e-03]
[4.93822195e-03 1.82829395e-06 6.40085710e-03]
[7.99181461e-03 3.07259308e-06 3.07259308e-06]
[1.08134799e-02 2.92177246e-06 4.09340322e-03]
[6.55292546e-03 4.36570650e-06 4.37007221e-03]
[1.39036744e-02 3.39031320e-06 3.39031320e-06]
[2.79887247e-03 1.20179831e-03 3.99268540e-06]
[1.56016463e-06 1.40570833e-03 3.43392235e-03]
[3.59011373e-02 3.81886366e-06 1.60430462e-02]
[1.65078597e-02 3.66759824e-06 3.66759824e-06]
[3.57835524e-06 3.57835524e-06 3.57835524e-06]
[1.91183301e-03 3.18108653e-06 1.05007666e-02]
[1.26477681e-02 9.61522529e-02 2.18027376e-06]
[2.50590140e-06 2.50590140e-06 1.05272918e-02]]

for n in range(5):
    # 计算当前主题对应的所有词汇的概率
    sum_pr = sum(topic_word[n, :])
    print("主题: {} 概率和: {}".format(n, sum_pr))

主题: 0 概率和: 1.0000000000001952
主题: 1 概率和: 1.0000000000001659
主题: 2 概率和: 1.0000000000000964
主题: 3 概率和: 1.0000000000001859
主题: 4 概率和: 0.9999999999998916

7、每个主题中的前7个单词

np.argsort => 对当前主题中各个单词的频率按照从小到大排序，返回索引值
np.array(vocab)[np.argsort(topic_dist)] => 获取从小到大排序后的单词(频率/概率)
np.array(vocab)[np.argsort(topic_dist)][:-(n + 1):-1] => 获取最后的n个单词

n = 7
for i, topic_dist in enumerate(topic_word):
    topic_words = np.array(vocab)[np.argsort(topic_dist)][:-(n + 1):-1]
    print('*主题 {}\n- {}'.format(i, ' '.join(topic_words)))

8、计算输入前10篇文字最可能的topic

doc_topic = model.doc_topic_
print("文档主题数据类型: {}".format(type(doc_topic)))
print("文档主题数据大小: {}".format(doc_topic.shape))
for i in range(10):
    topic_most_pr = doc_topic[i].argmax()
    print(u"文档: {} 主题: {} value: {}".format(i, topic_most_pr, doc_topic[i][topic_most_pr]))

文档主题数据类型: <class 'numpy.ndarray'>
文档主题数据大小: (300, 20)
文档: 0 主题: 5 value: 0.9873913043478262
文档: 1 主题: 14 value: 0.9862318840579711
文档: 2 主题: 5 value: 0.9917391304347827
文档: 3 主题: 3 value: 0.7516746411483254
文档: 4 主题: 13 value: 0.7900369003690035
文档: 5 主题: 13 value: 0.5736401673640168
文档: 6 主题: 13 value: 0.8024305555555554
文档: 7 主题: 13 value: 0.8011070110701105
文档: 8 主题: 13 value: 0.7833333333333334
文档: 9 主题: 7 value: 0.9928571428571425

9、画图

mpl.rcParams['font.sans-serif'] = [u'SimHei']
mpl.rcParams['axes.unicode_minus'] = False

计算每个主题中单词权重分布情况：

plt.figure(figsize=(8, 9))
# f, ax = plt.subplots(5, 1, sharex=True)
for i, k in enumerate([0, 5, 9, 14, 19]):
    ax = plt.subplot(5, 1, i+1)
    ax.plot(topic_word[k, :], 'r-')
    ax.set_xlim(-50, 4350)   # [0,4258]
    ax.set_ylim(0, 0.08)
    ax.set_ylabel(u"概率")
    ax.set_title(u"主题 {}".format(k))
plt.xlabel(u"词", fontsize=14)
plt.tight_layout()
plt.suptitle(u'主题的词分布', fontsize=18)
plt.subplots_adjust(top=0.9)
plt.show()

Document - Topic

plt.figure(figsize=(8, 9))
for i, k in enumerate([1, 3, 4, 8, 9]):
    ax = plt.subplot(5, 1, i+1)
    ax.stem(doc_topic[k, :], linefmt='g-', markerfmt='ro')
    ax.set_xlim(-1, topic_num+1)
    ax.set_ylim(0, 1)
    ax.set_ylabel(u"概率")
    ax.set_title(u"文档 {}".format(k))
plt.xlabel(u"主题", fontsize=14)
plt.suptitle(u'文档的主题分布', fontsize=18)
plt.tight_layout()
plt.subplots_adjust(top=0.9)
plt.show()

11 主题模型 - 代码案例二 - scikit-learn中的LDA模型
 12 主题模型 - 代码案例三 - scikit-learn中的LSA模型
 13 主题模型 - 代码案例四 - scikit-learn中的NMF模型