在机器学习里面,很重要的一个方向在于信息归类,应用到互联网舆情方向,就是将网络信息(目前主要是网页的文本信息)主题提取。但是我们在提取网页信息的时候得到的文字需要进行预处理才能进一步提取主题信息。我们要如何提取文档的主题信息?首先我们要知道一篇文档是如何写出来的,因为人是先有主题再写文字的。那么逆向思考就知道文本主题是如何找到了!这就是本文想表达的东西,本文暂时先介绍最简单的一元文本建模,后续复杂的主题文本模型会陆续给出,大家一起交流学习!
Unigram Model(一元模型)
从最简单的模型开始说(手动表情 哈哈哈)