Jieba对龙族4的词云尝试
1.前置条件
java环境和安装jieba,即java -version 和pip install jieba,很简单的大家应该都知道的。
2.jieba尝试
先在网上找一些教程,看看jieba的基本用法和操作,大家都知道啊就不说了,就说说我怎么尝试的流程吧。
先把小说下载下来,命名为lz4.txt,然后对这个文本提取关键词和词频统计操作,
得到的数据还是有很大问题的,首先主角名字就没有被分成了路明和明飞,还有很多无意义的词语,并不是我想要的结果,所以在jieba中添加中文词语,和添加停用词词库。
添加中文词汇就是 jieba.add_word('楚子航') ,添加停用词词表就是stopwords_path = '路径',我就在本地加了一个停用词词表,
得到如下结果,
这个结果看起来还是令人满意的,最后把这些数据整好看一点,就是把得到的数据整成词云,就可以都到一张漂亮的词云图了。