1.jieba下载安装
pip install jieba
2.jieba初步使用
2.1编写代码
import jieba
seg_list = jieba.cut("吃瓜群众表示看了这条新闻,十分蓝瘦香菇", cut_all=True)
print("Full Mode: " + "/ ".join(seg_list)) # 全模式
seg_list = jieba.cut("吃瓜群众表示看了这条新闻,十分蓝瘦香菇", cut_all=False)
print("Default Mode: " + "/ ".join(seg_list)) # 精确模式
seg_list = jieba.cut("吃瓜群众表示看了这条新闻,十分蓝瘦香菇") # 默认是精确模式
print(", ".join(seg_list))
seg_list = jieba.cut_for_search("吃瓜群众本科毕业于四川大学公共管理学院,后在四川大学继续读研") # 搜索引擎模式
print(", ".join(seg_list))
2.2运行结果
3.自定义词典,调整代码
import jieba
jieba.load_userdict("dict1.txt")
seg_list = jieba.cut("吃瓜群众表示看了这条新闻,十分蓝瘦香菇", cut_all=True)
print("Full Mode: " + "/ ".join(seg_list)) # 全模式
seg_list = jieba.cut("吃瓜群众表示看了这条新闻,十分蓝瘦香菇", cut_all=False)
print("Default Mode: " + "/ ".join(seg_list)) # 精确模式
seg_list = jieba.cut("吃瓜群众表示看了这条新闻,十分蓝瘦香菇") # 默认是精确模式
print(", ".join(seg_list))
seg_list = jieba.cut_for_search("吃瓜群众本科毕业于四川大学公共管理学院,后在四川大学继续读研") # 搜索引擎模式
print(", ".join(seg_list))
4.学院数据分词测试
4.1编写代码,生成文件
import jieba
import codecs
jieba.add_word('公共管理')
with open('teachers.csv', 'r') as f:
for line in f:
seg = jieba.cut(line.strip(), cut_all = False)
s= '/'.join(seg)
m=list(s)
with open('teachers2.csv','a+')as f:
for word in m:
f.write(word.encode('utf-8'))
4.2生成词云图
(1)第一种方式
存在问题:中文显示不出,待解决
import jieba
text_from_file_with_apath = open('teachers.csv').read()
wordlist_after_jieba = jieba.cut(text_from_file_with_apath, cut_all = True)
wl_space_split = " ".join(wordlist_after_jieba)
FONT_PATH = os.environ.get("FONT_PATH", os.path.join(os.path.dirname(__file__), "HYQiHei-25J.ttf"))
my_wordcloud = WordCloud().generate(wl_space_split)
plt.imshow(my_wordcloud)
plt.axis("off")
plt.show()
(2)第二种方式:HTML5WordCloud
以姜晓萍老师为例