中文分词使用报告

1.jieba下载安装

pip install jieba

1.PNG

2.jieba初步使用

2.1编写代码

import jieba

seg_list = jieba.cut("吃瓜群众表示看了这条新闻，十分蓝瘦香菇", cut_all=True)
print("Full Mode: " + "/ ".join(seg_list))  # 全模式

seg_list = jieba.cut("吃瓜群众表示看了这条新闻，十分蓝瘦香菇", cut_all=False)
print("Default Mode: " + "/ ".join(seg_list))  # 精确模式

seg_list = jieba.cut("吃瓜群众表示看了这条新闻，十分蓝瘦香菇")  # 默认是精确模式
print(", ".join(seg_list))

seg_list = jieba.cut_for_search("吃瓜群众本科毕业于四川大学公共管理学院，后在四川大学继续读研")  # 搜索引擎模式
print(", ".join(seg_list))

2.2运行结果

7.PNG

3.自定义词典，调整代码

import jieba
jieba.load_userdict("dict1.txt")

seg_list = jieba.cut("吃瓜群众表示看了这条新闻，十分蓝瘦香菇", cut_all=True)
print("Full Mode: " + "/ ".join(seg_list))  # 全模式

seg_list = jieba.cut("吃瓜群众表示看了这条新闻，十分蓝瘦香菇", cut_all=False)
print("Default Mode: " + "/ ".join(seg_list))  # 精确模式

seg_list = jieba.cut("吃瓜群众表示看了这条新闻，十分蓝瘦香菇")  # 默认是精确模式
print(", ".join(seg_list))

seg_list = jieba.cut_for_search("吃瓜群众本科毕业于四川大学公共管理学院，后在四川大学继续读研")  # 搜索引擎模式
print(", ".join(seg_list))

11.PNG

4.学院数据分词测试

4.1编写代码，生成文件

import jieba
import codecs

jieba.add_word('公共管理')

with open('teachers.csv', 'r') as f:
     for line in f:
         seg = jieba.cut(line.strip(), cut_all = False)
         s= '/'.join(seg)
         m=list(s)
         with open('teachers2.csv','a+')as f:
             for word in m:
                 f.write(word.encode('utf-8'))

4.2生成词云图

（1）第一种方式

存在问题：中文显示不出，待解决

import jieba

text_from_file_with_apath = open('teachers.csv').read()

wordlist_after_jieba = jieba.cut(text_from_file_with_apath, cut_all = True)
wl_space_split = " ".join(wordlist_after_jieba)
FONT_PATH = os.environ.get("FONT_PATH", os.path.join(os.path.dirname(__file__), "HYQiHei-25J.ttf"))
my_wordcloud = WordCloud().generate(wl_space_split)

plt.imshow(my_wordcloud)
plt.axis("off")
plt.show()

Figure_1.png

（2）第二种方式：HTML5WordCloud

以姜晓萍老师为例

12.PNG

最后编辑于：2017.12.07 23:00:37

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

中文分词使用报告

中文分词使用报告

1.jieba下载安装

2.jieba初步使用

2.1编写代码

2.2运行结果

3.自定义词典，调整代码

4.学院数据分词测试

4.1编写代码，生成文件

4.2生成词云图

（1）第一种方式

（2）第二种方式：HTML5WordCloud

相关阅读更多精彩内容

友情链接更多精彩内容