1.数据预处理
(docx格式转换为txt、命名更改)
源数据为42个word文档,批量转换为txt,转换方法见:https://www.jianshu.com/p/17943871c9f6。
将所有文件按数字(学号最后1或2位)进行命名,比如1.txt、2.txt,方便后面做分词。将所有txt文件保存在一个文件夹中,如命名为“原始数据”。
2. 中文分词
由于weka没有自带的中文分词包,因此我们分词后再导入到weka。
利用jieba分词工具,代码下载链接:https://pan.baidu.com/s/1Fde1W2pjippU6gcQZDWv8Q 密码:efx5
注意更改“原始数据”的路径和分词结果的路径、停用词表、文档数量。
3.待分析文本准备
weka支持csv格式数据,我们将所有分词结果存入到csv文件中,第一列为姓名,第二列为分词结果,格式如下:
另外需要注意的是,直接导入中文会乱码,需要修改csv和weka的编码方式,我们采用UTF-8编码。
csv修改编码的方式为:excel另存为——工具——web选项——编码——UTF-8:
weka修改编码的方式为,在weka的安装目录下,用记事本(或notepad++)打开RunWeka.ini文件,将其中的fileEncoding改为UTF-8
4.weka导入数据
Filter——unsupervised——attribute