1.数据预处理

（docx格式转换为txt、命名更改）

源数据为42个word文档，批量转换为txt，转换方法见：https://www.jianshu.com/p/17943871c9f6。

将所有文件按数字（学号最后1或2位）进行命名，比如1.txt、2.txt，方便后面做分词。将所有txt文件保存在一个文件夹中，如命名为“原始数据”。

2. 中文分词

由于weka没有自带的中文分词包，因此我们分词后再导入到weka。

利用jieba分词工具，代码下载链接：https://pan.baidu.com/s/1Fde1W2pjippU6gcQZDWv8Q 密码：efx5

分词源码

注意更改“原始数据”的路径和分词结果的路径、停用词表、文档数量。

分词结果

weka支持csv格式数据，我们将所有分词结果存入到csv文件中，第一列为姓名，第二列为分词结果，格式如下：

csv数据示例

另外需要注意的是，直接导入中文会乱码，需要修改csv和weka的编码方式，我们采用UTF-8编码。

csv修改编码的方式为：excel另存为——工具——web选项——编码——UTF-8：

weka修改编码的方式为，在weka的安装目录下，用记事本（或notepad++）打开RunWeka.ini文件，将其中的fileEncoding改为UTF-8

weka修改编码方式

进入explorer页面

Filter——unsupervised——attribute

配置簇的数量