利用weka对中文文本聚类

1.数据预处理

(docx格式转换为txt、命名更改)

源数据为42个word文档,批量转换为txt,转换方法见:https://www.jianshu.com/p/17943871c9f6。

将所有文件按数字(学号最后1或2位)进行命名,比如1.txt、2.txt,方便后面做分词。将所有txt文件保存在一个文件夹中,如命名为“原始数据”。

2. 中文分词

由于weka没有自带的中文分词包,因此我们分词后再导入到weka。

利用jieba分词工具,代码下载链接:https://pan.baidu.com/s/1Fde1W2pjippU6gcQZDWv8Q 密码:efx5


分词源码

注意更改“原始数据”的路径和分词结果的路径、停用词表、文档数量。


分词结果


3.待分析文本准备

weka支持csv格式数据,我们将所有分词结果存入到csv文件中,第一列为姓名,第二列为分词结果,格式如下:


csv数据示例

另外需要注意的是,直接导入中文会乱码,需要修改csv和weka的编码方式,我们采用UTF-8编码。

csv修改编码的方式为:excel另存为——工具——web选项——编码——UTF-8:



weka修改编码的方式为,在weka的安装目录下,用记事本(或notepad++)打开RunWeka.ini文件,将其中的fileEncoding改为UTF-8


weka修改编码方式

4.weka导入数据


进入explorer页面


Filter——unsupervised——attribute





配置簇的数量


©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 基于《Python语言程序设计基础(第2版)》 第一部分 初识Python语言 第1章 程序设计基本方法 1.1 ...
    柄志阅读 27,539评论 4 44
  • 那时候的她,是最好的她,现在的我,是最好的我,最好的我们之间隔了一个青春。 不过是上学了2,3天,可那种莫名的伤感...
    胜奕莜阅读 129评论 0 1
  • Peaceful13阅读 135评论 0 0
  • 忆秦娥 梦洛轩 残阳晚,少时风景长相叹。 长相叹,青梅遗泪,杜鹃啼怨。 些时怅忆流年...
    梦洛轩阅读 357评论 0 0
  • 用了一年的时间去看远方 追求梦想 我以为我会走得更远 然而 觉得累了 走了一些路 看了一些书 寻求不一样的人生 不...
    江厘阅读 185评论 1 1