请问利用余弦相似度聚类时,类中心怎么确定呢。仍然用均值吗?
大量短文本聚类效果优化:余弦相似度,Spark,Mini Batch Kmeans1. 背景 1.1 问题概述 有10万+条短文本,均是用户反馈的问题(每条文本长度大概在200字左右),需要对这些文本进行主题聚类,看下用户反馈的问题都集中在哪些方面。 1....
请问利用余弦相似度聚类时,类中心怎么确定呢。仍然用均值吗?
大量短文本聚类效果优化:余弦相似度,Spark,Mini Batch Kmeans1. 背景 1.1 问题概述 有10万+条短文本,均是用户反馈的问题(每条文本长度大概在200字左右),需要对这些文本进行主题聚类,看下用户反馈的问题都集中在哪些方面。 1....