关于无监督、聚类和主题模型

Some references

1 吴恩达ML

Clustering

image.png

K-Means (usually two steps in each inner loop)

image.png

First step: Cluster assignments steps
Next: move cluster centroid to where close to the average of other dots

image.png

Optimization objective
image.png

distortion function

Random Initialization

随机选点

容易陷入局部最优 所以要多次kmeans

K值较小时random可以更好的最小化畸变函数而比较好地聚类

Choosing the number of K
更多的时候是自己设置,there isnt always a good answer

elbow并不常用

image.png

2. 北理工ML

主题模型

发展历程

image.png

MK矩阵:每个词w 在 m行文档K列主题 的分布矩阵
image.png

吉布斯采样

3. 周志华ML

聚类

  • 聚类试图将数据集中的样本划分为若干个通常是不相交的子集,每个子集 称为一个"簇" (cluster). 聚类过程仅能自动形成簇结构,簇所对应的概念语义需由使用者来把握和命名.
  • 性能度量:聚类结果的"簇内相似 度" (intra-cluster similarity)高且"簇间相似度" (inter-cluster similarity)低. 聚类性能度量大致有两类. 一类是将聚类结果与某个"参考模 型" (reference model)进行比较,称为"外部指标" (external i丑dex); 另一 类是直接考察聚类结果而不利用任何参考模型,称为"内部指标" (internal index).

Prototype-based clustering

K-means


©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容