sklearn的各种聚类算法使用教程

编程环境：

anaconda + Spyder
Win10 + python3.6
完整代码及数据已经更新至GitHub,欢迎fork~GitHub链接

声明：创作不易，未经授权不得复制转载
statement:No reprinting without authorization

内容概述：

测试sklearn中以下聚类算法在tweets数据集上的聚类效果
使用NMI(Normalized Mutual Information)作为评价指标
sklearn聚类资料链接

一、sklearn提供的各种聚类方法简介：

image.png

其中各种方法的原理实现可以查看Sklearn的官方文档，不再赘诉。链接如下：
https://scikit-learn.org/stable/modules/clustering.html#

二、对tweet数据集的简单处理：

根据每条推特都有很整齐的格式，可以简单处理出需要的tweet内容文字和true_label，具体实现函数如下：
处理后得到

ground_truth #每条推特的正确聚类标签[37,5,8,58......]
tweets_list #处理过的推特内容列表[推特内容1，内容2，......]。

def token(line):    
    index = line.index(",")
    Text = line[10:index-1]
    cluNumber = line[index+12:-2]
    return (Text,cluNumber)

def tweets_process():
    global ground_truth,tweets_list
    print("tweets processing...")
    f = open(r"C:\Users\93568\Documents\GitHub\DataMining\work5Clustering with sklearn\data\Homework5Tweets.txt")  
    lines = f.readlines()#读取全部内容    
    for line in lines:       
        (text,cluNumber) = token(line)      
        number = int(cluNumber)
        tweets_list.append(text)
        ground_truth.append(number)

三、将tweet表示为tfidf的矩阵：

利用python提供的特征提取的工具包：

from sklearn.feature_extraction.text import  TfidfVectorizer

def get_tfidf_matrix():
    global tfidf_matrix,tweets_list
    tfidf_vectorizer = TfidfVectorizer(tokenizer=token_split, lowercase=True)
    '''
    tokenizer: 指定分词函数
    lowercase: 在分词之前将所有的文本转换成小写，因为涉及到中文文本处理，
    所以最好是False,本tweet数据集已经全是小写可设为True
    '''    
    #tfidf_matrix = tfidf_vectorizer.fit_transform(tweets_list)
    #上面一行代码等价于下面两行代码
    tfidf_vectorizer.fit(tweets_list)
    tfidf_matrix = tfidf_vectorizer.transform(tweets_list)
#    joblib.dump(tfidf_matrix, 'tfidf_matrix.pkl')
#    tfidf_matrix = joblib.load('tfidf_matrix.pkl')

四、运行结果及一些问题：

（1）KMeans:

max_iter=200, n_init=20， init='k-means++'：

#####

（2） AffinityPropagation：

image.png

（3） MeanShift：

开始输入相同的tfidf矩阵时出现
TypeError: A sparse matrix was passed, but dense data is required. Use X.toarray() to convert to a dense numpy array.（使用toarray()/todense()后结果如下：）

image.png

可能是密度质心的方法对于高维数据结果很差,输出的标签结果都是0:

image.png

（4）DBSCN：

没有进行调参，默认参数运行结果如下：

image.png

（5）SpectralClustering、ward hierarchical clustering、AgglomerativeClustering、Birch：

image.png

（6）Gaussian mixtures：略…

最后编辑于：2019.05.17 20:41:00

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,456评论 5赞 477
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,370评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,337评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,583评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,596评论 5赞 365
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,572评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,936评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,595评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,850评论 1赞 297
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,601评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,685评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,371评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,951评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,934评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,167评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 43,636评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,411评论 2赞 342

sklearn的各种聚类算法使用教程

编程环境：

内容概述：

一、sklearn提供的各种聚类方法简介：

二、对tweet数据集的简单处理：

三、将tweet表示为tfidf的矩阵：

四、运行结果及一些问题：

（1）KMeans:

（2） AffinityPropagation：

（3） MeanShift：

（4）DBSCN：

（5）SpectralClustering、ward hierarchical clustering、AgglomerativeClustering、Birch：

（6）Gaussian mixtures：略…

推荐阅读更多精彩内容