【转载】机器学习算法实践——K-Means算法与图像分割

https://blog.csdn.net/google19890102/article/details/52911835


一、理论准备

1.1、图像分割

图像分割是图像处理中的一种方法,图像分割是指将一幅图像分解成若干互不相交区域的集合,其实质可以看成是一种像素的聚类过程。通常使用到的图像分割的方法可以分为:

基于边缘的技术

基于区域的技术

基于聚类算法的图像分割属于基于区域的技术。

1.2、K-Means算法

K-Means算法是基于距离相似性的聚类算法,通过比较样本之间的相似性,将形式的样本划分到同一个类别中,K-Means算法的基本过程为:

初始化常数 ,随机初始化k个聚类中心

重复计算以下过程,直到聚类中心不再改变

计算每个样本与每个聚类中心之间的相似度,将样本划分到最相似的类别中

计算划分到每个类别中的所有样本特征的均值,并将该均值作为每个类新的聚类中心

输出最终的聚类中心以及每个样本所属的类别

在K-Means算法中,需要随机初始化k个聚类中心,而K-Means算法对初始聚类中心的选取较为敏感,若选择的聚类中心不好,则得到的聚类结果会非常差,因此,对K-Means算法提出了很多的改进的方法,如K-Means++算法,在K-Means++算法中,希望初始化的k个聚类中心之间的距离尽可能的大,其具体过程为:

在数据集中随机选择一个样本点作为第一个初始化的聚类中心

选择出其余的聚类中心:

计算样本中的每一个样本点与已经初始化的聚类中心之间的距离,并选择其中最短的距离

以概率选择距离最大的样本作为新的聚类中心,重复上述过程,直到 个聚类中心都被确定

对k个初始化的聚类中心,利用K-Means算法计算最终的聚类中心。

对于K-Means算法的具体过程可以参考博文简单易学的机器学习算法——kMeans,K-Means++算法的具体过程稍后会补充。

二、实践准备

实践中使用Python作为开发语言,使用到的模块包括numpy和Image。numpy模块是python中矩阵计算使用最多的模块。

Image模块是PIL(Python Imaging Library)中的模块,对于Image模块,主要是对图像的一些操作:

模块的头文件

import Image as image

打开图片

fp = open("003.JPG", "rb")

im = image.open(fp)

首先是以二进制文件的形式打开文件,再利用Image模块的open方法导入图片。

对于如下的图片(圣托里尼):

图片的属性

im.format, im.size, im.mode

得到的结果为:JPEG (1600, 1067) RGB

通道分离:

r,g,b = im.split()

分割成三个通道,此时r,g,b分别为三个图像对象。

取得像素点的值

im.getpixel((4,4))

由于是RGB三通道的,因此此处的值为:(151, 169, 205)

改变单个像素点的值

im.putpixel(xy, color)

图像类型转换:

im=im.convert("L")

由RGB的图像转成灰度的图像,其结果为:

生成新的图像

Image.new(mode, size)

Image.new(mode, size, color)

如:newImg = Image.new(“GBA”,(640,480),(0,255,0))

保存图片

im.save("save.gif","GIF")

三、利用K-Means++算法进行图像分割

3.1、利用K-Means++聚类

在利用K-Means++算法进行图像分割时,将图像中的每一个像素点作为一个样本,对RGB图像来说,每个样本包括三维:(151, 169, 205),通过归一化,将每个通道的值压缩到[0,1]区间上。数据的导入和处理如下面程序所示:

#coding:UTF-8

import Image as image

import numpy as np

from KMeanspp import run_kmeanspp

def load_data(file_path):

    '''导入数据

    input:  file_path(string):文件的存储位置

    output: data(mat):数据

    '''

    f = open(file_path, "rb")  # 以二进制的方式打开图像文件

    data = []

    im = image.open(f)  # 导入图片

    m, n = im.size  # 得到图片的大小

    print m, n

    for i in xrange(m):

        for j in xrange(n):

            tmp = []

            x, y, z = im.getpixel((i, j))

            tmp.append(x / 256.0)

            tmp.append(y / 256.0)

            tmp.append(z / 256.0)

            data.append(tmp)

    f.close()

    return np.mat(data)


最终保存成矩阵的形式,矩阵的行为样本的个数,列为每一个通道的数值(RGB)。在利用K-Means++算法对样本进行聚类。主函数如下述代码所示:

if __name__ == "__main__":

k = 10#聚类中心的个数

# 1、导入数据

print "---------- 1.load data ------------"

data = load_data("001.jpg")

# 2、利用kMeans++聚类

print "---------- 2.run kmeans++ ------------"

run_kmeanspp(data, k)


k表示的是聚类的个数。K-Means++程序的实现如下面程序所示:

# coding:UTF-8

'''

Date:20160923

@author: zhaozhiyong

'''

import numpy as np

from random import random

from KMeans import distance, kmeans, save_result

FLOAT_MAX = 1e100  # 设置一个较大的值作为初始化的最小的距离

def nearest(point, cluster_centers):

    '''计算point和cluster_centers之间的最小距离

    input:  point(mat):当前的样本点

        cluster_centers(mat):当前已经初始化的聚类中心

    output: min_dist(float):点point和当前的聚类中心之间的最短距离

    '''

    min_dist = FLOAT_MAX

    m = np.shape(cluster_centers)[0]  # 当前已经初始化的聚类中心的个数

    for i in xrange(m):

        # 计算point与每个聚类中心之间的距离

        d = distance(point, cluster_centers[i, ])

        # 选择最短距离

        if min_dist > d:

            min_dist = d

    return min_dist

def get_centroids(points, k):

    '''KMeans++的初始化聚类中心的方法

    input:  points(mat):样本

        k(int):聚类中心的个数

    output: cluster_centers(mat):初始化后的聚类中心

    '''

    m, n = np.shape(points)

    cluster_centers = np.mat(np.zeros((k , n)))

    # 1、随机选择一个样本点为第一个聚类中心

    index = np.random.randint(0, m)

    cluster_centers[0, ] = np.copy(points[index, ])

    # 2、初始化一个距离的序列

    d = [0.0 for _ in xrange(m)]

    for i in xrange(1, k):

        sum_all = 0

        for j in xrange(m):

            # 3、对每一个样本找到最近的聚类中心点

            d[j] = nearest(points[j, ], cluster_centers[0:i, ])

            # 4、将所有的最短距离相加

            sum_all += d[j]

        # 5、取得sum_all之间的随机值

        sum_all *= random()

        # 6、获得距离最远的样本点作为聚类中心点

        for j, di in enumerate(d):

            sum_all -= di

            if sum_all > 0:

                continue

            cluster_centers[i] = np.copy(points[j, ])

            break

    return cluster_centers

def run_kmeanspp(data, k):

    # 1、KMeans++的聚类中心初始化方法

    print "\t---------- 1.K-Means++ generate centers ------------"

    centroids = get_centroids(data, k)

    # 2、聚类计算

    print "\t---------- 2.kmeans ------------"

    subCenter = kmeans(data, k, centroids)

    # 3、保存所属的类别文件

    print "\t---------- 3.save subCenter ------------"

    save_result("sub_pp", subCenter)

    # 4、保存聚类中心

    print "\t---------- 4.save centroids ------------"

save_result("center_pp", centroids)


在上述代码中主要是初始化k个聚类中心,K-Means算法的核心程序如下所示:

# coding:UTF-8

'''

Date:20160923

@author: zhaozhiyong

'''

import numpy as np

def distance(vecA, vecB):

    '''计算vecA与vecB之间的欧式距离的平方

    input:  vecA(mat)A点坐标

        vecB(mat)B点坐标

    output: dist[0, 0](float)A点与B点距离的平方

    '''

    dist = (vecA - vecB) * (vecA - vecB).T

    return dist[0, 0]

def randCent(data, k):

    '''随机初始化聚类中心

    input:  data(mat):训练数据

        k(int):类别个数

    output: centroids(mat):聚类中心

    '''

    n = np.shape(data)[1]  # 属性的个数

    centroids = np.mat(np.zeros((k, n)))  # 初始化k个聚类中心

    for j in xrange(n):  # 初始化聚类中心每一维的坐标

        minJ = np.min(data[:, j])

        rangeJ = np.max(data[:, j]) - minJ

        # 在最大值和最小值之间随机初始化

        centroids[:, j] = minJ * np.mat(np.ones((k , 1))) + np.random.rand(k, 1) * rangeJ

    return centroids

def kmeans(data, k, centroids):

    '''根据KMeans算法求解聚类中心

    input:  data(mat):训练数据

        k(int):类别个数

        centroids(mat):随机初始化的聚类中心

    output: centroids(mat):训练完成的聚类中心

        subCenter(mat):每一个样本所属的类别

    '''

    m, n = np.shape(data)  # m:样本的个数,n:特征的维度

    subCenter = np.mat(np.zeros((m, 2)))  # 初始化每一个样本所属的类别

    change = True  # 判断是否需要重新计算聚类中心

    while change == True:

        change = False  # 重置

        for i in xrange(m):

            minDist = np.inf  # 设置样本与聚类中心之间的最小的距离,初始值为争取穷

            minIndex = 0  # 所属的类别

            for j in xrange(k):

                # 计算i和每个聚类中心之间的距离

                dist = distance(data[i, ], centroids[j, ])

                if dist < minDist:

                    minDist = dist

                    minIndex = j

            # 判断是否需要改变

            if subCenter[i, 0] <> minIndex:  # 需要改变

                change = True

                subCenter[i, ] = np.mat([minIndex, minDist])

        # 重新计算聚类中心

        for j in xrange(k):

            sum_all = np.mat(np.zeros((1, n)))

            r = 0  # 每个类别中的样本的个数

            for i in xrange(m):

                if subCenter[i, 0] == j:  # 计算第j个类别

                sum_all += data[i, ]

                r += 1

            for z in xrange(n):

                try:

                    centroids[j, z] = sum_all[0, z] / r

                    print r

                except:

                    print " r is zero" 

    return subCenter

def save_result(file_name, source):

    '''保存source中的结果到file_name文件中

    input:  file_name(string):文件名

        source(mat):需要保存的数据

    output:

    '''

    m, n = np.shape(source)

    f = open(file_name, "w")

    for i in xrange(m):

        tmp = []

        for j in xrange(n):

            tmp.append(str(source[i, j]))

        f.write("\t".join(tmp) + "\n")

    f.close()


3.2、利用聚类结果生成新的图片

上述的过程中,对每一个像素点进行了聚类,最终利用聚类中心点的RGB值替换原图中每一个像素点的值,便得到了最终的分割后的图片,代码如下所示:

#coding:UTF-8

import Image as image

f_center = open("center_pp")

center = []

for line in f_center.readlines():

    lines = line.strip().split("\t")

    tmp = []

    for x in lines:

        tmp.append(int(float(x) * 256))

    center.append(tuple(tmp))

print center

f_center.close()

fp = open("001.jpg", "rb")

im = image.open(fp)

# 新建一个图片

m, n = im.size

pic_new = image.new("RGB", (m, n))

f_sub = open("sub_pp")

i = 0

for line in f_sub.readlines():

    index = float((line.strip().split("\t"))[0])

    index_n = int(index)

    pic_new.putpixel(((i/n),(i % n)),center[index_n])

    i = i + 1

f_sub.close()

pic_new.save("result.jpg", "JPEG")     


对于上述的圣托里尼的图片,取不同的k值,得到如下的一些结果:

原图

k=3

k=5

k=7

k=10

参考文章

Kmeans聚类及图像分割

聚类算法研究及在图像分割中的应用

基于聚类算法的图像分割综述

【图像处理】Python-Image 基本的图像处理操作

---------------------

作者:zhiyong_will

来源:CSDN

原文:https://blog.csdn.net/google19890102/article/details/52911835

版权声明:本文为博主原创文章,转载请附上博文链接!

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,463评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,868评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,213评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,666评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,759评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,725评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,716评论 3 415
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,484评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,928评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,233评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,393评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,073评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,718评论 3 324
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,308评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,538评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,338评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,260评论 2 352

推荐阅读更多精彩内容

  • 无监督学习 利用无标签的数据学习数据的分布或数据与数据之间的关系被称作无监督学习 有监督学习和无监督学习的最大区别...
    不做大哥好多年阅读 4,630评论 0 9
  • 最近打算把所有的数据挖掘领域的算法研究一遍并用python实现写成文章。本篇是对KMeans算法的上半段代码的实现...
    H2016阅读 1,629评论 -1 4
  • 机器学习算法与Python实践这个系列主要是参考《机器学习实战》这本书。因为自己想学习Python,然后也想对一些...
    MiracleJQ阅读 12,368评论 0 0
  • 聚类,是机器学习的任务之一。同分类算法一样,聚类算法也被广泛的应用在各个领域,如根据话题,对文章、网页和搜索结果做...
    飞鱼sccch阅读 1,224评论 0 0
  • 今天写政治论文时想到了有关新时代“中国梦”思想在当代大学生中传播的必要性。 将“中国梦”融入大学生思想政治教育,引...
    王凌志志志志阅读 330评论 0 0