在Weka中实现流形学习Isomap中的距离计算

最近因为项目需求,需要时在weka上实现流形距离计算,因为weka没有提供流形学习的包,而smile提供了,于是我根据smile的等距离度量(Isomap)来重写了一个可在weka上使用的流形距离计算类。

欧式距离是最常用的距离度量,但是在数据集不具有全局线性结构是,欧氏距离就不是一种合理的数据距离度量,一般使用拓扑流形结构来度量高维度的非线线性数据。这种方法通常用了对数据进行降维,也被称为流形学习。

定义1:
流形两点间x1, x2的线段长度定义为 L(x1, x2) = exp(d(x1, x2) / σ) -1
定义2:
将数据点看作是无向有权图G=(V, E),V是顶点集合,E是边集P的集合,Pij表示图上数据点Xi, Xj的所有路径集合,则Xi,Xj的流形距离为 MD(xi, xj)=min∑L(pk, pk+1), 1≤k≤|p| - 1

算法流程:

for i = 1,2,3...m do
    确定xi的k个最近邻
    将xi与k个最近邻的距离设为定义的距离公式,与自己的距离设为0,与其他点距离设为-1
    将这些数值添加进入邻接矩阵
end

根据邻接矩阵构建一个有权无向图的对象
使用dijkstra最短距离求出图上任意两点的最短距离

ManifoldDistance.java

import weka.core.EuclideanDistance;
import weka.core.Instances;

import java.util.*;

/**
 * Created by Administrator on 2017/3/15.
 */
public class ManifoldDistance {
    private final Instances data;
    private final int k;
    private final double sigma;
    private double[][] matrix;
    private Graph graph = new Graph();

    /**
     * 流形学习的距离计算类的构造方法
     *
     * @param data  要计算的instances类型的数据集
     * @param k     KNN需要指定的参数k
     * @param sigma     距离公式需要的参数σ
     */
    public ManifoldDistance(Instances data, int k, double sigma) {
        this.data = data;
        this.k = k;
        this.sigma = sigma;
    }

    public Instances getData() {
        return data;
    }

    public int getK() {
        return k;
    }

    public double getSigma() {
        return sigma;
    }

    public double[][] getMatrix() {
        return matrix;
    }

    /**
     * 构造数据data的邻接矩阵
     *
     * @return      double[][]类型的邻接矩阵
     */
    private double[][] constructWeightMatrix() {
        int num = this.data.numInstances();
        double[][] weight_matrix = new double[num][num];
        EuclideanDistance calculateDistance = new EuclideanDistance(this.data);

        for(int i = 0; i < num; i++){
            HashMap<Integer, Double> temp = new HashMap<>();
            for(int j = 0; j < num; j++){
                if(i != j) {
                    double dist = calculateDistance.distance(this.data.instance(i), this.data.instance(j));
                    temp.put(j, Math.exp(dist / this.sigma) - 1);
                }else{
                    temp.put(j, 0.0);
                }
            }

            ArrayList<Integer> index = nearestNeighbor(temp);
            for(int n = 0; n < num; n++){
                if(index.contains(n)){
                    weight_matrix[i][n] = temp.get(n);
                    weight_matrix[n][i] = temp.get(n);
                }else if(i == n){
                    weight_matrix[i][i] = 0.0;
                }else{
                    if(weight_matrix[i][n] == 0.0) {
                        weight_matrix[i][n] = -1.0;
                    }
                }
            }
        }
        return weight_matrix;
    }

    /**
     * 计算K个最近邻
     *
     * @param temp  当前向量i与其他所有向量的距离
     * @return      k个最近邻所在的位置索引
     */
    private ArrayList<Integer> nearestNeighbor(HashMap<Integer, Double> temp){
        ArrayList<Integer> index = new ArrayList<>();
        ArrayList<Map.Entry<Integer, Double>> list = new ArrayList<>(temp.entrySet());
        list.sort((o1, o2) -> o2.getValue().compareTo(o1.getValue()));

        int count = 0;
        for (Map.Entry<Integer, Double> aList : list) {
            if(count >= this.k){
                break;
            }else {
                index.add(aList.getKey());
                count++;
            }
        }
        return index;
    }

    /**
     * 生成邻接矩阵与对应的无向有权图
     */
    public void build(){
        this.matrix = constructWeightMatrix();

        int num = this.matrix.length;

        HashMap<String, List<Vertex>>edge = new HashMap<>();
        for (int i = 0; i < num; i++){
            edge.put(Integer.toString(i), new ArrayList<>());
        }

        for (int i = 0; i < num; i++){
            for (int j = 0; j < num; j++){
                if (this.matrix[i][j] > 0){
                    List<Vertex> iedge = edge.get(Integer.toString(i));
                    iedge.add(new Vertex(Integer.toString(j), this.matrix[i][j]));
                    edge.put(Integer.toString(i), iedge);

                    List<Vertex> jedge = edge.get(Integer.toString(j));
                    jedge.add(new Vertex(Integer.toString(i), this.matrix[i][j]));
                    edge.put(Integer.toString(j), jedge);
                }
            }
        }

        for(String i : edge.keySet()){
            List<Vertex> toVertex = edge.get(i);
            this.graph.addVertex(i, toVertex);
        }
    }

    /**
     * 获取图上两个向量的dijkstra最短距离
     *
     * @param start     起始点
     * @param end   结束点
     * @return      最短距离的数值
     */
    public double getDistance(String start, String end){
        List<String> path = this.graph.getShortestPath(start, end);
        path.add(start);
        Collections.reverse(path);

        double mDist = 0.0;
        for (int i = 0; i < path.size() - 1; i++){
            int m = Integer.parseInt(path.get(i));
            int n = Integer.parseInt(path.get(i + 1));
            mDist += this.matrix[m][n];
        }

        System.out.println("shortest path:" + path);
        return mDist;
    }
}

Graph.java

import java.util.*;

/**
 * Created by Administrator on 2017/3/14.
 */

class Graph {

    private final Map<String, List<Vertex>> vertices;

    public Graph() {
        this.vertices = new HashMap<>();
    }

    public void addVertex(String character, List<Vertex> vertex) {
        this.vertices.put(character, vertex);
    }

    public List<String> getShortestPath(String start, String finish) {
        final Map<String, Double> distances = new HashMap<>();
        final Map<String, Vertex> previous = new HashMap<>();
        PriorityQueue<Vertex> nodes = new PriorityQueue<>();

        for(String vertex : vertices.keySet()) {
            if (Objects.equals(vertex, start)) {
                distances.put(vertex, 0.0);
                nodes.add(new Vertex(vertex, 0.0));
            } else {
                distances.put(vertex, Double.MAX_VALUE);
                nodes.add(new Vertex(vertex, Double.MAX_VALUE));
            }
            previous.put(vertex, null);
        }

        while (!nodes.isEmpty()) {
            Vertex smallest = nodes.poll();
            if (Objects.equals(smallest.getId(), finish)) {
                final List<String> path = new ArrayList<>();
                while (previous.get(smallest.getId()) != null) {
                    path.add(smallest.getId());
                    smallest = previous.get(smallest.getId());
                }
                return path;
            }

            if (distances.get(smallest.getId()) == Integer.MAX_VALUE) {
                break;
            }

            for (Vertex neighbor : vertices.get(smallest.getId())) {
                Double alt = distances.get(smallest.getId()) + neighbor.getDistance();
                if (alt < distances.get(neighbor.getId())) {
                    distances.put(neighbor.getId(), alt);
                    previous.put(neighbor.getId(), smallest);

                    for(Vertex n : nodes) {
                        if (Objects.equals(n.getId(), neighbor.getId())) {
                            nodes.remove(n);
                            n.setDistance(alt);
                            nodes.add(n);
                            break;
                        }
                    }
                }
            }
        }
        return new ArrayList<>(distances.keySet());
    }
}

Vertex.java

/**
 * Created by Administrator on 2017/3/14.
 */

class Vertex implements Comparable<Vertex> {

    private String id;
    private Double distance;

    public Vertex(String id, Double distance) {
        super();
        this.id = id;
        this.distance = distance;
    }

    public String getId() {
        return id;
    }

    public Double getDistance() {
        return distance;
    }

    public void setId(String id) {
        this.id = id;
    }

    public void setDistance(Double distance) {
        this.distance = distance;
    }

    @Override
    public int hashCode() {
        final int prime = 31;
        int result = 1;
        result = prime * result
                + ((distance == null) ? 0 : distance.hashCode());
        result = prime * result + ((id == null) ? 0 : id.hashCode());
        return result;
    }

    @Override
    public boolean equals(Object obj) {
        if (this == obj)
            return true;
        if (obj == null)
            return false;
        if (getClass() != obj.getClass())
            return false;
        Vertex other = (Vertex) obj;
        if (distance == null) {
            if (other.distance != null)
                return false;
        } else if (!distance.equals(other.distance))
            return false;
        if (id == null) {
            if (other.id != null)
                return false;
        } else if (!id.equals(other.id))
            return false;
        return true;
    }

    @Override
    public String toString() {
        return "Vertex [id=" + id + ", distance=" + distance + "]";
    }

    @Override
    public int compareTo(Vertex o) {
        if (this.distance < o.distance)
            return -1;
        else if (this.distance > o.distance)
            return 1;
        else
            return this.getId().compareTo(o.getId());
    }

}

Demo.java

import weka.core.Instances;

import java.io.FileReader;
import java.io.IOException;

/**
 * Created by Administrator on 2017/3/15.
 */
public class Demo {
    public static void main(String[] args) throws IOException {
        Instances data = new Instances(new FileReader("Test/Manifold/cpu.arff"));
        ManifoldDistance manifold = new ManifoldDistance(data, 20, 2);
        manifold.build();
        for (double[] aMtx : manifold.getMatrix()) {
            for(double v : aMtx){
                System.out.print(v + "   ");
            }
            System.out.println();
        }

        System.out.println(manifold.getDistance("10", "71"));
        System.out.println(manifold.getDistance("71", "10"));
    }
}
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,658评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,482评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,213评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,395评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,487评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,523评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,525评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,300评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,753评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,048评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,223评论 1 343
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,905评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,541评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,168评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,417评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,094评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,088评论 2 352

推荐阅读更多精彩内容