【毕设进行时-工业大数据,数据挖掘】一种基于熵的连续属性离散化算法(EADC)Java实现!

正文之前

事情是这样的,我前面说过了。。。。就是我的毕业论文字数写到14200的时候就感觉有点写不动了,虽然还有性能度量和致谢和一大批的文献参考没写,但是我总感觉这样不妥,所以就特地的又加了点东西。在后剪枝方法和连续值离散化之间,我选择了离散化这个相对好点的东西。后剪枝感觉没什么好补充的。。

超喜欢的长腿跳舞小姐姐

正文

从不废话,先放代码!

/* *********************
 * Author   :   HustWolf --- 张照博

 * Time     :   2018.1-2018.5

 * Address  :   HUST

 * Version  :   1.0

 * 定义一些静态的数值,并且提供getter
 ********************* */

import java.text.NumberFormat;
import java.util.*;

class Alone_Value_Category  implements Comparable<Alone_Value_Category>{
    private float sensor;
    private float category;
    //    private float[] range = new float[2];
    Alone_Value_Category(float a, float b){
        super();
        this.sensor = a;
        this.category = b;
    }

    float getSensor(){
        return  sensor;
    }
    float getCategory(){
        return category;
    }
    //    void setRange(float a, float b){
//        range[0] = a;
//        range[1] =b;
//    }
    @Override
    public String toString() {
        return "\n[Sensor:" + sensor + ", category=" + category + "]";
    }
    @Override
    public int compareTo(Alone_Value_Category o) {
        return Float.compare(this.sensor,o.sensor);
    }
}

上面这个是👆定义的一个存储数据的地方,这个类用来分割数据,做到单属性对分类的格式。一条4 Sensor 1Category 一共会被拆解为4个这种类的实例分别参与EADC离散化的过程。

class Interval{
    private float top;
    private float bottom;
    public Map<Float,List<Alone_Value_Category> > sample = new HashMap<Float, List<Alone_Value_Category>>();
    Interval(){};
    Interval(Interval b){
        top = b.top;
        bottom = b.bottom;
        sample = b.sample;
    }
    Interval(float a, float b, float c, List<Alone_Value_Category> d){
        this.top = a;
        this.bottom = b;
        sample.put(c,d);
    }

    public float getTop() {
        return top;
    }

    public float getBottom() {
        return bottom;
    }

    public void setTop(float top) {
        this.top = top;
    }

    public void setBottom(float bottom) {
        this.bottom = bottom;
    }

    public void setSample(Map<Float, List<Alone_Value_Category>> sample) {
        this.sample = sample;
    }

    public Interval addTmp(Interval b){
        Interval re = new Interval(b);
        if (top>b.top) re.setTop(top);
        else re.setTop(b.top);
        if (bottom<b.bottom) re.setBottom(bottom);
        else re.setBottom(b.bottom);
        re.sample.putAll(sample);
        return re;
    }
    public void merge(Interval b){
        if (top<b.top)
            top = b.top;
        if (bottom>b.bottom)
            bottom = b.bottom;
        sample.putAll(b.sample);
    }
    public int getCount(){
        int count = 0;
        for(List<Alone_Value_Category> s:sample.values()){
            count+=s.size();
        }
        return count;
    }
    @Override
    public String toString() {
        return "bottom:"+bottom+" top:"+top+" size:"+getCount();
    }
}

区间类,每一个区间有上界,下界,还有对应的Alone_Value_Category集合。不过这里面的集合是按照类别-->List的模式存储。按照我的数据,应该是每一个Interval都有两个List

public class Parameter {
    private static int rate = 2;
    private static int trainNum = 40000;
    private static int testNum = trainNum/rate;
    public static int getTrainNum(){
        return trainNum;
    }
    public static int getRate(){
        return rate;
    }
    public static int getTestNum(){
        return testNum;
    }
    public static int getTestDistance(){
        return 2000000/testNum;
    }
    public static int getTrainDistance(){
        return 2000000/trainNum;
    }
    public static void setRate(int r){
        rate = r;
        testNum = trainNum / rate;
    }   
    public static void setTrainNum(int t){
        trainNum = t;
        testNum = trainNum / rate;
    }
    public static void setTestNum(int t){
        testNum = t;
        trainNum = testNum * rate;
    }


    public static void Clear(ArrayList<Interval> allInterval){
        ArrayList<Interval> del = new ArrayList<>();
        for (int s = 0;s<allInterval.size();++s) {
            if (allInterval.get(s).getCount() == 0){
                if (s>0) {
                    allInterval.get(s - 1).merge(allInterval.get(s));
                    del.add(allInterval.get(s));
                }
                continue;
            }
        }
        allInterval.removeAll(del);
    }
    static double Entropy(ArrayList<Interval> set, int size){
        double shang = 0;
        NumberFormat nf = NumberFormat.getNumberInstance();
        nf.setMaximumFractionDigits(4);
        for (Interval x:set){
            double p =(double)x.getCount()/(double)size;
            shang  -= p*(Math.log(p)/Math.log(2));
        }
        return  Double.parseDouble(nf.format(shang));
    }
    public static ArrayList<List<Float>> EADC(float[][] dat) {
        ArrayList<List<Float>> re = new  ArrayList<>();
        for (int valueindex = 0; valueindex< dat[0].length-1;++valueindex) {
            ArrayList<Alone_Value_Category> LIST = new ArrayList<>();
            for (int i = 0; i < dat.length; ++i) {
                LIST.add(new Alone_Value_Category(dat[i][valueindex], dat[i][dat[valueindex].length - 1]));
                //便利旧集合没有就添加到新集合
            }
            Collections.sort(LIST);
            float len = LIST.get(LIST.size() - 1).getSensor() - LIST.get(0).getSensor();
            int k = 40;
            float gap = (len + 1) / k;
            float Lowest = LIST.get(0).getSensor() - 0.50f;
            float Highest = LIST.get(LIST.size()-1).getSensor() + 0.50f;
            NumberFormat nf = NumberFormat.getNumberInstance();
            nf.setMaximumFractionDigits(1);
            List<Float> range = new LinkedList<>();
            for (int x = 0; x <= k; ++x) {
                range.add(Float.parseFloat(nf.format(Lowest + x * gap)));
            }
            ArrayList<Interval> allInterval = new ArrayList<>();
            for (int i = 0; i < k; ++i) {
                Interval newarea = new Interval();
                newarea.setBottom(range.get(i));
                newarea.setTop(range.get(i + 1));
                for (Alone_Value_Category s : LIST) {
                    if (s.getSensor() > range.get(i) && s.getSensor() < range.get(i + 1)) {
                        if (!newarea.sample.containsKey(s.getCategory())) {
                            newarea.sample.put(s.getCategory(), new LinkedList<>());
                        }
                        newarea.sample.get(s.getCategory()).add(s);
                    }
                }
                allInterval.add(newarea);
            }
            int size = 0;
            Clear(allInterval);
            for (Interval s : allInterval) {
                size += s.getCount();
            }
            k = allInterval.size();
            int k0 = k;
            double Ck0 = 0.5;
            boolean Loop = true;
            double Hpk_1 = 0;
            while (Loop && k >= 10) {
                double minD = 1000;
                int mergePoint = 0;
                double Hp0 = Entropy(allInterval, size);
                double Hpk;
                ArrayList<Interval> newA = new ArrayList<>();
                for (int i = 0; i < allInterval.size() - 1; ++i) {
                    newA.addAll(allInterval);
                    newA.get(i).merge(newA.get(i + 1));
                    newA.remove(i + 1);
                    Hpk = Entropy(newA, size);
                    if (Hpk - Hp0 < minD) {
                        Hpk_1 = Hpk;
                        minD = Hpk - Hp0;
                        mergePoint = i;
                    }
                    newA.clear();
                }
                allInterval.get(mergePoint).merge(allInterval.get(mergePoint + 1));
                allInterval.remove(allInterval.get(mergePoint + 1));
                double Ck_1 = (k0 - 1) * Hpk_1 - Hp0 * (k - 2);
                if (Ck_1 > Ck0) {
                    --k;
                } else {
                    Loop = false;
                    --k;
                }
//                Ck = Ck_1;
            }
            range.clear();
            range.add(-100f);
            for (Interval s:allInterval) {
                range.add(s.getTop());
            }
            range.add(100f);
            re.add(range);
//        long endTime=System.currentTimeMillis(); //获取结束时间
//        System.out.println("\n程序运行时间: "+(endTime-startTime)+"ms");
        }
        return re;
    }
}

主体类,也是EADC算法的(一种基于熵的连续属性离散化算法)的Java实现!我是三天晒网,一天打渔,不过终于今天还是肝出来了。。这就意味着差不多要收工了!美滋滋Q!!!

具体来说其实还好吧。。。等后面毕业了我把我的毕业论文写成简书发出来,大家伙就看的明白了咯!现在先上数学表达!

最后得到的伪代码就是下面的了:

当然,他这个有点看不明白,看我的解释吧!

整个离散化的过程如下:
(1) 从数据库读取数据,传入到离散化方法中;
(2) 先针对单一的属性,取出所有的值,并且对其进行排序;
(3) 排序后划分区间,并且利用熵的计算公式计算出初始熵,设置度量数值Ck = 0 ;
(4) 合并两个相邻区间,使合并前后的熵差最小,并且重置划分点,保存合并后的熵值;
(5) 根据上面的度量公式计算出Ck-1 = h;
(6) 如果Ck-1 > Ck ,那么k = k -1,回到第(4)步;
(7) 如果Ck-1 < Ck ,保存当前的区间划分,结束区间划分进程;
(8) 将传入的数据根据当前区间划分进行离散化。
离散化流程图如下:

上面这图花了好久。才算是理清了。。。不容易啊不容易!!

正文之后

争取今晚写完论文,明天排版完毕,最好事明天先自查,然后大后天上知网查重。。。大大后天,要给某人一个惊喜,就是不知道她能不能看到了!!

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,542评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,596评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,021评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,682评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,792评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,985评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,107评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,845评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,299评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,612评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,747评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,441评论 4 333
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,072评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,828评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,069评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,545评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,658评论 2 350

推荐阅读更多精彩内容