weka详解

本篇文章针对weka API的几个简单使用介绍,weka官网文档介绍非常详细,可参考。

1. weka官网:https://www.cs.waikato.ac.nz/~ml/weka/

2. weka官方文档:https://waikato.github.io/weka-wiki/

3. weka API文档:https://weka.sourceforge.io/doc.stable-3-8/

4. 推荐值得学习的blog:https://www.cnblogs.com/zlslch/category/999872.html

此博客是介绍weka比较系统和详细的博客,有些不明白的地方可以查看官网。

备注:weka官方文档上有相应例子,有些例子对应版本比较旧,可对应更新为自己使用的版本

建议看下官网的有关weka视频的介绍:https://youtu.be/TF1yh5PKaqI

一、Java调用Weka API创建Arff文件

Arff(attribute relation file format 关系属性格式)文件是一种由独立、无序实例组成的数据集文件,是一种 ASCII 文本文件。在 Arff 文件中,%开始表示注释;@relation 表示数据之间的关系;@attribute 表示字段名称和字段类型;@data 表示具体的数据,同时数据的顺序要和@attribute 中的属性保持一致。文件内容中,最开始的部分显示文件注释,之后显示关系的名字和属性的具体定义,在属性下是具体的数据集合。

1. 总共就这么四步,关键代码:

1)一开始需要实例化一个Vector来保存数据属性:

FastVector atts =newFastVector();// 保存属性

2)同时需要有保存单条数据

double[]vals;// arff保存单条数据

3)判断数据格式之后新建数据属性:

atts.addElement(newAttribute(numName));

4)之后填充数据:

vals[j] =instances.attribute(j).addStringValue("XXXXX");

2. 完整代码:

/** * 创建合法格式的Arff文件 * * @param data 该参数为封装好的Data参数,数据类型为 * Map<String, List<Object>> * @return * @throws Exception */

    public String createArffFile(Data data, int userID) throws Exception {

        FastVector atts = new FastVector();// 保存属性

        double[] vals;// arff保存单条数据

        // 创建List作为数据类型flag

        List<Object> indexList = new LinkedList<Object>();

        // 获取data数据

        wekaData = XMLParser.praseXML(data.getData_Content());

        // 获取data中的第0行为title,第一行为判断数据类型

        List<Object> titleList = wekaData.get("0");

        List<Object> firstList = wekaData.get("1");

        // 遍历title中的数据类型,为arff文件创建attribute

        for (int i = 0; i < firstList.size(); i++) {

            Object obj = firstList.get(i);

            String objStr = obj.toString();

            if (isNumeric(objStr)) {

                indexList.add("Numeric");

                String numName = String.valueOf(titleList.get(i));

                atts.addElement(new Attribute(numName));

            } else if (isValidDate(objStr)) {

                indexList.add("Date");

                atts.addElement(new Attribute((String) titleList.get(i), "yyyy-MM-dd"));

            } else {

                indexList.add("String");

                atts.addElement(new Attribute((String) titleList.get(i), (FastVector) null));

            }

        }

        // 必须放在创建attribute之后 否则会报异常

        Instances instances = new Instances(data.getData_Name(), atts, 0); // 创建一个weka data实例

        System.out.println(indexList);

        // 填充数据

        for (int i = 1; i < wekaData.size(); i++) {

            vals = new double[instances.numAttributes()];

            String index = String.valueOf(i);

            int length = wekaData.get(index).size();

            System.out.println(length);

            // 遍历填充

            for (int j = 0; j < length; j++) {

                if (indexList.get(j).equals("String")) {

                    System.out.println("string");

                    vals[j] = instances.attribute(j).addStringValue((String) wekaData.get(index).get(j));

                } else if (indexList.get(j).equals("Numeric")) {

                    System.out.println("number");

                    System.out.println((String) wekaData.get(index).get(j));

                    double num = Double.valueOf((String) wekaData.get(index).get(j));

                    vals[j] = num;

                }

            }

            instances.add(new Instance(1.0, vals));

            // end

        }

        System.out.println(instances.toString());

        // IP时间戳工具

        IPTimeStamp ipTimeStamp = new IPTimeStamp();

        // 保存文件加时间戳重命名,防止不同文件重名覆盖

        String fileName = ipTimeStamp.getIPTimeRand() + "_" + userID + "_" + data.getData_Name();

        String path = configProperty.getArffPath() + fileName + ".arff";

        File outFile = new File(path);

        FileUtils.writeStringToFile(outFile, instances.toString(), false);

        System.out.println("ArffPath" + configProperty.getArffPath());

        return path;

    }

构建好的格式举例:K-means聚类样本.arff

@relation K-means聚类样本

@attribute X numeric

@attribute Y numeric

@data

0,0

1,0

二、Weka API使用训练好的已知模型进行实时预测

1、自己根据属性构建instance实例。

2、调用之前已经训练的模型,调用时需要将模型强制转变为模型机器学习类型,如NaiveBayes的模型需要这样操作。

Classifier m_Classifier = (NaiveBayes)SerializationHelper.read(new FileInputStream("model/bayes.model"));

以下是本文构建的Weka实时预测功能:

本实例中instance具有四个属性,第一个为double属性,第二个是double属性,第三个是Nominal类型,第四个是Class类型(预测值)。

注:本文中使用的模型可以使用Weka图形界面操作生成。

代码思路:

首先,构建一个instances结构,构建instances具有什么样的属性;其次,指定instances的类别索引,即指定哪个属性代表的是类别。之后,构建instance实例,将instances的结构框架指定为instance的数据集,给instance赋值,此处传值时不需要传入Class值,因为这是我们要预测的;最后,使用已知模型的classifyInstance方法对instance进行预测,再根据预测出的索引得到预测类别的值。

以下是编写的Weka实时预测代码:

import java.io.FileInputStream;

import java.io.FileNotFoundException;

import weka.classifiers.Classifier;

import weka.classifiers.bayes.NaiveBayes;

import weka.core.Attribute;

import weka.core.FastVector;

import weka.core.Instance;

import weka.core.Instances;

import weka.core.SerializationHelper;

public class WekaTestInstance

{

    Instances m_Data = null;

    Classifier m_Classifier = null;

    public WekaTestInstance() throws FileNotFoundException, Exception

    {

        m_Classifier = (NaiveBayes)SerializationHelper.read(new FileInputStream("model/bayes.model")); 


        String nameOfDataset = "messDataset";

        FastVector attributes = new FastVector();

        attributes.addElement(new Attribute("aa"));

        attributes.addElement(new Attribute("bb"));


        FastVector fvNominalVal = new FastVector(3);

        fvNominalVal.addElement("blue");

        fvNominalVal.addElement("gray");

        fvNominalVal.addElement("black");             

        attributes.addElement(new Attribute("Nominal", fvNominalVal));


        FastVector classValues = new FastVector(2);

        classValues.addElement("pos");

        classValues.addElement("neg");

        attributes.addElement(new Attribute("Class", classValues));

        m_Data = new Instances(nameOfDataset, attributes, 10);

        m_Data.setClassIndex(m_Data.numAttributes()-1);

    }

    public void classifyMessage(double aa,double bb,String nominal) throws Exception

    {

        Instances testset = m_Data.stringFreeStructure();

        Instance instance = makeInstance(aa,bb,nominal,testset);

        System.out.println(m_Data.numAttributes());

        System.out.println(instance);

        double predicted = m_Classifier.classifyInstance(instance);

        System.out.println("predicted:"+predicted);

        System.out.println("Message classified as : " +

                m_Data.classAttribute().value((int)predicted));

    }

    private Instance makeInstance(double aa,double bb,String nominal,Instances data)

    {

        Instance instance = new Instance(4);

        instance.setDataset(data);

        Attribute aaAtt = data.attribute("aa");

        Attribute bbAtt = data.attribute("bb");

        Attribute nominalAtt = data.attribute("Nominal");


        instance.setValue(aaAtt, aa);

        instance.setValue(bbAtt, bb);

        instance.setValue(nominalAtt, nominal);


//      instance.setValue((Attribute)instance.attribute(0), aa);

//      instance.setValue((Attribute)instance.attribute(1), bb);

//      instance.setValue((Attribute)instance.attribute(2),nominal);       

        return instance;

    }

    public static void main(String[] args) throws Exception

    {

        WekaTestInstance wTestInstance = new WekaTestInstance();

        wTestInstance.classifyMessage(5.6,9.9,"gray");

    }

}

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,723评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,003评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,512评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,825评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,874评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,841评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,812评论 3 416
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,582评论 0 271
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,033评论 1 308
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,309评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,450评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,158评论 5 341
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,789评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,409评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,609评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,440评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,357评论 2 352

推荐阅读更多精彩内容