什么是LibSVM?
LibSVM是台湾林智仁(Chih-Jen Lin)教授2001年开发的一套支持向量机的库,这套库运算速度还是挺快的,可以很方便的对数据做分类或回归。由于libSVM程序小,运用灵活,输入参数少,并且是开源的,易于扩展,因此成为目前国内应用最多的SVM的库。
下载地址:https://github.com/cjlin1/libsvm
Java配置LibSVM
【第一步】
Git 上下载后libsvm后,打开里面的java文件夹,如图
【第二步】
将【libsvm】这个文件夹直接复制到工程之中(当然你也可以用libsvm.jar,但为了更好的追踪源码,笔者在此选择了源代码文件夹)
【第三步】
将【svm_predict.java】【svm_scale.java】【svm_toy.java】【svm_train.java】这四个工具类的java文件复制进你的工程中,这四个文件进一步简化了libsvm库的使用
准备训练数据
libsvm需要按照自己的格式准备数据,才可以执行。
格式要求如下:
label1 index1:value1 index2:value2...
label2 index1:value1 index2:value2...
...
label 就是标签 index是标号,value就是这个标号下的值。举个例子,班里有4个同学,两男两女。两个男生身高体重分别为171cm,65kg,173cm,66kg,两个女生的升高体重分别为156cm,45kg,157,46kg。男生用标签1代替,女生用-1来代替。这样我们可以建立如下格式的数据:
1 1:171 2:65
1 1:173 2:66
2 1:156 2:45
2 1:157 2:46
保存到trainfile文件下命名为train1.txt有人肯定会质疑第一列是身高,第二列是体重,还干嘛要标志1和2呢?其实,在实际的预测分类中,每一行数据不是所有的属性都有值的,可能只有一部分,这样就需要一个标号来告诉程序,这个属性值是哪一列。
预测数据
预测数据同样按照训练数据那样准备,由于我们是预测,所以标号可以全部用1或者别的来代替。保存到trainfile文件下命名为train2.txt
编写代码
新建一个class,编写如下代码
import java.io.IOException;
import service.svm_predict;
import service.svm_train;
public class comMain {
/**
* @param args
* @throws IOException
*/
public static void main(String[] args) throws IOException {
// TODO Auto-generated method stub
String[] arg = { "trainfile\\train1.txt", // 存放SVM训练模型用的数据的路径
"trainfile\\model_r.txt" }; // 存放SVM通过训练数据训/ //练出来的模型的路径
String[] parg = { "trainfile\\train2.txt", // 这个是存放测试数据
"trainfile\\model_r.txt", // 调用的是训练以后的模型
"trainfile\\out_r.txt" }; // 生成的结果的文件的路径
System.out.println("........SVM运行开始..........");
// 创建一个训练对象
svm_train t = new svm_train();
// 创建一个预测或者分类的对象
svm_predict p = new svm_predict();
t.main(arg); // 调用
p.main(parg); // 调用
}
}
运行
具体参数说明,请参考第二章