WEKA把分类(Classification)和回归(Regression)


1 简介

WEKA把分类(Classification)和回归(Regression)都放在“Classify”选项卡中,我们希望根据一个样本的一组特征,对目标进行预测。为了实现这一目的, 我们需要有一个训练数据集,这个数据集中每个实例的输入和输出都是已知的。观察训练集中的实例,可以建立起预测的模型。有了这个模型,我们就可以新的输出未知的实例进行预测了,衡量模型的好坏就在于预测的准确程度。

在WEKA中,待预测的目标(输出)被称作Class属性,这应该是来自分类任务的“类”。一般的,若Class属性是分类型时我们的任务才叫分类,Class属性是数值型时我们的任务叫回归。

这里介绍用C4.5决策树算法对数据建立起分类模型,C4.5算法可以处理数值型的属性。

首先选择数据源,然后切换到“Classify”选项卡,点击“Choose”按钮后可以看到很多分类或者回归的算法分门别类在一个树型框里。 树型框下方有一个“Filter...”按钮,点击可以根据数据集的特性过滤掉不合适的算法。选择“trees”下的“J48”,这就是需要的C4.5算法。

2 参数介绍:

binarySplits 是否使用二进制分裂名词性属性;默认False
confidenceFactor 用于修剪的置信因子(小于该值导致修剪);默认0.25
debug 设置为true,则分类器可能在控制台输出另外的信息;默认False
minNumObj 每个叶的最小实例数量;默认2
numFolds 决定用于reduced-error(减少-误差)修剪的数据量;一折用于修剪,另外的用于建树;默认3
reducedErrorPruning 是否使用减少-误差修剪,而不是C4.5修剪;默认:False
saveInstanceData 是否为了展示保存训练数据;默认:False
seed 减少-误差修剪时,用于随机化数据的种子;默认:1
subtreeRaising 修剪树的时候是否考虑子树上升操作;默认:True
unpruned 修剪是否需要;默认:False
useLaplace 是否叶节点基于拉普拉斯平滑;默认:False
修剪的方式:存在C.4.5修剪,和减少-误差修剪;reducedErrorPruning控制,默认是C.4.5修剪;
是否修剪:unpruned控制,默认是修剪;
如果没有专门设置检验数据集,为了保证生成的模型的准确性而不至于出现过拟合(overfitting)的现象,有必要采用交叉验证(一般选择10-fold cross validation)来选择和评估模型。

右键点击“Results list”中项,弹出菜单中选择“Visualize tree”,新窗口里可以看到图形模式的决策树。建议把这个新窗口最大化,然后点右键,选“Fit to screen”,可以把这个树看清楚些。
解释一下“Confusion Matrix”的含义:
=== Confusion Matrix ===
a b <-- classified as
741 24 | a = YES
10 582 | b = NO
这个矩阵是说,原本“pep”是“YES”的实例,有741个被正确的预测为 “YES”,有24个错误的预测成了“NO”;原本“pep”是“NO”的实例,有10个被错误的预测为“YES”,有582个正确的预测成了“NO”。 741+24+10+582 = 1375是实例总数,而(741+582)/1375 = 0.96218正好是正确分类的实例所占比例。

我们要用生成的模型对那些待预测的数据集进行预测了,注意待预测数据集和训练用数据集各个属性的设 置必须是一致的。WEKA中并没有直接提供把模型应用到带预测数据集上的方法,我们要采取间接的办法。
在“Test Opion”中选择“Supplied test set”,并且“Set”成要验证的文件,“Start”一次。
右键点击“Result list”中刚产生的那一项,选择“Visualize classifier errors”。点“Save”按钮,将结果保存。这个ARFF文件中就有我们需要的预测结果。在“Explorer”的“Preprocess”选项卡中打开这个新文件,可以看到多了两个属性 “Instance_number”和“predictedpep”。“Instance_number”是指一个实例在原文件中的位置,“predictedpep”就是模型预测的结果。点“Edit”按钮或者在“ArffViewer”模块中打开可以查 看这个数据集的内容。


这是一张图
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 决策树理论在决策树理论中,有这样一句话,“用较少的东西,照样可以做很好的事情。越是小的决策树,越优于大的决策树”。...
    制杖灶灶阅读 5,932评论 0 25
  • 首页 资讯 文章 资源 小组 相亲 登录 注册 首页 最新文章 IT 职场 前端 后端 移动端 数据库 运维 其他...
    Helen_Cat阅读 3,926评论 1 10
  • 论文原文:Mask R-CNN作者:Kaiming He, Georgia Gkioxari, Piotr Dol...
    九曲流觞阅读 10,644评论 0 7
  • 今年的流行趋势:衣服一定要大,人在衣中晃,越晃越时尚,毛衣要穿起球的,貂绒要穿掉毛的,裤子要穿九分的,颜色对照少林...
    Y感觉阅读 174评论 0 1
  • ‘’三月樱桃红不久。‘’樱桃犹如时光,转眼间又要等待明年。这樱桃啊,犹如身边来来去去的人,有的如春潮涌动...
    杨无涯阅读 174评论 0 0