WEKA把分类(Classification)和回归(Regression)


1 简介

WEKA把分类(Classification)和回归(Regression)都放在“Classify”选项卡中,我们希望根据一个样本的一组特征,对目标进行预测。为了实现这一目的, 我们需要有一个训练数据集,这个数据集中每个实例的输入和输出都是已知的。观察训练集中的实例,可以建立起预测的模型。有了这个模型,我们就可以新的输出未知的实例进行预测了,衡量模型的好坏就在于预测的准确程度。

在WEKA中,待预测的目标(输出)被称作Class属性,这应该是来自分类任务的“类”。一般的,若Class属性是分类型时我们的任务才叫分类,Class属性是数值型时我们的任务叫回归。

这里介绍用C4.5决策树算法对数据建立起分类模型,C4.5算法可以处理数值型的属性。

首先选择数据源,然后切换到“Classify”选项卡,点击“Choose”按钮后可以看到很多分类或者回归的算法分门别类在一个树型框里。 树型框下方有一个“Filter...”按钮,点击可以根据数据集的特性过滤掉不合适的算法。选择“trees”下的“J48”,这就是需要的C4.5算法。

2 参数介绍:

binarySplits 是否使用二进制分裂名词性属性;默认False
confidenceFactor 用于修剪的置信因子(小于该值导致修剪);默认0.25
debug 设置为true,则分类器可能在控制台输出另外的信息;默认False
minNumObj 每个叶的最小实例数量;默认2
numFolds 决定用于reduced-error(减少-误差)修剪的数据量;一折用于修剪,另外的用于建树;默认3
reducedErrorPruning 是否使用减少-误差修剪,而不是C4.5修剪;默认:False
saveInstanceData 是否为了展示保存训练数据;默认:False
seed 减少-误差修剪时,用于随机化数据的种子;默认:1
subtreeRaising 修剪树的时候是否考虑子树上升操作;默认:True
unpruned 修剪是否需要;默认:False
useLaplace 是否叶节点基于拉普拉斯平滑;默认:False
修剪的方式:存在C.4.5修剪,和减少-误差修剪;reducedErrorPruning控制,默认是C.4.5修剪;
是否修剪:unpruned控制,默认是修剪;
如果没有专门设置检验数据集,为了保证生成的模型的准确性而不至于出现过拟合(overfitting)的现象,有必要采用交叉验证(一般选择10-fold cross validation)来选择和评估模型。

右键点击“Results list”中项,弹出菜单中选择“Visualize tree”,新窗口里可以看到图形模式的决策树。建议把这个新窗口最大化,然后点右键,选“Fit to screen”,可以把这个树看清楚些。
解释一下“Confusion Matrix”的含义:
=== Confusion Matrix ===
a b <-- classified as
741 24 | a = YES
10 582 | b = NO
这个矩阵是说,原本“pep”是“YES”的实例,有741个被正确的预测为 “YES”,有24个错误的预测成了“NO”;原本“pep”是“NO”的实例,有10个被错误的预测为“YES”,有582个正确的预测成了“NO”。 741+24+10+582 = 1375是实例总数,而(741+582)/1375 = 0.96218正好是正确分类的实例所占比例。

我们要用生成的模型对那些待预测的数据集进行预测了,注意待预测数据集和训练用数据集各个属性的设 置必须是一致的。WEKA中并没有直接提供把模型应用到带预测数据集上的方法,我们要采取间接的办法。
在“Test Opion”中选择“Supplied test set”,并且“Set”成要验证的文件,“Start”一次。
右键点击“Result list”中刚产生的那一项,选择“Visualize classifier errors”。点“Save”按钮,将结果保存。这个ARFF文件中就有我们需要的预测结果。在“Explorer”的“Preprocess”选项卡中打开这个新文件,可以看到多了两个属性 “Instance_number”和“predictedpep”。“Instance_number”是指一个实例在原文件中的位置,“predictedpep”就是模型预测的结果。点“Edit”按钮或者在“ArffViewer”模块中打开可以查 看这个数据集的内容。


这是一张图
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 205,132评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,802评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,566评论 0 338
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,858评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,867评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,695评论 1 282
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,064评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,705评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 42,915评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,677评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,796评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,432评论 4 322
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,041评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,992评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,223评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,185评论 2 352
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,535评论 2 343

推荐阅读更多精彩内容

  • 决策树理论在决策树理论中,有这样一句话,“用较少的东西,照样可以做很好的事情。越是小的决策树,越优于大的决策树”。...
    制杖灶灶阅读 5,832评论 0 25
  • 首页 资讯 文章 资源 小组 相亲 登录 注册 首页 最新文章 IT 职场 前端 后端 移动端 数据库 运维 其他...
    Helen_Cat阅读 3,843评论 1 10
  • 论文原文:Mask R-CNN作者:Kaiming He, Georgia Gkioxari, Piotr Dol...
    九曲流觞阅读 10,514评论 0 7
  • 今年的流行趋势:衣服一定要大,人在衣中晃,越晃越时尚,毛衣要穿起球的,貂绒要穿掉毛的,裤子要穿九分的,颜色对照少林...
    Y感觉阅读 157评论 0 1
  • ‘’三月樱桃红不久。‘’樱桃犹如时光,转眼间又要等待明年。这樱桃啊,犹如身边来来去去的人,有的如春潮涌动...
    杨无涯阅读 155评论 0 0