Orange3的Continuize和Linear Projection

Continuize插件是一个数据标准化的插件,可以将分类数据(categorical data)转为二元属性或序数属性数据,将数值数据归一化。分类数据例如高铁仓位中的头等舱、一等舱、二等舱等,转化后可以用0或1代替,或者用1、2、3代替,便于后期的展示分析;将特征变量打横。
Linear Projection 插件可以理解为数据特征的线性投影(虽然字面意思像线性预测),通过一个多维空间展示数据特征,可视化数据分类。


image.png

以心脏病数据为例(heart_disease.tab)介绍下Continuize插件:
1.File获取数据;我们以chest pain 分类数据为例讲解,它有 asymptomatic、atypical ang 、non-anginal、typical ang四个值。
2.Edit Domain 插件是编辑特征值顺序用的,默认是字母顺序,但可以通过这个工具调整;与后面序数化时的123对应。


image.png

选定值,右侧可以调整顺序;
3.Continuize插件,根据需要进行数据转化,后面跟个Data table看数据变化。
1)One attribute per value选项,
这个是我们比较常用的转化方式,每个特征变量都有一个值(0&1 或者 -1&1),0表示不等于 ,1表示等于;


image.png

原先chest pain一列,现在变为了每个值一列,共四列;

2)First value as base 选项
直译过来就是将分类数据按顺序的第一个值作为基础;效果就是在数据转化时,除了特征变量按顺序第一个值之外,其他的值都进行转化。


image.png

从edit domain插件看chest pain变量的第一个值是asymptomatic,除了它之外的所有值都变成了一列。
3)Most frequent value as base 选项
跟first value类似,不过这个是将最常出现的值剔除了。


image.png

可以从Distribution插件上看数据的出现占比,可以看下例子中的gender变量。
4)Ignore multinomial attributes选项
忽略多项式,只转化有两个选项的变量。


image.png

例子中chest pain就没有了。
5)Remove categrorical attributes 选项
这个比较狠,把分类变量都删了,何用有之。
image.png

6)Treat as ordinal 选项
将分类名称变为顺序值,哪个值对应哪个序号,默认按字母,也可以用Edit domain插件更改顺序。


image.png

变换后就出现了chest pain值为0、1、2、3.
7)Divide by number of values 选项
跟上一个类似,不过这个是把序号转化为了0-1之间的数字了。数据标准化,数据归一化到0-1之间。


image.png

如chest pain就变成了0、0.333、0.666、1。

Number Features 对数值数据处理
1) leave them as they are 不处理不管他们
2)Normalize by span 将数值归一化到0-1之间


image.png

可以看到age的变化。
3)Normalize by standard deviation 使用标准差归一化。


image.png

Categorical Outcomes 对目标的结果的处理
处理方式跟以上类似,不多解释了。

对应Linear Projections以鸢尾属植物数据为例(iris.tab)简单介绍下:(这个比较直观)

image.png

通过线性投影分类后,鼠标选中的黄色这部分数为Iris-setosa属,后面再加一个Data table插件,就可以看选中这部数据了。
对于要预测的数据,可以根据以上的到的规律,再Linear Projections中选出,然后输出到一个Data table中,完成分类。
在数据连线上选三个:


image.png
image.png

这里就有个select变量标示哪些是你在linear projection中选出来的。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,544评论 6 501
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,430评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,764评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,193评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,216评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,182评论 1 299
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,063评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,917评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,329评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,543评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,722评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,425评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,019评论 3 326
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,671评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,825评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,729评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,614评论 2 353

推荐阅读更多精彩内容