对称/非对称二元数据

如果它的两个状态有相同的权重, 那么该二元变量是对称的,也就是两个取值 0或 1 没有优先权。例如,属性“性别”就是这样的一个例子,它有两个值:“女性”和“男性”。基于对称二元变量的相似度称为恒定的相似度,即当一些或者全部二元变量编码改变时,计算结果不会发生变化。

对恒定的相似度来说,评价两个对象 i和 j 之间相异度的最著名的系数是简单匹配系数SMC,其定义如下:
d(I,j) = (r+s) / (q+r+s+t) (8.9 p342 ?)

如果两个状态的输出不是同样重要,那么该二元变量是不对称的。例如一个疾病检查的肯定和否定的结果。根据惯例,我们将比较重要的输出结果,通常也是出现几率较小的结果编码为 1(例如,HIV阳性),而将另一种结果编码为 0(例如 HIV阴性)。给定两个不对称的二元变量,两个都取值 1 的情况(正匹配)被认为比两个都取值 0 的情况(负匹配)更有意义。因此,这样的二元变量经常被认为好像只有一个状态。基于这样变量的相似度被称为非恒定的相似度。对非恒定的相似度,最著名的评价系数是 Jaccard 系数,在它的计算中,负匹配的数目被认为是不重要的,因此被忽略。 D(I,j) = (r+s) / (q+r+s) (8.10) 当对称的和非对称的二元变量出现在同一个数据集中,在 8.2.4 节中描述的混合变量方法可以被应用。

比如 购买记录就是非对称二元数据,因为我们更关注买的 item 而非没有买的 item

但答题的 True 和 False 就是对称二元数据,因为 在考察两题答案的关联时, True 和 False 的出现是同样重要的。

参考:http://www.cnblogs.com/end/p/3330466.html

更详细的介绍:http://blog.csdn.net/sjpz0124/article/details/45980361

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 数据立方体,最小内存计算 层次聚类 首先介绍聚类中的层次聚类算法。层次法又分为凝聚的层次聚类和分裂的层次聚类。 凝...
    一百个白日梦阅读 491评论 0 0
  • 这次开一个小脑洞。因为是脑洞,所以是有水分的,很多定义是模糊的,推理过程也并不要求严格。 话题先从标题的最后一项开...
    LostAbaddon阅读 1,883评论 8 11
  • 前言 其实读完斯坦福的这本《互联网大规模数据挖掘》,让我感觉到,什么是人工智能?人工智能就是更高层次的数据挖掘。机...
    我偏笑_NSNirvana阅读 12,843评论 1 23
  • 国家电网公司企业标准(Q/GDW)- 面向对象的用电信息数据交换协议 - 报批稿:20170802 前言: 排版 ...
    庭说阅读 11,311评论 6 13
  • 早晚指标: 有书共读任务完成 饮食全部—— 早餐:豆腐干50,脱脂奶200,营养品 加餐:豆腐干100 午餐:牛肉...
    mxn1024阅读 191评论 0 0