很久之前,写过粗糙集方面的东西,然鹅鸽了......最近开始更特征选择了,因此粗糙集又重新开始更了!
粗糙集方面很久没更了,上一篇还是去年七月下旬,之后很久没更这块了,博客也很长时间没更新。最近在更特征选择,恰好最近一位读者私信我还会写粗糙集这块吗,当然会的啦。
闲话少说,开始吧!
本文与之前的博客一脉相承。
上近似和下近似
以之前病人病历为例,这里我们使用体温这个属性。
病人 | 体温 |
---|---|
正常 | |
高 | |
很高 | |
正常 | |
高 | |
很高 |
在这个信息系统中 ,其中为论域,,是体温这个属性。
那么,
可以看出体温这个属性被划分成了三类,很高,高和正常。
若给定一个集合,,显然是的粗糙集,因为不能被中的任何一个或者若干个组合构成。
先看上近似。
在中,
此时,称和为关于的上近似。
再看下近似。
在中,
而
此时,称为关于的下近似。
给出上下近似的定义:
在一个决策信息系统中中,是一个等价关系,,关于的上近似和下近似的定义分别如下:
表示是由等价关系形成的等价类,在往期的博客中有相关介绍,传送门。
关于上近似和下近似的一些解释。
- 上近似则是将那些包含的知识库中的集合求并得到的(包含的最小可定义集)
- 下近似是在那些所有的包含于的知识库中的集合中求并得到的(包含在内的最大可定义集)
或者说
- 上近似是根据现有知识,判断中一定属于和可能属于的对象所组成的集合。
- 根据现有知识,判断中所有肯定属于的对象所组成的集合,即式中,表示等价关系下包含关系的等价类。
正域,负域与边界域
紧接着上下近似的概念,正域,负域与边界域的定义如下:
论域被的上下近似集划分为正域,负域以及边界域三个互不相交的区域。
正域:
负域:
边界域:
可以发现:
我们还是以上面体温属性为例。
关于的上近似为,,下近似为,所以
论域被的上下近似集划分为正域为:
负域为:
边界域:
用一张图来表示这个过程:
图中蓝色曲线为上近似。
实例
下表是一个决策信息系统。
1 | 0 | 1 | 1 | 1 | 0 | 1 |
2 | 1 | 1 | 0 | 1 | 0 | 1 |
3 | 1 | 0 | 0 | 0 | 1 | 0 |
4 | 1 | 1 | 0 | 1 | 0 | 1 |
5 | 1 | 0 | 0 | 0 | 1 | 0 |
6 | 0 | 1 | 1 | 1 | 1 | 0 |
7 | 0 | 1 | 1 | 1 | 1 | 0 |
8 | 1 | 0 | 0 | 1 | 0 | 1 |
9 | 1 | 0 | 0 | 1 | 0 | 0 |
其中论域,条件属性集,决策属性集 。
从上表中有:,,。
每个属性的值域都为。
注意,是条件属性,未包括决策属性。
假设:。
则:
上近似:
下近似:
正域为:
负域为:
边界域:
本文内容暂告一段落,之后将继续更新。
本文参考了:
- 景运革. 基于知识粒度的动态属性约简算法研究[D].西南交通大学,2017.
- 苗夺谦,李国道《粗糙集理论,算法和应用》.
- 张文修《基于粗糙集的不确定决策》.