-
开放科学(资源服务)标识码(OSID):
-
1965年,美国加利福尼亚州的控制论专家L. A. Zadeh引入了模糊集合的概念,建立了模糊集合的基本理论框架,并揭示了模糊集合与传统集合的关系[1]. 这一概念的提出标志着模糊数学学科的诞生,而模糊数学在解决许多经典数学难题上展现出了广泛的适用性. 模糊数学的研究成果已经在模糊控制、模糊聚类分析和模糊模式识别[2-3]等领域取得了显著成效. 与此同时,粗糙集理论可以很好地处理现实生活中的各种不确定性现象[4-5]. 然而,在经典粗糙集理论中,对上下近似的定义要求过于严格,从而限制了该理论的应用范围. 为了克服这些局限性,研究人员在经典粗糙集理论的基础上进行了推广和延伸,提出了决策粗糙集模型(DTRS)和程度粗糙集模型(GRS)[6-7],进一步完善了粗糙集理论.
在经典粗糙集和粗糙集的推广研究中,属性约简起着至关重要的作用. 属性约简的目标是找到最小的属性子集,尽可能保持决策精度的同时解决现实生活中数据信息之间的冗余问题,进而找到对决策起决定性作用的条件属性数据. 然而,在区间值决策表中,如何有效地进行属性约简仍然是一个具有挑战性的问题. 为此,本文将深入探索区间值决策表中基于相对优势邻域粒度的属性约简方法,以提升决策精度. 已有研究在完备决策信息系统下提出了基于正域的属性约简方法[8],文献[9]等进一步推广了区间值决策信息系统的保正域属性约简方法. 此外,还涌现了其他多种属性约简方法,如基于相对知识粒度的属性约简[10-11]和基于依赖度的区间集决策信息表属性约简[12-15]等. 然而,在区间值决策表的研究中,基于相对优势邻域粒度的属性约简方法尚未充分探索. 本文在经典决策表相对优势邻域粒度的属性约简方法的基础上,将其拓展应用于区间值决策表,利用相对优势邻域粒度研究了区间决策表属性约简的启发式算法.
全文HTML
-
本节先给出一些基本定义和相关性质,详细可见文献[16].
区间值决策表指由论域
$U$ 、条件属性集$C$ 、决策属性集$d$ , 以及属性值域$V$ 组成的四元组$I V D T=\{U$ ,$A T=C \cup d, V, f\}$ , 其中论域$U$ 是非空有限对象的集合, 条件属性集$C$ 是有限个条件属性的集合, 决策属性集$d$ 是有限个决策属性的集合, 且$C \cap d=\varnothing$ ; 属性值域$V=U_{a \in A T} V_a, V_a$ 是任意属性$a \in C \cup d$ 的值域;信息函数$f: U \times C \longrightarrow V_a$ 满足对于$\forall x_i \in U$ , 属性$a$ 上的值$f\left(x_i, a\right) \in V_a$ 是一个区间值, 决策属性值仍为单值.设区间值决策表
$I V D T=\{U, A T=C \cup d, V, f\}$ ,且属性子集$B \subseteq C$ ,阈值$\alpha \in[0, 1]$ , 则关于$B$ 的相邻关系定义为式中
这里
且
对于区间值决策表IVDT={U,AT=C∪d,V,f},基于相邻关系基础的相邻类为
可知决策表IVDT所有的相邻类构成一个对应于每一个元素的|U|维粒化结构
进一步,区间值决策表IVDT={U,AT=C∪d,V,f}对任意一个条件属性子集
$B \subseteq C $ ,0≤α1≤α2≤1有1)
$\forall x_i \in U, N C_C^{\alpha_1}\left(x_i\right) \subseteq N C_B^{\alpha_1}\left(x_i\right) $ 2)
$\forall x_i \in U, N C_B^{\alpha_1}\left(x_i\right) \subseteq N C_B^{\alpha_2}\left(x_i\right) $ 由于相对优势邻域粒度可以很直观地体现条件邻域粒化对决策属性划分的分辨力,故可借助相邻关系导出粒化结构研究区间值决策表的属性约简方法.
-
虽然经典相对优势邻域粒度能够体现优势邻域的粗细程度,但却不适用于区间值决策表. 为此,本节给出了基于区间相对优势粒度的启发式约简算法.
-
首先,区间值决策表的区间相对优势邻域粒度定义如下.
定义1 设
$I V D T=\{U, A T=C \cup d, V, f\}$ 为一个区间值决策表,对于任意一个条件属性子集$B \subseteq$ $C$ 及阈值$\alpha \in[0, 1]$ , 则$B$ 相对于$d$ 的区间相对优势邻域粒度为式中
$D_h$ 为决策属性的决策类, 且$\sum\limits_{i=1}^{|U|}\left(\frac{\left|N C_B^\alpha\left(x_i\right)\right|}{|U|}\right)^2=A N(\alpha ; B)$ , 及$\sum\limits_{i, h=1}^{|U|, m}\left(\frac{\left|N C_B^\alpha\left(x_i\right) \cap D_h\right|}{|U|}\right)^2=$ $A N(\alpha ; B \cup d)$ .性质1 设IVDT={U,AT=C∪d,V,f}为一个区间值决策表,对于任意一个条件属性子集B
$\subseteq $ C及阈值α∈[0, 1],则有证 由于
因此对于
$\forall i \in[1, |U|] $ ,可以得出于是,性质1成立.
引理1 设
$f\left(g_1, g_2, \cdots, g_{m-1}, g_m\right)=\left(\sum\limits_{s=1}^m g_s\right)^2-\sum\limits_{s=1}^m g_s^2$ , 其中$g_s(1 \leqslant s \leqslant m)$ 为函数自变量, 则有1)
$f\left(g_1, g_2, \cdots, g_{m-1}, g_m\right)=2\left(g_1 g_2+g_1 g_3+\cdots+g_{m-1} g_m\right)$ ;2) 若
$0 \leqslant g_1 \leqslant t_1, \cdots, 0 \leqslant g_m \leqslant t_m $ , 则$f\left(g_1, g_2, \cdots, g_m\right) \leqslant f\left(t_1, t_2, \cdots, t_m\right)$ .证 1)很显然成立. 接下来证明2). 由于
当且仅当t1=g1,t2=g2,⋯,tm=gm时等号成立. 证毕.
性质2 设
$I V D T=\{U, C \cup d, V, f\}$ 是一个区间值决策表, 对于任意两个条件属性子集$A, B \subseteq C$ 以及阈值$\alpha \in[0, 1]$ , 则以下结论成立:1) 若
$A \subseteq B$ , 则$R N(\alpha ; B ; d) \leqslant R N(\alpha ; A ; d)$ ;2) 若
$0 \leqslant \alpha_1 \leqslant \alpha_2 \leqslant 1$ , 则$R N\left(\alpha_1 ; B ; d\right) \leqslant R N\left(\alpha_2 ; B ; d\right)$ .证 1) 令
可知关于B和A的区间相对优势邻域粒度可以化简为
又因
$ A \subseteq B $ , 可知$\forall x_i \in U$ 满足$N C_B^a\left(x_i\right) \subseteq N C_A^a\left(x_i\right)$ , 于是即0≤Bhi≤Ahi.
根据引理1可得
所以
2) 令
则关于α1,α2的区间相对优势邻域粒度可以简化为
又因为0≤α1≤α2≤1,则
所以
即0≤Bhα1≤Bhα2.
再由引理1可得
所以有
故
性质3 设
$I V D T=\{U, C \cup d, V, f\}$ 为一个区间值决策表, 对于任意一个条件属性子集$B \subseteq C$ 及阈值$\alpha \in[0, 1]$ , 有$R N(\alpha ; B ; d) \in[0, |U|-1]$ .特别地, 当粒化结构
$N_B^\alpha$ 最细时, 即$\forall x_i \in U, N C_B^\alpha\left(x_i\right)=\left\{x_i\right\}$ , 此时$R N(\alpha ; B ; d)=0$ ; 当粒化结构$N_B^\alpha$ 最粗时, 即$\forall x_i \in U, N C_B^a\left(x_i\right)=\{U\}$ , 此时$R N(\alpha ; B ; d)=|U|-1$ .由性质2和性质3可以进一步有属性的必要性和独立性的定义. 下文中均设阈值
$\alpha \in[0, 1]$ .定义2 设
$I V D T=\{U, C \cup d, V, f\}$ 是一个区间值决策表, 对于$\forall a \in C$ , 若$R N(\alpha ; C-a ; d)=$ $R N(\alpha ; C ; d)$ , 则称$a$ 是$C$ 中的不必要属性,否则称$a$ 是必要属性.定义3 设
$I V D T=\{U, C \cup d, V, f\}$ 是一个区间值决策表, 由$C$ 中所有关于决策属性$d$ 的必要属性组成的集合, 称为属性集合$C$ 相对于决策属性$d$ 的核, 记为$Core_C^\alpha(d)$ .任意一个条件属性子集
$B \subseteq C$ , 若$B$ 中任意一个条件属性在$B$ 中相对于决策属性$d$ 都必要, 则称$B$ 是$C$ 的一个相对于决策属性$d$ 的属性约简, 且易证$Cor_C^\alpha(d)$ 恰好是全部属性约简的交集.定义4 设
$I V D T=\{U, C \cup d, V, f\}$ 是一个区间值决策表,$B \subseteq C$ , 则$B$ 是$C$ 的一个相对于决策属性$d$ 的属性约简, 当且仅当1)
$R N(\alpha ; B ; d)=R N(\alpha ; C ; d)$ 2)
$\forall a \in B, R N(\alpha ; B ; d) \neq R N(\alpha ; B-\{a\} ; d)$ 属性约简的核心主要来源于相对优势邻域粒度.
定义5 对于区间值决策表
$I V D T=\{U, C \cup d, V, f\}$ , 若$\forall a \in C$ , 则条件属性$a$ 关于属性集$C$ 相对于决策属性$d$ 的属性内重要度为另外, 对于
$\forall B \in C$ 以及$\forall a \in C-B, a$ 关于$B$ 相对于决策属性$d$ 的区间属性外重要度为由定义5可知,区间属性内外重要度变化越大说明该属性对于决策的影响越大. 因此区间属性内重要度与区间属性外重要度两者提供了快速实现约简的属性选择原理.
性质4 对于区间值决策表
$I V D T=\{U, C \cup d, V, f\}$ , 若$\forall a \in C$ , 则条件属性$a$ 为$C$ 中对$d$ 必要的属性当且仅当$S i g^{\text {inner }}(\alpha ; a ; C ; d)>0$ , 即证 若
$a$ 为$C$ 中对$d$ 必要的属性, 则$R N(\alpha ; C ; d) \neq R N(\alpha ; C-\{a\} ; d)$ , 再根据区间相对优势邻域粒度的粒化单调性可知,$R N(\alpha ; C ; d) \leqslant R N(\alpha ; C-\{a\} ; d)$ , 所以$Sig^{\mathrm{inner}}(\alpha ; a ; C ; d)>0$ . 反之, 若$Sig^{\text {inner }}(\alpha ; a ; C ; d)>0$ , 则$R N(\alpha ; C ; d) \leqslant R N(\alpha ; C-\{a\} ; d)$ , 那么$R N(\alpha ; C ; d) \neq R N(\alpha$ ;$C-\{a\} ; d)$ . 再根据定义2可知,$a$ 为$C$ 中对$d$ 必要的属性, 于是性质成立. -
下面给出相对优势邻域粒度属性约简的启发式算法.
算法1 基于区间值相对优势邻域粒度的属性约简算法
输入 区间值决策表IVDT及阈值α
输出 决策表IVDT的一个属性约简S
step1 计算C相对于d的区间相对优势邻域粒度RN(α;C;d);
step2 设
$Core_C^\alpha(d)=\varnothing, \forall a \in C$ , 计算$Sig^{\text {inner }}(\alpha ; a ; C ; d)$ , 若$Sig^{\text {inner }}(\alpha ; a ; C ; d)>0$ ,$Core_C^\alpha(d)=Core_C^\alpha(d) \cup\{a\}$ , 并令$S=Core_C^\alpha(d)$ ;step3 判断
$R N(\alpha ; S ; d)=R N(\alpha ; C ; d)$ 是否成立, 若成立则goto step5, 否则goto step4;step4 进人step4, 则说明
$\forall a \in\{C-S\}, R N(\alpha ; C ; d) \leqslant R N(\alpha ; S ; d)$ , 计算$Sig^{\text {outer }}(\alpha ; a ; S$ ;$d)$ , 将$\max \left(Sig^{\text {outer }}\left(\alpha ; a^* ; S ; d\right)\right)$ 对应属性$a^*$ 并到$S$ 中, 重复该步骤过程直到满足$N(\alpha ; S ; d)=$ $R N(\alpha ; C ; d)$ , 转到step 5;step5 输出S
算法1的时间复杂度分析如下:
step1 计算RN(α;C;d)的时间复杂度为
step2 对于
$\forall a \in C$ , 计算$Sig^{\text {inner }}(\alpha ; a ; C ; d)$ 的时间复杂度为step3 计算
$R N(\alpha ; S ; d)$ 的时间复杂度为step4 将属性
$a^*$ 添加到属性约简集合中, 对$\forall a \in\{C-S\}$ , 计算$Si g^{\text {outer }}(\alpha ; a ; S ; d)$ , 时间复杂度为最复杂情况下,step4的复杂度为
从而此式的复杂度不超过
所以算法1的时间复杂度为
由算法1可知,条件属性子集基数越大,相对优势邻域粒度越小.
-
基于正域的属性约简是粗糙集理论中常用的方法之一,用于在决策信息系统中降低数据维度并提高决策效率. 该方法通过寻求能够唯一确定决策属性值的最小条件属性子集(即正域),并删除冗余属性,构建简化后的数据集. 基于正域的属性约简方法在保持决策精度的同时减少了数据冗余,提高了决策过程的效率,为处理大规模、高维度的数据提供了有效的工具和技术.
接下来将证明在区间值决策表中,区间相对优势邻域粒度的属性约简与代数约简是等价的.
定义6 设有区间值决策表
$I V D T=\{U, C \cup d, V, f\} $ ,若对于该决策表的$\forall N C_C^\alpha\left(x_i\right) \in N_C^\alpha, \exists D_h \in$ $\left(\frac{U}{d}\right)$ ,有$N C_C^\alpha\left(x_i\right) \subseteq D_h$ ,则称该决策表为协调区间值决策表,否则为不协调的.性质5 区间值决策表
$I V D T=\{U, C \cup d, V, f\}$ 是协调的, 当且仅当$R N(\alpha ; C ; d)=0$ .证 “
$\Rightarrow$ ”由于$I V D T$ 是协调区间值决策表, 所以有
又因为
故
$ \forall i \in[1, |U|]$ .另外,
故可得
“
$\Leftarrow$ ”若$R N(\alpha ; C ; d)=0$ , 则由可知
又由
可得
也即
于是有
因此有
于是
$N C_C^\alpha\left(x_i\right) \subseteq D_h$ .故IVDT是协调区间值决策表.
性质6 设
$I V D T=\{U, C \cup d, V, f\} $ 是一个协调区间值决策表, 若$B \subseteq C$ , 则式中posBα(D),posCα(D)分别指决策类D关于条件属性集B,C的正域.
证 先证充分性. 因为IVDT是协调区间值决策表,可知posCα(D)=U;由性质6可知RN(α;C;d)=0,因为RN(α;B;d)=RN(α;C;d),所以RN(α;B;d)=0.
由
可得
又由
得到
因此
再证必要性. 因为IVDT是协调区间值决策表,所以posCα(D)=U,由性质6知
由
可得
因此
即
所以
因此
2.1. 区间相对优势邻域粒度
2.2. 相对优势邻域粒度属性约简的启发式算法
2.3. 属性约简与代数约简等价性证明
-
区间决策表IVDT如表 1所示[8],其中U={x1,x2,x3,x4,x5,x6,x7,x8,x9,x10}代表 10个对象,C={a1,a2,a3,a4}为条件属性集,d为决策属性集. 文献[8]计算表明当阈值α=0.65时该区间值决策表的属性约简为S1={a1,a2}和S2={a2,a3}.
设阈值α=0.65,计算可知条件属性子集增链为
阈值增链为
对条件属性子集增链和阈值增链分别计算区间相对优势邻域粒度.
对条件属性子集增链有
对于阈值增链有
故区间相对优势粒度满足属性和阈值的双重粒化单调性,即性质3成立. 同时,计算结果都满足双界范围:[0,|U|-1],即性质4成立.
当α=0.65时,由算法1可计算出该决策表的一个属性约简.
1) 计算相对优势邻域粒度RN(0.65;C;d)=0.34.
2) 设
$Core_C^\alpha(d)=\emptyset $ ,计算区间属性内重要度选择区间属性内重要度大于零的属性并入到核心CoreC0.65(d)中,即CoreC0.65(d)={a2},实现对S的更新.
3) 计算S关于d的区间相对优势邻域粒度RN(0.65;S;d)=0.84>RN(0.65;C;d)=0.34.
4) a∈{C-S}计算区间属性外重要度
选择区间属性外重要度最大的条件属性a*并入到S中,实现对核心S的更新. 又因为属性a1与属性a3的外重要度都为0.50. 为保证一般性,对属性a1与属性a3都进行验证,可得
5) 输出S1={a1,a2}或S2={a2,a3}.
即S1={a1,a2}和S2={a2,a3}为该区间值决策表的两个属性约简,这与文献[8]基于正域属性约简的结果相同.
-
本文给出了区间相对优势邻域粒度等概念,在此基础上构建出相应的启发式约简算法,并证明了在协调区间值决策表上,区间相对优势邻域粒度表示与代数表示是等价的. 同时,结合具体实例分析验证了区间相对优势邻域粒度及属性约简算法的合理性. 本文研究结果可应用于环境监测数据的属性约简,从而进一步选出对环境质量评估和污染防治具有关键影响的属性. 然而,由于现实生活中的决策信息系统可能存在不协调或不完备的情况,将来可进一步研究不协调或不完备区间决策信息系统下的属性约简. 同时,目前区间值决策表中基于相对优势邻域粒度的属性约简中阈值并未解释选取标准,这也是该领域未来需要研究的工作.