混合语义下的不完备多尺度决策系统及其最优尺度选择

刘微; 胡军

doi:10.13718/j.cnki.xdzk.2023.03.001

混合语义下的不完备多尺度决策系统及其最优尺度选择

刘微^1,2,
胡军^1,2,

重庆邮电大学计算智能重庆市重点实验室，重庆 400065

重庆邮电大学计算机科学与技术学院，重庆 400065

基金项目: 国家自然科学基金项目(61936001，62276038)；重庆市自然科学基金项目(cstc2021ycjh-bgzxm0013)；重庆市教委重点合作项目(HZ2021008)

详细信息

作者简介:
刘微，硕士研究生，主要从事粗糙集、粒计算研究 .

通讯作者: 胡军，教授，博士研究生导师

中图分类号: TP18

Incomplete Multi-Scale Decision System with Mixed Semantics and Its Optimal Scale Selection

LIU Wei^1,2,
HU Jun^1,2,

Chongqing Key Laboratory of Computational Intelligence, Chongqing University of Posts and Telecommunications, Chongqing 400065, China

College of Computer Science and Technology, Chongqing University of Posts and Telecommunications, Chongqing 400065, China

摘要: 现有不完备多尺度信息系统的定义存在局限性，即只考虑了遗漏型未知属性值并且认为对象在某个属性下缺失则在所有尺度下全部缺失. 本研究从未知属性值的两种语义解释出发，定义混合语义下的不完备多尺度信息系统. 为保持混合语义下的不完备多尺度信息系统尺度间的偏序关系，根据粒信息转换函数填补数据并扩展特征关系模型. 研究在不同尺度下信息粒度的表示及其相互关系，并进一步定义基于扩展后特征关系的集合的上、下近似，讨论了它们的性质. 在混合语义下的不完备多尺度决策系统中构建序贯三支决策模型，并基于该模型给出最小化不确定性的最优尺度选择方法. 实验结果验证了数据填补和特征关系模型扩展的有效性，并且表明通过序贯三支决策模型能够选择不确定性最小的尺度作为最优尺度.
- 多尺度 /
- 不完备 /
- 特征关系 /
- 三支决策 /
- 最优尺度选择
Abstract: The definition of the existing incomplete multi-scale information system has limitations. Namely, only the missing unknown value is considered, and objects unknown at an attribute are missing at all scales of the attribute. First of all, the incomplete multi-scale information system with mixed semantics is defined in this paper based on the two kinds of semantic interpretations of unknown value. Secondly, in order to maintain the partial order relation between scales in incomplete multi-scale information systems with mixed semantics, the data is supplemented according to the granular information transformation function and the characteristic relation model is extended. Then, the representation of information granularity at different scales and their interrelations are given. The concepts of upper and lower approximation of sets based on extended characteristic relation are further defined, and their properties are discussed. Finally, a sequential three-way decisions model is constructed in an incomplete multi-scale decision system with mixed semantics, and an optimal scale selection method for minimizing uncertainty is given based on this model. The experimental results verify the validity of data filling and the extension of the characteristic relation model, and show that the scale with the least uncertainty can be selected as the optimal scale by the sequential three-way decision model.
- multi-scale /
- incomplete /
- characteristic relation /
- three-way decisions /
- optimal scale selection .

图 1 不完备多尺度信息系统的序贯三支决策模型

下载: 全尺寸图片幻灯片

图 2 Seeds的多尺度分类精度

下载: 全尺寸图片幻灯片

图 3 Glass Identification的多尺度分类精度

下载: 全尺寸图片幻灯片

图 4 Region的多尺度分类精度

下载: 全尺寸图片幻灯片

图 5 Balance Scale的多尺度分类精度

下载: 全尺寸图片幻灯片

图 6 Car Evaluation的多尺度分类精度

下载: 全尺寸图片幻灯片

表 1 混合语义下的不完备多尺度信息系统

U	a₁¹	a₁²	a₁³	a₂¹	a₂²	a₂³
x₁	1	S	Y	1	S	N
x₂	1	$\mathit{\emptyset} $	$\mathit{\emptyset} $	2	M	Y
x₃	2	S	Y	*	*	N
x₄	$\mathit{\emptyset} $	S	Y	3	M	Y
x₅	3	M	N	*	$\mathit{\emptyset} $	$\mathit{\emptyset} $
x₆	*	M	*	4	L	Y
x₇	4	L	N	*	L	$\mathit{\emptyset} $
x₈	5	L	N	5	L	Y

下载: 导出CSV

表 2 数据填补后的混合语义下的不完备多尺度信息系统

U	a₁¹	a₁²	a₁³	a₂¹	a₂²	a₂³
x₁	1	S	Y	1	S	N
x₂	1	S	Y	2	M	Y
x₃	2	S	Y	*	*	N
x₄	$\mathit{\emptyset} $	S	Y	3	M	Y
x₅	3	M	N	*	$\mathit{\emptyset} $	$\mathit{\emptyset} $
x₆	*	M	N	4	L	Y
x₇	4	L	N	*	L	Y
x₈	5	L	N	5	L	Y

下载: 导出CSV

表 3 补充数据后的不完备多尺度决策系统

U	a₁¹	a₁²	a₁³	a₁⁴	a₁⁵	a₂¹	a₂²	a₂³	a₂⁴	a₂⁵	a₃¹	a₃²	a₃³	a₃⁴	a₃⁵	d
x₁	1	Ⅰ	A	H	Y	2	Ⅰ	A	H	Y	2	Ⅰ	A	H	Y	1
x₂	2	Ⅱ	A	H	Y	3	Ⅱ	B	H	Y	3	Ⅰ	A	H	Y	1
x₃	3	Ⅱ	A	H	Y	2	Ⅰ	A	H	Y	$\mathit{\emptyset} $	$\mathit{\emptyset} $	$\mathit{\emptyset} $	M	N	1
x₄	4	Ⅲ	B	S	Y	*	*	*	*	*	4	Ⅱ	B	M	N	0
x₅	6	V	D	M	N	4	Ⅲ	C	M	Y	5	Ⅲ	B	M	N	0
x₆	4	Ⅲ	B	S	Y	5	Ⅳ	C	M	Y	4	Ⅱ	B	M	N	1
x₇	5	Ⅳ	C	M	N	4	Ⅲ	C	M	Y	5	Ⅲ	B	M	N	1
x₈	6	V	D	M	N	$\mathit{\emptyset} $	Ⅴ	D	L	N	7	Ⅳ	C	M	N	0
x₉	7	Ⅵ	E	L	N	6	Ⅴ	D	L	N	*	*	*	L	N	0
x₁₀	8	Ⅵ	E	L	N	7	Ⅴ	D	L	N	8	Ⅴ	D	L	N	0

下载: 导出CSV

表 4 原始数据集信息

数据集	对象	条件属性	决策属性
Seeds	210	7	1
Glass Identification	214	9	1
Wholesale Customers (Region)	440	6	1
Balance Scale	625	4	1
Car Evaluation	1 728	6	1

下载: 导出CSV

表 5 预处理后的数据集信息

数据集	对象	条件属性	决策属性	尺度
Seeds	210	7	1	6
Glass Identification	214	9	1	6
Wholesale Customers (Region)	440	6	1	6
Balance Scale	625	4	1	5
Car Evaluation	1 728	6	1	5

下载: 导出CSV

表 6 Seeds的单尺度分类精度

尺度k	CR	CR-add	CR-extend1	CR-extend2
1	0.177	0.177	0.966	0.966
2	0.179	0.828	0.972	0.972
3	0.170	0.932	0.978	0.978
4	0.149	0.956	0.963	0.963
5	0.177	0.973	0.973	0.973
6	0.394	0.989	0.989	0.989

下载: 导出CSV

表 7 Glass Identification的单尺度分类精度

尺度k	CR	CR-add	CR-extend1	CR-extend2
1	0.276	0.276	0.963	0.968
2	0.253	0.85	0.963	0.963
3	0.173	0.895	0.957	0.957
4	0.169	0.947	0.958	0.958
5	0.193	0.97	0.976	0.976
6	0.404	0.976	0.976	0.976

下载: 导出CSV

表 8 Region的单尺度分类精度

尺度k	CR	CR-add	CR-extend1	CR-extend2
1	0.069	0.069	0.907	0.907
2	0.077	0.455	0.907	0.907
3	0.081	0.795	0.907	0.907
4	0.178	0.935	0.959	0.959
5	0.355	0.971	0.98	0.98
6	0.66	0.988	0.988	0.988

下载: 导出CSV

表 9 Balance Scale的单尺度分类精度

尺度k	CR	CR-add	CR-extend1	CR-extend2
1	0.013	0.013	0.608	0.608
2	0.013	0.177	0.608	0.608
3	0.073	0.691	0.934	0.934
4	0.074	0.863	0.934	0.934
5	0.199	0.968	0.968	0.968

下载: 导出CSV

表 10 Car Evaluation的单尺度分类精度

尺度k	CR	CR-add	CR-extend1	CR-extend2
1	0.008	0.008	0.598	0.598
2	0.008	0.145	0.598	0.598
3	0.049	0.632	0.921	0.921
4	0.048	0.854	0.921	0.921
5	0.131	0.959	0.959	0.959

下载: 导出CSV

表 11 基于序贯三支决策的最优尺度

数据集	大小	UNC占U的百分比/%						OLS	HC'OLS
数据集	大小	尺度1	尺度2	尺度3	尺度4	尺度5	尺度6	OLS	HC'OLS
Seeds	210×(7×6+1)	0	0	0	5.71	5.71	70	3	5
Glass Identification	214×(9×6+1)	0.93	0.93	9.34	20.56	51.86	77.10	2	2
Region	440×(6×6+1)	40.90	40.90	40.90	64.09	78.63	93.40	3	3
Balance Scale	625×(4×5+1)	0.64	0.64	48.64	48.64	88.48	\	2	4
Car Evaluation	1 728×(6×5+1)	0.34	0.34	29.62	29.62	41.66	\	2	4

下载: 导出CSV

[1]	ZADEH L A. Fuzzy Sets and Information Granularity[J]. Advances in Fuzzy Set Theory and Applications, 1979, 11: 3-18.
[2]	PAWLAK Z. Rough Sets: Theoretical Aspects of Reasoning about Data[M]. Berlin: Springer Science and Business Media, 1991.
[3]	周涛, 陆惠玲, 任海玲, 等. 基于粗糙集的属性约简算法综述[J]. 电子学报, 2021, 49(7): 1439. doi: https://www.cnki.com.cn/Article/CJFDTOTAL-DZXU202107025.htm
[4]	ZHU W H, ZHANG W, FU Y Q. An Incomplete Data Analysis Approach Using Rough Set Theory[C] //2004 International Conference on Intelligent Mechatronics and Automation, Proceedings. IEEE, 2004: 332-338.
[5]	BAI X L, ZHANG M C, WU Q T, et al. A Novel Data Filling Algorithm for Incomplete Information System Based on Valued Limited Tolerance Relation[J]. International Journal of Database Theory and Application, 2015, 8(6): 149-164. doi: 10.14257/ijdta.2015.8.6.14
[6]	STEFANOWSKI J, TSOUKIAS A. On the Extension of Rough Sets under Incomplete Information[C] //International Workshop on Rough Sets, Fuzzy Sets, Data Mining and Granular-Soft Computing. Springer, Berlin, Heidelberg, 1999: 73-81.
[7]	KRYSZKIEWICZ M. Rough Set Approach to Incomplete Information Systems[J]. Information Sciences, 1998, 112: 39-49. doi: 10.1016/S0020-0255(98)10019-1
[8]	GRZYMALA-BUSSE J W. Rough Set Strategies to Data with Missing Attribute Values[M] //Foundations and Novel Approaches in Data Mining. Springer, Berlin, Heidelberg, 2006: 197-212.
[9]	CLARK P G, GRZYMALA-BUSSE J W, RZASA W. Consistency of Incomplete Data[J]. Information Sciences, 2015, 322: 197-222. doi: 10.1016/j.ins.2015.06.011
[10]	CLARK P G, GAO C, GRZYMALA-BUSSE J W, et al. Characteristic Sets and Generalized Maximal Consistent Blocks in Mining Incomplete Data[J]. Information Sciences, 2018, 453: 66-79. doi: 10.1016/j.ins.2018.04.025
[11]	CHEN Y X, ZHU P. Extending Characteristic Relations on An Incomplete Data Set by the Three-way Decision Theory[J]. International Journal of Approximate Reasoning, 2020, 119: 108-121. doi: 10.1016/j.ijar.2019.12.011
[12]	QIAN Y H, LIANG J Y, YAO Y Y, et al. MGRS: A Multi-Granulation Rough Set[J]. Information Sciences, 2010, 180: 949-970. doi: 10.1016/j.ins.2009.11.023
[13]	ZHU P F, HU Q H, ZUO W M, et al. Multi-Granularity Distance Metric Learning via Neighborhood Granule Margin Maximiza-tion[J]. Information Sciences, 2014, 282: 321-331. doi: 10.1016/j.ins.2014.06.017
[14]	WU W Z, LEUNG Y. Theory and Applications of Granular Labelled Partitions in Multi-Scale Decision Tables[J]. Information Sciences, 2011, 181: 3878-3897. doi: 10.1016/j.ins.2011.04.047
[15]	WU W Z, LEUNG Y. Optimal Scale Selection for Multi-Scale Decision Tables[J]. International Journal of Approximate Reasoning, 2013, 54(8): 1107-1129. doi: 10.1016/j.ijar.2013.03.017
[16]	GU S M, WU W Z. On Knowledge Acquisition in Multi-Scale Decision Systems[J]. International Journal of Machine Learning and Cybernetics, 2013, 4(5): 477-486. doi: 10.1007/s13042-012-0115-7
[17]	SHE Y H, LI J H, YANG H L. A Local Approach to Rule Induction in Multi-scale Decision Tables[J]. Knowledge-Based Systems, 2015, 89: 398-410. doi: 10.1016/j.knosys.2015.07.020
[18]	CHEN D X, LI J J, LIN R D, et al. Information Entropy and Optimal Scale Combination in Multi-Scale Covering Decision Systems[J]. IEEE Access, 2020, 8: 182908-182917. doi: 10.1109/ACCESS.2020.3029157
[19]	郑嘉文, 吴伟志, 包菡, 等. 基于熵的多尺度决策系统的最优尺度选择[J]. 南京大学学报(自然科学版), 2021, 57(1): 130-140. doi: https://www.cnki.com.cn/Article/CJFDTOTAL-NJDZ202101014.htm
[20]	ZHANG X Q, ZHANG Q H, CHENG Y L, et al. Optimal Scale Selection by Integrating Uncertainty and Cost-Sensitive Learning in Multi-Scale Decision Tables[J]. International Journal of Machine Learning and Cybernetics, 2020, 11(1): 1-20. doi: 10.1007/s13042-019-00928-3
[21]	SHE Y H, ZHAO Z J, HU M T, et al. On Selection of Optimal Cuts in Complete Multi-Scale Decision Tables[J]. Artificial Intelligence Review, 2021(11): 1-24.
[22]	SHE Y H, QIAN Z H, HE X L, et al. On Generalization Reducts in Multi-Scale Decision Tables[J]. Information Sciences, 2021, 555: 104-124. doi: 10.1016/j.ins.2020.12.045
[23]	WANG H R, LI W T, ZHAN T, et al. Multi-Granulation-Based Optimal Scale Selection in Multi-scale Information Systems[J]. Computers and Electrical Engineering, 2021, 92: 107107. doi: 10.1016/j.compeleceng.2021.107107
[24]	LI F, HU B Q. A New Approach of Optimal Scale Selection to Multi-Scale Decision Tables[J]. Information Sciences, 2017, 381: 193-208. doi: 10.1016/j.ins.2016.11.016
[25]	LI F, HU B Q, WANG J. Stepwise Optimal Scale Selection for Multi-scale Decision Tables via Attribute Significance[J]. Knowledge-Based Systems, 2017, 129: 4-16. doi: 10.1016/j.knosys.2017.04.005
[26]	WU W Z, LEUNG Y. A Comparison Study of Optimal Scale Combination Selection in Generalized Multi-Scale Decision Tables[J]. International Journal of Machine Learning and Cybernetics, 2019, 11(12): 961-972.
[27]	牛东苒, 吴伟志, 李同军. 广义多尺度决策系统中基于可变精度的最优尺度组合[J]. 模式识别与人工智能, 2019, 32(11): 965-974. doi: https://www.cnki.com.cn/Article/CJFDTOTAL-MSSB201911001.htm
[28]	吴伟志, 庄宇斌, 谭安辉, 等. 不协调广义多尺度决策系统的尺度组合[J]. 模式识别与人工智能, 2018, 31(6): 485-494. doi: https://www.cnki.com.cn/Article/CJFDTOTAL-MSSB201806001.htm
[29]	HAO C, LI J H, FAN M, et al. Optimal Scale Selection in Dynamic Multi-Scale Decision Tables Based on Sequential Three-Way Decisions[J]. Information Sciences, 2017, 415: 213-232.
[30]	WU W Z, QIAN Y H, LI T J, et al. On Rule Acquisition in Incomplete Multi-Scale Decision Tables[J]. Information Sciences, 2017, 378: 282-302.
[31]	吴伟志, 陈颖, 徐优红, 等. 协调的不完备多粒度标记决策系统的最优粒度选择[J]. 模式识别与人工智能, 2016, 29(2): 108-115. doi: https://www.cnki.com.cn/Article/CJFDTOTAL-MSSB201602002.htm
[32]	吴伟志, 杨丽, 谭安辉, 等. 广义不完备多粒度标记决策系统的粒度选择[J]. 计算机研究与发展, 2018, 55(6): 1263-1272. doi: https://www.cnki.com.cn/Article/CJFDTOTAL-JFYZ201806014.htm
[33]	顾沈明, 顾金燕, 吴伟志, 等. 不完备多粒度决策系统的局部最优粒度选择[J]. 计算机研究与发展, 2017, 54(7): 1500-1509. doi: https://www.cnki.com.cn/Article/CJFDTOTAL-JFYZ201707009.htm
[34]	WANG GY, GUAN L H, WU W Z, et al. Data-Driven Valued Tolerance Relation Based on the Extended Rough Set[J]. Fundamenta Informaticae, 2014, 132(3): 349-363.

图( 6) 表( 11)

计量

文章访问数: 766
HTML全文浏览数: 766
PDF下载数: 359
施引文献: 0

全文HTML

开放科学(资源服务)标志码(OSID):
Zadeh^[1]在1979年首次提出信息粒化的概念，认为人类认知能力可概括为粒化、组织和因果3个主要特征，并由此引出粒计算的概念. 目前粒计算已成为智能信息处理领域的一个热门研究方向，在复杂问题求解、海量数据挖掘和模糊信息处理中具有独特优势. 它模拟人类思考方式，以粒为基本计算单位，强调对问题多角度、多尺度的理解和描述. 由波兰学者Pawlak^[2]提出的粗糙集理论是一种处理不精确、不确定信息的数学工具，其利用等价关系诱导的划分粒化数据样本集，使用由等价类描述的粒代替样本对数据进行表示和处理，并通过约简对数据集进行特征提取^[3]. 在众多粒计算研究方法中，粗糙集理论对推动和发展粒计算研究发挥着重要的作用.

现实世界中由于数据测量的误差、对数据的理解或获取的限制等因素，使得数据呈现不完备性. 如何科学地处理数据的缺失是当前知识发现领域的难点之一. 使用粗糙集理论处理不完备信息系统(incomplete information system，IIS)的方法大致分为两类：①间接处理，即采用数据补齐或数据删除将IIS转化为完备信息系统^[4-5]; ②直接处理，即将粗糙集模型在IIS中进行扩展. 就目前关于IIS的研究来看，一般都是将未知属性值分为“缺席型”和“遗漏型”两种语义进行讨论. 其中，缺席型未知属性值指存在且有用的缺失值，只是由于某种原因而丢失或者没有获取到; 遗漏型未知属性值指对决策或分类结果没有影响的缺失值，被称为“不关心”条件. 针对IIS中所有未知属性值都是缺席型的情况，Stefanowski等^[6]构建了相似关系(自反性和传递性). 当IIS中所有未知属性值都是遗漏型时，Kryszkiewicz^[7]构建了满足自反性和对称性的容差关系. 然而无论是相似关系还是容差关系都只考虑了未知属性值的一种语义解释，为了处理同时包含遗漏和缺席型未知属性值的IIS，Grzymala-Busse^[8]利用改进的属性-值对构建其中的特征关系，此广义不可分辨关系是结合容差关系和相似关系的一种更为一般的表现形式. 此后，学者在IIS中进一步研究了特征关系^[9-11].

在传统的粗糙集数据分析模型中，一个对象在每个属性下只能取唯一的属性值，这样的数据描述结构称为单粒度信息系统. 然而，单一粒度或单一尺度结构下的知识表示和数据挖掘已不能满足实际应用的需求. 因此，Qian等^[12]提出多粒化粗糙集模型，认为多粒度是由属性选择引起的，该模型根据信息系统中多个属性子集构成知识多粒度空间; Zhu等^[13]以邻域粗糙集为基础提出多粒度邻域粗糙集模型，根据对象邻域半径的大小对论域进行粒化，然后选择合适的粒度进行分类或聚类. 多粒化粗糙集模型和多粒度邻域粗糙集模型处理的数据形式实质上还是单尺度的. 然而在实际应用中，对象在同一属性下根据不同的需求以不同的尺度进行测量会取不同的属性值，而在不同尺度下进行决策可能会导致不同的结果. 基于这一情况，Wu等^[14]认为对象的属性取值的多尺度是引起论域的多粒度粒化的一个原因，由此提出多尺度数据的粒计算分析模型，并进一步讨论了最优尺度选择和规则获取问题^[15-16].

She等^[17]研究了多尺度信息系统的局部最优尺度和规则提取. Chen等^[18]和郑嘉文等^[19]从信息熵的角度分别讨论多尺度覆盖决策系统和多尺度决策系统的最优尺度选择问题. Zhang等^[20]在考虑不确定性的同时，结合代价敏感选择最优尺度. She等^[21]通过引入粒度树和切割的概念在多尺度决策系统中定义了最优切割，又进一步讨论了泛化约简^[22]. Wang等^[23]在多尺度信息系统中构建多粒度粗糙集模型以选择最优尺度. 上述研究假设所有属性拥有相同的尺度级数^[14-23]，Li等^[24-25]提出广义多尺度信息系统的概念，即不同属性可以拥有不同数目的尺度级数，并研究了最优尺度组合选择问题. 此后，许多学者也对最优尺度组合进行了研究^[26-28]. Hao等^[29]基于三支决策的思想在多尺度决策系统中构建序贯三支决策模型，并基于该模型在动态变化的多尺度决策系统中选择最优尺度. 上述关于多尺度信息系统的研究只针对完备数据，于是Wu等^[30]将容差关系引入到多尺度信息系统中以应对数据的缺失，并进一步研究最优尺度选择和规则获取问题^[31-32]. 顾沈明等^[33]在不完备多粒度决策系统中研究了局部最优粒度选择问题.

现有关于不完备多尺度信息系统的研究只考虑了遗漏型未知属性值，并且假设对象在某个属性下缺失时则在该属性的所有尺度下全部缺失^[30-33]. 此外，系统的不确定性随着尺度细化存在保持不变后减小的情况，此时Hao等^[29]选择的最优尺度的不确定性不是最小. 考虑到上述情况，本研究定义混合语义下的不完备多尺度信息系统，即未知属性值包含两种语义解释且对象在属性下的缺失既可以全部缺失也可以部分缺失，并且融合数据填补和模型扩展的方法以处理此类更为一般的不完备多尺度信息系统. 最后建立序贯三支决策模型，利用三支决策表示决策系统的不确定性，基于该模型给出最小化不确定性的最优尺度选择方法.

1. 基础知识

本节主要介绍基于特征关系的不完备信息系统以及基于容差关系的不完备多尺度信息系统的基本概念.

定义1 ^[8]   信息系统S可以表示为一个二元组(U，A)，其中U={x₁，x₂，…，x_n}是一个非空有限对象集，称为论域; A={a₁，a₂，…，a_m}是一个非空有限属性集，对于任意的a∈A，满足a：U→V_a即a(x)∈V_a，x∈U，其中V_a={a(x)|x∈U}称为a的值域. [(a，v)]为属性-值对(a，v)的块，记：

定义2 ^[8]   S=(U，A)是一个不完备信息系统，V_a={a(x)|x∈U}为属性a∈A的值域. 符号“*”和“ $ \mathit{\emptyset} $ ”分别表示遗漏和缺席型未知属性值. 对于属性-值对的块[(a，v)]，有：①若a(x)=*，则x∈[(a，v)]; ②若a(x)=$ \mathit{\emptyset} $，则$x \notin[(a, v)] $. 其中$ \forall x \in U, a \in B \subseteq A$，记：

K(x，a)为x关于属性a的不可分辨对象集，则特征集K_B(x)定义为：

对于∀x，y∈U，特征关系R_B为U上关于属性子集B $ \subseteq $ A的广义不可分辨关系，记：

显然，特征关系R_B仅满足自反性，而不一定满足对称性和传递性. 若IIS中的所有未知属性值都是遗漏型，则特征关系R_B退化为容差关系^[7]; 若IIS中的所有未知属性值都是缺席型，则特征关系R_B退化为相似关系^[6]. 因此，可以将特征关系看作是容差关系和相似关系的一种泛化表现形式.

设(U，A)是一个不完备信息系统，$\forall X \subseteq U, B \subseteq A$，则X关于特征关系R_B的上近似集和下近似集分别定义为

根据X关于R_B的上、下近似集，可将论域U划分为3个互不相交的区域，分别为正域、边界域及负域，定义为

POS(X)表示一定属于X的对象集，NEG(X)表示一定不属于X的对象集，BND(X)表示不确定是否属于X的对象集. X关于R_B的近似精度定义为：

其中|X|表示集合X的基数. X关于R_B的粗糙度定义为：

定义3 ^[14]    S=(U，A)是一个多尺度信息系统，其中U={x₁，x₂，…，x_n}为论域，A={a₁，a₂，…，a_m}是一个非空有限属性集，且每个属性都是多尺度属性. 假设所有属性都有I个相同的尺度级数，则多尺度信息系统可以表示为(U，{a_j^k|k=1，2，…，I，j=1，2，…，m})，其中，a_j^k：U→V_j^k，V_j^k是属性a_j在第k个尺度的值域，对于j=1，2，…，m，k=1，2，…，I-1，存在满射函数g_j^k，k+1：V_j^k→V_j^k+1使得a_j^k+1=g_j^k，k+1°a_j^k，即：

称g_j^k，k+1为粒信息转换函数. 对于k∈{1，2，…，I}，记$ A ^ k =\left \{ a _1^ k , a _2^ k , \cdots , a _ m ^ k \right \}$，则一个多尺度信息系统S=(U，A)可以分解为I个信息系统S^k=(U，$ A ^ k $)，k=1，2，…，I.

若S¹=(U，A¹)是一个不完备信息系统，则称(U，A)=(U，{a_j^k|k=1，2，…，I，j=1，2，…，m})为不完备多尺度信息系统^[30]. 用符号“*”表示未知属性值，即如果a_j^k(x)=*，就认为x在属性a_j^k上的值是未知的. 此时不同尺度层次之间的属性值变换为：

其中，j=1，2，…，m; k=1，2，…，I-1; x∈U.

2. 不完备多尺度信息系统的扩展

本节主要给出混合语义下的不完备多尺度信息系统的定义，并讨论数据填补和特征关系模型的扩展.

2.1. 混合语义下的不完备多尺度信息系统

现有不完备多尺度信息系统的研究通过引入容差关系处理多尺度信息系统中的数据缺失，但只考虑了遗漏型未知属性值，并且认为多尺度信息系统S的不完备是由于S¹的不完备，因此对象x在多尺度属性a_j下缺失，则a_j¹(x)=a_j²(x)=…=a_j^I(x)=*，即x在a_j的所有尺度下全部缺失. 而在实际应用中，可能存在遗漏型和缺席型未知属性值共存于一个多尺度信息系统，并且对象x只是在多尺度属性的某些尺度下缺失. 因此，针对已有研究的不足，本小节将定义混合语义下的不完备多尺度信息系统.

定义4 多尺度信息系统中的某些属性值未知，并且未知属性值是两种语义的任意解释，则称该信息系统为混合语义下的不完备多尺度信息系统，仍表示为S=(U，A)=(U，{a_j^k|k=1，2，…，I，j=1，2，…，m}). 符号“*”和“ $ \mathit{\emptyset} $ ”分别表示遗漏和缺席型未知属性值，即若a_j^k(x)=*或a_j^k(x)=$ \mathit{\emptyset} $，则认为x在属性a_j^k上的值未知，否则x在属性a_j^k上的值已知.

例1 表 1是一个具有3个尺度和2个属性的混合语义下的不完备多尺度信息系统S=(U，A)=(U，{a_j^k|k=1，2，3，j=1，2})，其中，U={x₁，x₂，…，x₈}，A={a₁，a₂}. S同时具有遗漏和缺席型未知属性，对象在多尺度属性下存在全部缺失也存在部分缺失，如x₂在a₁下部分缺失，x₅在a₂下全部缺失.

2.2. 数据填补

定理1   (U，{a_j^k|k=1，2，…，I，j=1，2，…，m})是一个多尺度信息系统，存在粒信息转换函数g_j^k，k+1：V_j^k→V_j^k+1，k=1，2，…，I-1，对于∀x，y∈U：

1) a_j^k+1(x)=g_j^k，k+1(a_j^k(x));

2) a_j^k+1(x)≠a_j^k+1(y)→a_j^k(x)≠a_j^k(y);

3) a_j^k(x)=a_j^k(y)→a_j^k+1(x)=a_j^k+1(y).

在不完备多尺度信息系统中，对于在多尺度属性a_j上部分缺失的对象，如果该对象在a_j的粗尺度下未知，而在细尺度下已知，此时根据定理1的1)可以填补粗尺度下的属性值. 因此，下面基于粒信息转换函数给出数据填补方法.

定义5    S=(U，A)=(U，{a_j^k|k=1，2，…，I，j=1，2，…，m})是混合语义下的不完备多尺度信息系统，g_j^k，+1：V_j^k→V_j^k+1是相对S完备的多尺度信息系统的粒信息转换函数. 对于k∈{1，2，…，I}，记$ A ^ k =\left \{ a _1^ k , a _2^ k , \cdots , a _ m ^ k \right \}$，S^k=(U，$ A ^ k $)，数据填补后的S^k记为S^{k^*}，数据填补后的S记为S^*，由S^{1^*}，S^{2^*}，…，S^I^*组成，其中S^{1^*}=S¹.

对于k∈{1，2，…，I-1}，根据g_j^k，k+1及S^{k^*}对S^k+1进行数据填补得到S^{k+1^*}：∀x∈U，a_j^k∈$ A ^ k $，若a_j^k+1(x)=*∨a_j^k+1(x)=$ \mathit{\emptyset} $并且a_j^k(x)≠*∧a_j^k(x)≠$ \mathit{\emptyset} $，则对a_j^k+1(x)进行填补有a_j^k+1(x)=g_j^k+1(a_j^k(x)).

定理2  设S=(U，A)=(U，{a_j^k|k=1，2，…，I，j=1，2，…，m})是一个混合语义下的不完备多尺度信息系统，a_j∈A，x∈U，对于数据填补后的S^*有：

1) 若a_j^k(x)=*或a_j^k(x)=$ \mathit{\emptyset} $，则有a_j^m(x)=*或a_j^m(x)=$ \mathit{\emptyset} $，m∈{1，2，…，k};

2) 若a_j^k(x)≠*且a_j^k(x)≠$ \mathit{\emptyset} $，则有a_j^m(x)≠*且a_j^m(x)≠$ \mathit{\emptyset} $，m∈{k，k+1，…，I};

3) 若x在a_j下部分缺失，即$\exists $ k∈{1，2，…，I-1}使得a_j^k(x)=*∨a_j^k(x)=$ \mathit{\emptyset} $而a_j^k+1(x)≠*∧a_j^k+1(x)≠$ \mathit{\emptyset} $，则有a_j^m(x)=*∨a_j^m(x)=$ \mathit{\emptyset} $，m∈{1，2，…，k}，并且a_jⁿ(x)≠*∧a_jⁿ(x)≠$ \mathit{\emptyset} $，n∈{k+1，k+2，…，I}.

例2    已知例1中S对应的完备多尺度信息系统的粒信息转换函数为：g₁^1，2(1)=g₁^1，2(2)=S，g₁^1，2(3)=M，g₁^1，2(4)=g₁^1，2(5)=L; g₁^2，3(S)=Y，g₁^2，3(M)=g₁^2，3(L)=N; g₂^1，2(1)=S，g₂^1，2(2)=g₂^1，2(3)=M，g₂^1，2(4)=g₂^1，2(5)=L; g₂^2，3(S)=N，g₂^2，3(M)=g₂^2，3(L)=Y.

对S进行数据填补：

根据g_j^1，2及S^{1^*}=S¹对S²进行数据填补得到S^{2^*}：a₁²(x₂)=$ \mathit{\emptyset} $并且a₁¹(x₂)=1，则a₁²(x₂)=g₁^1，2(1)=S;

根据g_j^2，3及S^{2^*}对S³进行数据填补得到S^{3^*}：a₁³(x₂)=$ \mathit{\emptyset} $并且a₁²(x₂)=S，则a₁³(x₂)=g₁^2，3(S)=Y; a₁³(x₆)=*并且a₁²(x₆)=M，则a₁³(x₆)=g₁^2，3(M)=N; a₂³(x₇)=$ \mathit{\emptyset} $并且a₂²(x₇)=L，则a₂³(x₇)=g₂^2，3(L)=Y.

由S^{1^*}，S^{2^*}，S^{3^*}得到S^*，如表 2所示.

2.3. 特征关系的模型扩展

由于数据填补后可能仍然存在未知值，可以将特征关系引入数据填补后的不完备多尺度信息系统. 针对例2中数据填补后的S^*，根据公式2可得x₇关于属性子集{a₂}在不同尺度下的特征集：K_{a₂¹}(x₇)=U，K_{a₂²}(x₇)={x₃，x₆，x₇，x₈}，K_{a₂³}(x₇)={x₂，x₄，x₆，x₇，x₈}. 显然不满足多尺度中尺度间的偏序关系K_{a₂¹}$ \subseteq $K_{a₂²}$ \subseteq $K_{a₂³}.

观察表 2可以发现，在第2尺度下a₂²(x₇)与a₂²(x₁)，a₂²(x₂)，a₂²(x₄)不相等，在第3尺度下a₂³(x₇)与a₂³(x₃)不相等，由定理1知，在第1尺度下a₂¹(x₇)与a₂¹(x₁)，a₂¹(x₂)，a₂¹(x₃)，a₂¹(x₄)不相等; 因a₂²(x₅)=$ \mathit{\emptyset} $(不可比较)，则有x₅ $ \notin $ [(a₂²，L)]=K(x₇，a₂²)，而x₅∈K(x₇，a₂¹)，为满足尺度间的偏序关系，使得x₅$ \notin $K(x₇，a₂¹). 由此得到K_{a₂¹}(x₇)={x₆，x₇，x₈}.

根据上述的分析，需要扩展特征关系模型以满足数据填补后混合语义下的不完备多尺度信息系统尺度间的偏序关系.

定义6   S=(U，A)=(U，{a_j^k|k=1，2，…，I，j=1，2，…，m})是一个多尺度信息系统，[(a_j^k，v)]为属性-值对(a_j^k，v)的块，记：

定义7    S=(U，A)=(U，{a_j^k|k=1，2，…，I，j=1，2，…，m})是一个混合语义下的不完备多尺度信息系统. 对于数据填补后的S^*，V_j^k={a_j^k(x)|x∈U}是属性a_j在第k个尺度的值域，对于属性-值对的块[(a_j^k，v)]，有：

1) 若a_j^k(x)=*，则x∈[(a_j^k，a_j^k(z))]，其中z∈U-Y，Y={y∈U|(m≠0∧a_j^m(x)≠a_j^m(y)，m=m_{a_j^k}(x))∨($\exists $a_jⁿ(x)=$ \mathit{\emptyset} $，k＜n≤I)};

2) 若a_j^k(x)=$ \mathit{\emptyset} $，则x$ \notin $[(a_j^k，v)]，其中v∈V_j^k.

对于∀x∈U，k∈{1，2，…，I}，a_j∈B$ \subseteq $A，K(x，a_j^k)是x关于属性a_j^k的广义不可分辨对象集，定义如下：

1) 若a_j^k(x)≠$ \mathit{\emptyset} $且a_j^k(x)≠*，则

2) 若a_j^k(x)=$ \mathit{\emptyset} $或a_j^k(x)=*：

当a_j^I(x)=$ \mathit{\emptyset} $或a_j^I(x)=*时，

当a_j^I(x)≠$ \mathit{\emptyset} $且a_j^I(x)≠*时，

其中

m_{a_j^k}(x)表示对象x在属性a_j的k尺度后属性值已知的最细尺度，若k尺度后属性值全部未知则m_{a_j^k}(x)=0. 记：

K_B^k(x)是对象x关于属性集B在第k尺度下的特征集.

对于∀x，y∈U，k∈{1，2，…，I}，B$ \subseteq $A，特征关系$ R _{ B ^ k }$是S^*在第k尺度下由属性子集B导出的一个广义不可分辨关系：

对于x∈U，k∈{1，2，…，I-1}，混合语义下的不完备多尺度信息系统S^*的粒信息转换函数不是满射函数，仅当a_j^k(x)≠$ \mathit{\emptyset} $且a_j^k(x)≠*时，满足a_j^k+1(x)=g_j^k，k+1(a_j^k(x)). 一个混合语义下的不完备多尺度信息系统S^*可以分解为I个信息系统S^{k^*}=(U，$ A ^ k $)，k=1，2，…，I.

例3  例2中数据填补后的S^*，由定义7可得到x₇关于B=A在不同尺度下的特征集，可得K_B¹(x₇)$ \subseteq $K_B²(x₇)$ \subseteq $K_B³(x₇).

定义8    S₁和S₂是非空集合U上的2个混合语义下的不完备多尺度信息系统，对于数据填补后的S₁^*和S₂^*分别有扩展后的特征关系R₁和R₂，若对于∀x∈U总有K_R₁(x)$ \subseteq $K_R₂(x)，那么就称U/R₁较U/R₂更细，或U/R₂较U/R₁更粗，记为U/R₁$ \subseteq $U/R₂.

定理3    $\left ( U , \left \{ A ^ k \mid k =1, 2, \cdots , I \right \}\right )$是一个混合语义下的不完备多尺度信息系统，对于数据填补后的$S^*, k=1, 2, \cdots I, B \subseteq A$，记：

如下性质成立：∀x∈U.

1) $R_{B^k}$是自反的，不一定是对称和传递的;

2) $R_{B^k}=\bigcap_{a \in B} R_{a^k}$;

3) 当$C \subseteq B \subseteq A$时, $R_{A^k} \subseteq R_{B^k} \subseteq R_{C^k}$;

4) 当$C \subseteq B \subseteq A$时, $K_{A^k}(x) \subseteq K_{B^k}(x) \subseteq K_{C^k}(x)$;

5) $R_{B^k} \subseteq R_{B^{k+1}}$，其中$k=1, 2, \cdots, I-1$;

6) $K_{B^k}(x) \subseteq K_{B^{k+1}}(x)$, 其中$k=1, 2, \cdots, I-1$;

7) $U / R_{B^k} \subseteq U / R_{B^{k+1}}$, 其中$k=1, 2, \cdots, I-1$.

定义9    $ X \subseteq U, X$关于$R_{B^k}$的下近似集和上近似集定义为：

集合$B N_{B^k}(X)=\overline{R_{B^k}}(X)-\underline{R_{B^k}}(X)$称为X的$R_{B^k}$边界域.

由定理3和上述上、下近似的定义易得到如下定理：

定理4   $\left(U, \left\{A^k \mid k=1, 2, \cdots, I\right\}\right)$是一个混合语义下的不完备多尺度信息系统，对于数据填补后的$ S^*, k=1,2, \cdots I, B \subseteq A$，有如下性质成立：$\forall X \subseteq U, Y \subseteq U $.

1) $\underline{R_{B^k}}(X)=\sim \overline{R_{B^k}}(\sim X)$;

2) $\overline{R_{B^k}}(X)=\sim \underline{R_{B^k}}(\sim X)$;

3) $R_{B^k}(\varnothing)=\overline{R_{B^k}}(\mathit{\emptyset})=\varnothing$;

4) $R_{B^k}(U)=\overline{R_{B^k}}(U)=U$;

5) $R_{B^k}(X \cap Y)=R_{B^k}(X) \cap R_{B^k}(Y)$;

6) ${\overline{R_{B^k}}}(X \cup Y)={\overline{R_{B^k}}}(X) \cup {\overline{R_{B^k}}}(Y)$;

7) $X \subseteq Y \Rightarrow \underline{R_{B^k}}(X) \subseteq \underline{R_{B^k}}(Y)$;

8) $X \subseteq Y \Rightarrow \overline{R_{B^k}}(X) \subseteq \overline{R_{B^k}}(Y)$;

9) $R_{B^k}(X \cup Y) \supseteq R_{B^k}(X) \cup R_{B^k}(Y)$;

10) ${\overline{R_{B^k}}}(X \cap Y) \subseteq \overline{R_{B^k}}(X) \cap \overline{R_{B^k}}(Y)$;

11) $R_{B^k}(X) \subseteq X \subseteq \overline{R_{B^k}}(X)$;

12) $\overline{R_{B^{k+1}}}(X) \subseteq R_{B^k}(X), k=1, 2, \cdots, I-1$;

13) $\overline{R_{B^k}}(X) \subseteq \overline{R_{B^{k+1}}}(X), k=1, 2, \cdots, I-1$.

X关于$R_{B^k}$的粗糙度定义为：

可得到不同的尺度下X的近似精度与粗糙度的关系.

定理5    $\left(U, \left\{A^k \mid k=1, 2, \cdots, I\right\}\right)$是一个混合语义下的不完备多尺度信息系统，对于数据填补后的$S^*, k=1, 2, \cdots, I-1, B \subseteq A$，则$\forall X \subseteq U$.

1) $\alpha_{B^{k+1}}(X) \leqslant \alpha_{R_{B^k}}(X)$;

2) $\rho_{B^k}(X) \leqslant \rho_{R^{k+1}}(X)$.

定理5表明，尺度越小(细)，集合X的近似精度越高而粗糙度越小.

5. 结论

本研究分析发现目前研究中对不完备多尺度信息系统的定义存在局限，因此定义混合语义下的不完备多尺度信息系统，即未知属性值可以是任意的语义解释(遗漏和缺席型未知属性值)并且对象在多尺度属性下缺失时不局限于全部缺失. 引入特征关系以处理此类更为一般的不完备多尺度信息系统，为保持尺度间偏序关系对混合语义下的不完备多尺度信息系统进行数据填补和特征关系的模型扩展，同时给出在不同尺度下信息粒度的表示及其相互关系，定义了集合的上、下近似集概念，并讨论了它们的性质. 基于上述工作，在混合语义下的不完备多尺度决策系统中建立序贯三支决策模型，基于该模型选择不确定性最小的尺度作为最优尺度. 本研究所定义的最优尺度与已有的方法略有不同，选择不确定性最小的尺度作为最优尺度是直观且容易理解的，并且无需从一致和不一致的不完备多尺度决策系统两个角度分别讨论最优尺度. 通过实验证明，经数据填补和模型扩展后，不完备多尺度决策系统的分类精度得到提升，并且选择的最优尺度是所有尺度中不确定性最小的.

参考文献 (34)

姓名
	姓名不能为空！
邮箱
	邮箱不能为空！非法的邮箱地址。
手机号码
	电话不能为空！请输入有效手机号!
标题
	标题不能为空！
留言内容
	内容不能为空！
验证码
	验证码不能为空！验证码错误！

留言板

混合语义下的不完备多尺度决策系统及其最优尺度选择

重庆邮电大学计算智能重庆市重点实验室，重庆 400065

重庆邮电大学计算机科学与技术学院，重庆 400065

作者简介:
刘微，硕士研究生，主要从事粗糙集、粒计算研究 .

通讯作者: 胡军，教授，博士研究生导师

Incomplete Multi-Scale Decision System with Mixed Semantics and Its Optimal Scale Selection

Chongqing Key Laboratory of Computational Intelligence, Chongqing University of Posts and Telecommunications, Chongqing 400065, China

College of Computer Science and Technology, Chongqing University of Posts and Telecommunications, Chongqing 400065, China

计量

混合语义下的不完备多尺度决策系统及其最优尺度选择

通讯作者: 胡军，教授，博士研究生导师

作者简介: 刘微，硕士研究生，主要从事粗糙集、粒计算研究
重庆邮电大学计算智能重庆市重点实验室，重庆 400065

重庆邮电大学计算机科学与技术学院，重庆 400065

English Abstract