-
开放科学(资源服务)标识码(OSID):
-
孤独症是一种神经发育障碍,主要表现为社交互动和沟通能力的缺陷. 孤独症儿童通常在幼儿期就表现出明显的认知差异,因此及早发现和诊断孤独症症状对于他们的发展至关重要[1-2]. 在过去的几十年中,孤独症儿童的发病率不断增加,准确且及时地进行孤独症认知诊断能够有效降低其发病率[3-4]. 传统的诊断方法主要依赖于临床医师的经验和主观判断,存在诊断准确性不高和诊断时间较长的问题. 为了提高诊断的准确性和效率,研究人员开始探索利用数据挖掘技术构建孤独症儿童认知诊断模型,具有重要的现实意义.
数据挖掘是一种从海量数据中发现模式和规律的技术,已经广泛应用于医疗领域. 利用数据挖掘技术,可以从海量的临床数据和认知行为数据中提取有效特征,并构建一个高效的分类模型,用于孤独症儿童的认知诊断[5-6]. 目前,已经有一些研究尝试使用数据挖掘技术进行孤独症的诊断,取得了一定的成果. 然而,这些研究大多依赖于小样本数据,且缺乏对模型的验证和评估[7-8]. 因此,本文将通过分析和学习大量的临床数据和认知行为数据,提取有效特征,构建一个高效的分类模型,研究基于粗糙集约简算法的孤独症诊断知识库,基于概率图构建孤独症诊断模型,并将其应用于孤独症儿童的诊断. 通过构建概率图,可以建立起孤独症诊断模型中各个变量之间的概率关系,从而更好地进行孤独症诊断和预测.
全文HTML
-
数据挖掘知识发现过程是指通过数据挖掘技术从海量数据中发现有用的、新颖的和可解释的知识[9-10]. 其中,粗糙集约简算法是一种处理不确定性和模糊性数据的数学工具,其基本思想是将决策表中的属性进行约简,来找出决策系统的核心属性和决策规则. 它采用一种基于上近似集和下近似集的方法,将决策表中的属性进行分类和筛选,以得到最小属性集,从而得到决策规则[11-12]. 数据挖掘知识发现过程及粗糙集原理如图 1所示.
在图 1中,粗糙集约简算法可以处理不确定性和模糊性数据,从海量的数据中提取有用的信息和知识,发现数据之间的关系和规律,自动生成决策规则. 基于粗糙集约简算法的孤独症诊断知识库是一个集成了粗糙集理论和约简算法的诊断系统,专门用于孤独症的辅助诊断,它通过多种渠道收集孤独症患者的数据,从收集的数据中提取出与孤独症相关的特征,运用粗糙集理论对特征进行分类和约简,去除冗余信息,保留关键特征. 基于约简后的特征集,生成孤独症的诊断规则,并存储到知识库中. 将新患者的数据与知识库中的诊断规则进行匹配,给出诊断结果. 属性约简的目标是从原始特征集合中删除不相关或冗余的特征,从而降低数据的维度并提高算法的准确性和效率. 可识别矩阵是一种数学工具,用于解决决策系统中的知识约简问题. 可识别矩阵能够反映系统中属性间的关系,帮助确定各属性的重要性. 通过矩阵运算,可以找到系统的必要属性,进而对决策系统进行简化和优化[13-14]. 定义S=(U,A),U={u1,u2,…,un},则可识别矩阵元素如式(1)所示.
式中:(cij)表示矩阵中的一个元素,其中i和j表示系统S=(U,A)中对象集合U中的不同对象的索引;D(u)表示u在属性D上的值;a(u)表示u在属性a上的值.
矩阵的对角线元素值为0,这意味着每个属性都不能区分自己,即不能单独决定某个记录的分类. 因此,如果某个属性在矩阵中只出现了一次,并且其值是1,则该属性只能单独决定一个记录的分类,那么这个属性就是重要的,应该保留. 在对角矩阵中,如果使用下三角矩阵来表示,那么非对角线上的元素则表示不同属性组合的情况. 如果某个属性组合数只有1,那么这个属性组合无法区分其他决策不同的记录,因此这个属性也是重要的,应该保留.
-
通过粗糙集约简算法建立孤独症诊断知识库之后,运用概率图构建孤独症诊断模型. 概率图模型是一种用图来表示随机变量之间概率依赖关系的模型,在概率图模型中,节点表示随机变量,边表示变量之间的概率依赖关系. 根据边的不同类型,概率图模型可以分为有向图和无向图 2种. 常见的概率图模型包括贝叶斯网络、马尔科夫网络、信念网络等. 这些模型都可以用来表示随机变量之间的概率依赖关系,但它们的结构和性质略有不同. 例如,贝叶斯网络是一种有向图模型,每个节点都有1个父节点和1个子节点,表示条件独立性;马尔科夫网络是一种无向图模型,节点之间通过边相连,表示变量之间的相互影响[15-16]. 贝叶斯网络概率图模型如图 2所示.
贝叶斯网络是基于概率论的分类方法,可以处理不确定性和模糊性数据. 它利用概率和条件概率来描述变量之间的关系,并能够自动学习分类规则和参数. 由图 2可知,贝叶斯网络的优势在于能够结合领域知识和样本数据,建立一个可视化的概率模型,并利用条件独立假设降低计算复杂度. 在分类任务中,贝叶斯网络通过对训练数据的学习,估计出每个节点在分类中的重要程度,从而进行分类预测.
朴素贝叶斯模型是基于特征之间独立性假设的贝叶斯分类器. 在构建模型时,需要确定各个特征之间的条件独立性,并据此建立概率模型. 朴素贝叶斯网络分类器使用一个n维特征向量X=(X1,X2,…,Xn)来描述一个数据样本在n个属性上的属性值. 每个属性对应于特征向量中的一个维度,而特征向量的每个元素表示该属性在数据样本中的取值. 通过这种方式,朴素贝叶斯网络分类器能够捕获数据样本的多个特征及其之间的关系,并根据这些特征进行分类决策. 在朴素贝叶斯网络分类器的建立过程中,需要计算每个类别的先验概率和每个特征在每个类别下的条件概率. 先验概率是指某个类别在数据集中出现的概率,而条件概率是指给定某个类别时,某个特征出现的概率. 朴素贝叶斯网络分类器基于贝叶斯定理进行分类决策,即对于未知的样本X,将其分类到后验概率最大的类别中[17-18]. 先验概率如式(2)所示.
式中:X是数据样本,通常是一个n维特征向量;C是类别集合;P(C)是类别C的先验概率;P(X|C)是在给定类别C的条件下,数据样本X出现的概率;P(C|X)是在给定数据样本X的条件下,类别C出现的概率,也称为后验概率.
对于给定的数据集,如果包含着比较多的属性,计算每个特征在每个类别下的条件概率P(X|Ci)可能会使计算复杂度变得很高. 为了降低计算量,朴素贝叶斯网络分类器采用类条件独立性假设,这意味着在给定样本所属类别的情况下,各个特征之间是相互独立的,即它们之间没有依赖关系,如式(3)所示.
式中:n是数据样本X中属性的数量;k表示遍历数据集中的所有特征或变量. P(x1|Ci),P(x2|Ci),…,P(xn|Ci)通过训练样本估值得到.
通过类条件独立性假设,朴素贝叶斯网络分类器大大简化了计算过程. 具体来说,对于给定的类别Ci和特征向量X,每个特征x的条件概率P(X|Ci)可以独立计算,而不需要考虑其他特征的影响. 这样可以分别计算每个特征在每个类别下的条件概率,然后根据这些条件概率进行分类决策.
似然函数是用来衡量一个样本相对于某个模型适合程度的函数. 在贝叶斯网络中,似然函数通常定义为给定证据下,模型中所有变量的联合概率分布,它描述了在给定某些观察结果时,模型预测这些观察结果的可能性[19-20]. 假设有一个贝叶斯网络,其中包含n个随机变量X={X1,X2,…,Xn}. 给定一组观察结果E,则似然函数如式(4)所示.
式中:xi是观察结果E中对应于随机变量Xi的值;P(E)表示似然函数,可以通过组合条件概率表中的概率值来计算. 给定观察结果E=E时,这组观察结果在模型中的似然函数值为0.45.
将贝叶斯网络进行优化改进,提出一种树增广朴素贝叶斯网络. 树增广朴素贝叶斯网络采用树结构来放宽朴素贝叶斯网络的独立性假设,即假设属性对应的各个节点之间不一定相互独立,并且引入了树结构来表示节点之间的关系[21-22]. 朴素贝叶斯网络与树增广朴素贝叶斯网络的结构对比如图 3所示.
在图 3中,树增广朴素贝叶斯网络基于最大带权生成树算法,计算两两属性间的条件互信息,表示属性之间的依赖程度. 在树增广朴素贝叶斯网络中,每个节点代表一个属性或特征,而边则表示它们之间的关系. 通过树结构,模型能够更好地捕捉属性之间的依赖关系,从而提高了分类性能. 与朴素贝叶斯网络相比,树增广朴素贝叶斯网络的优势在于它能够处理更复杂的依赖关系,并能够更好地表示特征之间的关联性.
-
首先建立孤独症诊断知识库,收集大量的孤独症相关数据,包括儿童的行为表现、语言能力、社交技能等方面的信息. 然后利用粗糙集约简算法对数据进行处理和分析,提取其中的核心特征和规则,形成孤独症诊断知识库. 接着构建孤独症诊断模型,基于概率图理论构建一个孤独症诊断模型,该模型可以将儿童的行为表现、语言能力、社交技能等数据输入,通过概率图中的条件概率分布,计算出儿童患孤独症的概率. 最后将2种模型应用于孤独症儿童的确诊和孤独症儿童模仿能力评价,对于已经确诊的孤独症儿童,可以运用该模型对其模仿能力进行评价. 根据评价结果,可以为儿童提供针对性的干预措施,帮助其提高模仿能力. 基于诊断模型和模仿能力评价结果,为孤独症儿童制定个性化的干预计划,该计划可以根据每个儿童的实际情况进行定制,以提高干预效果.
本文将模型设计成游戏平台,这样可以更自然地评估孤独症儿童的各项指标. 游戏的设计应基于儿童的发展阶段和兴趣,同时要确保评估的准确性和可靠性. 游戏的内容和难度可以根据儿童的反应和表现进行动态调整,这样可以更好地适应每个儿童的个体差异,并获得更准确的评估结果. 考虑将游戏整合到不同的平台或设备上,如手机、平板电脑或专门的评估软件,以方便家长和医生随时进行评估. 在游戏过程中,实时收集和分析数据,并给出反馈和建议,帮助家长和医生更好地了解儿童的情况,从而调整干预措施[23-24]. 评估游戏设计思路简介如表 1所示.
在表 1中,这些游戏可以根据孤独症儿童的年龄和发展阶段进行个性化设计,以确保评估结果的准确性和可靠性. 同时,通过观察儿童在游戏中的表现,可以为他们的诊断和个性化干预提供有价值的参考信息. 孤独症儿童参与度指标如式(5)所示[25].
式中:RT表示孤独症儿童对游戏中所有虚拟人物的注视时间总和;AGT表示整个游戏体验所用总时间.
1.1. 基于粗糙集约简算法的孤独症诊断知识库
1.2. 基于概率图的孤独症诊断模型构建
1.3. 孤独症儿童模仿能力评价与个性化干预
-
为了评估基于粗糙集约简算法及树增广朴素贝叶斯网络的孤独症认知诊断模型的性能,本文对不同模型的平均绝对误差(Mean Absolute Error,MAE)和均方根误差(Root Mean Square Error,RMSE)进行对比分析. MAE是一种常用的衡量预测误差的指标,它表示预测值与真实值之间的平均绝对偏差. MAE的值越小,说明预测结果越接近真实值. RMSE则考虑了预测误差的方差和平均值,对异常值更加敏感. RMSE的值越小,说明预测结果的稳定性越好. 本文将基于粗糙集约简算法及树增广朴素贝叶斯网络的孤独症认知诊断模型(模型1)与知识熟练度追踪孤独症认知诊断模型(模型2)、深度知识追踪孤独症认知诊断模型(模型3)和运动增强循环神经网络孤独症认知诊断模型(模型4)进行对比分析,如图 4所示.
在图 4a中,可以看到模型1的RMSE最小,在0.10~0.11区间,而模型2的RMSE达到了0.13,这表明模型1的预测结果具有更好的稳定性. 在图 4b中,可以看到模型1的MAE最小,在0.009~0.115区间,而模型4的MAE达到了0.14,这表明模型1的预测结果具有更好的稳定性. 无论是从RMSE还是MAE的角度来看,模型1的预测结果的稳定性和准确性都是最好的.
接收者操作特征曲线(Receiver Operating Characteristic Curve,ROC)是敏感性和特异性连续变量的曲线,是一种用于评估预测模型性能的工具,通过将模型预测的概率值与实际标签进行比较,可以绘制出ROC曲线. 曲线下方面积(Area Under the Curve,AUC)是ROC曲线下的面积,是评估预测模型性能的重要指标之一. 其值越接近于1,说明模型的性能越好,而值越接近于0.5,则说明模型的性能越差. 基于粗糙集约简算法及树增广朴素贝叶斯网络的孤独症认知诊断模型的ROC曲线和AUC面积及模型的运行时间对比如图 5所示.
在图 5a中,ROC曲线是根据不同阈值下的敏感性和特异性绘制而成的,AUC值通过计算ROC曲线下的面积得到. 若AUC等于1,则表示该模型是一个完美的分类器,在所有可能的阈值设置下,它都能完美地将正样本和负样本进行区分,即假正类率为1,真正类率为1. 在图 5b中,模型1的运行时间最短,其他模型的运行时间较长,这说明模型1在执行效率上具有优势. 运行时间短的模型通常更适用于实时或在线预测,能够快速给出结果,提高了系统的响应速度. 此外,较短的运行时间也意味着模型1在处理大量数据时更为高效,能够在有限的时间内处理更多的数据,提高了数据处理能力.
-
孤独症相关症状量表(Childhood Autism Rating Scale,CARS)是一个用于评估孤独症相关症状的标准化量表,这个量表适用于2岁以上的儿童,通过一系列的问题和观察,评估儿童的社交能力、语言能力、模仿能力、兴趣和行为等方面的表现. CARS量表的评分标准分为5档,从0分到4分,分数越高,孤独症相关症状越严重. 本文将CARS量表结果与研究提出的认知诊断模型应用于孤独症儿童患者,将认知诊断模型得出的结果与CARS量表的结果进行对比,验证模型的准确性和可靠性,如图 6所示.
在图 6中,A代表社交技能和沟通能力,B代表反应速度和准确性,C代表模仿能力和身体协调能力,D代表逻辑性和思考能力,E代表情绪的识别能力,F代表注意力问题,G代表反应和适应能力. 图 6a和图 6b显示诊断结果差异不大,说明研究所提出模型的预测结果是准确可靠的. 根据孤独症诊断结果对孤独症儿童进行个性化干预,进行干预后的量表结果如图 7所示.
在图 7中,根据孤独症诊断结果对孤独症儿童进行个性化干预后,在各个能力或特征方面都有了明显的提升,在社交技能和沟通能力方面,干预后儿童的得分明显降低,说明他们在与他人交往和沟通方面有了更好的表现,表明个性化干预措施是有效的,可以帮助孤独症儿童改善他们的症状和功能表现. 孤独症儿童与普通儿童参与度指标对比如图 8所示.
在图 8中,孤独症谱系障碍儿童组参与度平均为78.64%,普通儿童组参与度平均为45.37%. 孤独症谱系障碍儿童组在参与度和群体平均参与度2个指标上均显著高于普通儿童组. 通过利用孤独症儿童对固定模式虚拟人物的兴趣,可以设计更具针对性和有效性的干预措施,帮助他们提高社交技能和沟通能力. 将参与度作为实验结果评价指标来区分同龄段的孤独症谱系障碍儿童和普通儿童具有一定的预期有效性. 认知诊断模型能够对孤独症儿童的言语沟通等社交能力缺陷进行评估诊断.
2.1. 基于粗糙集约简及树增广朴素贝叶斯网络的模型性能分析
2.2. 基于概率图的孤独症诊断模型应用效果分析
-
随着计算机技术的飞速发展,数据挖掘作为一种强大的分析工具,为孤独症儿童认知诊断提供了新的机遇. 本文收集了大量的孤独症儿童的认知行为数据,并进行了预处理和特征选择. 然后基于概率图对数据进行训练和建模. 最后评估了该认知诊断模型的性能,并与传统的诊断方法进行了比较. 研究结果显示,该认知诊断模型的假正类率为1,真正类率为1,表示该模型是一个完美的分类器,在所有可能的阈值设置下,它都能完美地将正样本和负样本进行区分. 该模型的RMSE与MAE比传统模型更小,RMSE范围在0.10~0.11,MAE范围在0.009~0.115. 而传统模型的RMSE达到了0.13,MAE达到了0.14. 该模型在孤独症儿童的诊断中具有较高的准确性和稳定性. 然而研究可能受到数据样本的限制,导致模型的泛化能力可能有局限性. 在进一步研究中,需要收集更多的数据样本来验证和改进模型的效果.