Disease Prediction Method Based on Gram Matrix and Random Forest

ZOU Jin-song

doi:10.13718/j.cnki.xsxb.2021.05.022

Aiming at the problems of low prediction accuracy, long prediction time and large storage space in the existing prediction methods, a disease prediction method based on Gram matrix and random forest has been proposed. In this method, at first, a large amount of data are collected from the data set, and then Gram symmetry matrix is used to store and classify the collected data. Then, the random forest binary regression and classification technology has been introduced to measure the relationship between the prediction results and the data through the correlation of binary variables, and a decision tree has been constructed to classify the results according to the correlation. At last, the voting scheme is used to output the final prediction result. The experimental results show that compared with other methods, the proposed method improves the prediction accuracy while it reduces the time and space complexity of prediction.

HTML

在大数据中，预测分析是指从大型数据集中提取相关信息用于总结规律并对未来做预测分析的过程^[1]. 大数据分析大致分为数据收集、存储、分析和预测4个阶段，研究人员根据收集到的大数据信息，通过执行数据聚合进行数据分析来完成预测^[2]. 预测分析可用于各种应用领域，如医疗保健、保险业务及天气预报等^[3-4].

近年来，许多研究学者从不同角度提出了用于大数据预测分析的方法. Chen等^[5]提出一种基于卷积神经网络的多模态疾病风险预测算法，并成功应用于有序和非结构化数据中. 但是该算法无法以较少的时间开销实现有效的预测. Gu等^[6]采用贝叶斯和神经网络相结合的方式对大数据进行更广泛、更一致的预测，但是该技术的预测精度不高. Nair等^[7]在开源大数据处理引擎Apache Spark中引入可扩展的机器学习方法来预测用户的健康状况，但是该模型预测疾病的种类较少. Babu等^[8]提出了一种基于灰狼优化和自编码递归神经网络的疾病预测模型，该模型利用灰狼优化对数据进行特征选择，然后采用自编码递归神经网络进行疾病预测. Mohan等^[9]利用混合随机森林线性模型建立的心脏病预测模型，通过多种机器学习分类器技术寻找显著特征，有效提高了预测精度. 但是这种方法是多种分类器的组合，在预测过程中时间花费较多. Yao等^[10]在MapReduce框架中引入分布式并行极限学习机和层次式极限学习机用于大数据多模态过程质量预测，将高效的极限学习机算法转化为分布式并行建模形式，降低计算时间，实现在线预测.

针对上述文献中存在的预测精度低，时间开销大以及空间复杂度高等问题，提出一种基于格拉姆矩阵和随机森林的大数据预测方法，该方法首先对采集到的大数据集利用格拉姆对称矩阵进行存储，然后使用随机森林二元回归和分类技术对存储后的数据进行处理，以最小的时间和空间复杂性提高预测精度.

1. 随机森林模型

随机森林(Random Forest，RF)^[11]是一种机器学习方法，该方法融合了Bagging思想和随机子空间思想，利用随机重采样和节点随机分裂技术构建多个决策树，然后采用投票的方式得到最终的分类结果. 对于每个决策树模型(X，β_k)都拥有选择最终分类结果的投票权，分类决策公式为

式(1)中：H(X)和h_i(x)分别表示随机森林和单个决策树的分类结果，Y表示分类目标，I(·)表示示性函数.

随机森林的建模及预测步骤可以总结为：①给定包含N个样本的数据集，采用Bootstrap方法进行K次有放回的随机抽样操作，得到K个训练样本集；②对每个采样集，从所有特征中随机选择m个特征，然后从中选择具有最佳分类能力的特征作为节点进行分裂，构建K棵分类回归树；③保证每棵树最大限度地生长，不对其做任何剪裁；④将生成的多棵树组成随机森林，利用随机森林对新数据进行预测：分类任务使用投票法确定样本的最终分类，回归任务使用平均法确定样本的最终预测.

2. 基于随机森林分类的大数据预测

大数据是海量和复杂数据的集合. 通过计算非常大的数据集形成众所周知的模式，并将其用于预测分析. 随着大数据的发展，预测是在早期阶段确定未来结果，从而最大程度地降低风险水平的一项主要任务. 目前，已经存在一些用于执行预测分析的研究工作. 但是，准确的预测仍然是一个具有挑战性的问题. 为了以最小的时间开销提高预测精度，本文提出一种基于随机森林分类的大数据预测方法.

本文提出方法包括3个主要步骤，即预处理、数据分析和预测. 首先，从数据集中采集大量数据，这些收集到的数据使用格拉姆对称矩阵进一步存储. 由于格拉姆矩阵被视为是数据特征之间的偏心协方差矩阵，根据格拉姆矩阵的差异可以度量特征之间的相关性，进而度量各个维度自身的特性及各个维度之间的关系. 本文将大量数据存储在格拉姆矩阵中，有助于在预测分析中将干扰因素降至最低. 数据存储后，采用随机决策森林学习方法进行回归和分类. 数据分析是通过双变量相关分析来确定相关数据和独立数据之间的关系. 然后，利用根节点、分支节点和叶节点3个不同的节点构造决策树，将决策树进行组合，应用投票方案得到准确的预测结果.

2.1. 数据的预处理

数据的预处理首先是从现有的公开疾病数据集中收集数据，本文选择加利福尼亚大学欧文分校公开的心脏病数据集、糖尿病数据集和癌症资料集. 通过选择相关属性，获得有助于预测决策的有效信息. 假设从大型数据集中收集的数据数量可以定义为

式(2)中：D_i表示从大数据集D^l收集的数据. 为了进一步分析数据，在收集数据后将进行数据存储.

数据存储也是数据分析的步骤之一. 本文使用格拉姆对称矩阵存储数据，获取的数据不会被修改并存储在矩阵中. 任意n个向量之间两两的内积所组成的矩阵，称为n个向量的格拉姆矩阵. 格拉姆矩阵的构造为

式(3)中：g_ij表示按行和列排列的存储数据D₁，D₂，…，D_n的格拉姆矩阵. 〈D_1，1〉表示存储在矩阵第一行第一列中的数据. 如果在矩阵中添加了任何附加信息，则会生成新的列和行. 这种存储方法为数据提供了简单的访问方式，有助于算法在处理数据时最大程度地减少计算时间.

2.2. 随机森林回归和分类

存储数据后，使用随机森林二元回归和分类(Random Forest Bivariate Regression and Classification，RFBRC)模型进行预测分析，它是一种通过构造多个决策树来执行回归和分类的集成学习方法. 回归是一种数学过程，用于测量两个变量之间的关系，其中将被预测的变量称为因变量，而自变量是数据的成员. 在更改一个或多个自变量时，因变量会发生变化.

RFBRC技术最初通过测量因变量和自变量之间的关系来构造决策树对数据进行分类，RFBRC技术包含n个用于分类的二元决策树，单个决策树的预测在其训练集中极易受到噪声的影响，每个决策树都是通过一种随机方法来限定的，因此该分类器被称为随机决策森林分类. 考虑一个训练集，其数据D₁，D₂，…，D_n取自格拉姆对称矩阵的第一行. 这些数据以文件的形式作为随机林的输入，随机森林通过二元相关技术度量因变量和自变量之间的关系进行回归分析. 二元相关技术的定义为

式(4)中：Z=(∑pq)-(∑p)(∑q)，ρ表示相关系数，p表示因变量，q表示自变量. 二元相关系数是p和q之间关系的量度，在[-1, 1]之间取值，1表示正相关，-1表示负相关. 基于关系度量，构造决策树对数据进行分类. 决策树使用3种类型的节点，即根节点，分支节点和叶节点. 根节点表示对数据的测试，每个分支均提供测试结果；叶节点表示类标签，根节点被分为两个子节点及一个确定的决策. 每个决策树分类器的输出可以表示为

所有决策树分类器输出被合并后的投票结果定义为

式(6)中：V表示应用于决策树{h_t}的表决. 对预测过程中的泛化误差进行测量，用于识别算法在基于历史数据预测结果值的准确性. 误差被测量为预期误差与观察误差之间的差.

式(7)中：Δ，ε_ex和ε_em分别表示预测误差、期望误差和观察误差. RFBRC技术的误差计算用于最小化预测过程中的假阳性率.

4. 结语

在大数据分析中，数据分析技术存在精度和效率低，时间消耗多的问题. 为了克服这些局限性，本文提出一种基于格拉姆矩阵和随机森林的预测方法用于大型医疗数据分析，该预测方法由4个过程组成：①从大数据集中收集数据；②利用格拉姆矩阵对采集到的数据进行存储；③应用随机森林二元回归和分类技术，基于二元关系测度对未来结果进行预测；④利用决策树根据相关结果对数据进行分类，并提供了准确的预测结果. 实验结果表明，本文方法提高了预测精度，最大限度地减少了预测时间、误报率和空间复杂度.

Figure (2) Table (2) Reference (14)

Name
	Name cannot be empty!
E-mail
	Mailbox cannot be empty! Mailbox cannot be empty!
Telephone
	Mobile number cannot be empty! Please enter a valid mobile number!
Title

Content
Verification Code

[1]	HOSSEINI M P, POMPILI D, ELISEVICH K, et al. Optimized Deep Learning for EEG Big Data and Seizure Prediction BCI via Internet of Things [J]. IEEE Transactions on Big Data, 2017, 3(4): 392-404. doi: 10.1109/TBDATA.2017.2769670 CrossRef Google Scholar
[2]	JINDAL A, DUA A, KUMAR N, et al. Providing Healthcare-as-a-Service Using Fuzzy Rule Based Big Data Analytics in Cloud Computing [J]. IEEE Journal of Biomedical and Health Informatics, 2018, 22(5): 1605-1618. doi: 10.1109/JBHI.2018.2799198 CrossRef Google Scholar
[3]	ULLAH F, HABIB M A, FARHAN M, et al. Semantic Interoperability for Big-Data in Heterogeneous IoT Infrastructure for Healthcare [J]. Sustainable Cities and Society, 2017, 34: 90-96. doi: 10.1016/j.scs.2017.06.010 CrossRef Google Scholar
[4]	DUBEY R, GUNASEKARAN A, CHILDE S J, et al. Big Data and Predictive Analytics and Manufacturing Performance: Integrating Institutional Theory, Resource-Based View and Big Data Culture [J]. British Journal of Management, 2019, 30(2): 341-361. doi: 10.1111/1467-8551.12355 CrossRef Google Scholar
[5]	CHEN M, HAO Y X, HWANG K, et al. Disease Prediction by Machine Learning over Big Data from Healthcare Communities [J]. IEEE Access, 2017, 5: 8869-8879. doi: 10.1109/ACCESS.2017.2694446 CrossRef Google Scholar
[6]	GU Y L, LU W Q, XU X Y, et al. An Improved Bayesian Combination Model for Short-Term Traffic Prediction with Deep Learning[J]. IEEE Transactions on Intelligent Transportation Systems, 2019, 21(3): 1332-1342. Google Scholar
[7]	NAIR L R, SHETTY S D, SHETTY S D. Applying Spark Based Machine Learning Model on Streaming Big Data for Health Status Prediction [J]. Computers & Electrical Engineering, 2018, 65: 393-399. Google Scholar
[8]	BABU S B, SUNEETHA A, BABU G C, et al. Medical Disease Prediction Using Grey Wolf Optimization and Auto Encoder Based Recurrent Neural Network [J]. Periodicals of Engineering and Natural Sciences (PEN), 2018, 6(1): 229. doi: 10.21533/pen.v6i1.286 CrossRef Google Scholar
[9]	MOHAN S, THIRUMALAI C, SRIVASTAVA G. Effective Heart Disease Prediction Using Hybrid Machine Learning Techniques [J]. IEEE Access, 2019, 7: 81542-81554. doi: 10.1109/ACCESS.2019.2923707 CrossRef Google Scholar
[10]	YAO L, GE Z Q. Distributed Parallel Deep Learning of Hierarchical Extreme Learning Machine for Multimode Quality Prediction with Big Process Data [J]. Engineering Applications of Artificial Intelligence, 2019, 81: 450-465. doi: 10.1016/j.engappai.2019.03.011 CrossRef Google Scholar
[11]	周传华, 柳智才, 丁敬安, 等. 基于filter+wrapper模式的特征选择算法[J]. 计算机应用研究, 2019, 36(7): 1975-1979, 2010. Google Scholar
[12]	张俐, 袁玉宇, 王枞. 基于最大相关信息系数的FCBF特征选择算法[J]. 北京邮电大学学报, 2018, 41(4): 86-90. Google Scholar
[13]	NKUNDIMANA JOEL G, MANJU PRIYA S. Improved Ant Colony on Feature Selection and Weighted Ensemble to Neural Network Based Multimodal Disease Risk Prediction (WENN-MDRP) Classifier for Disease Prediction over Big Data [J]. International Journal of Engineering & Technology, 2018, 7(3): 56-61. Google Scholar
[14]	VENKATESH R, BALASUBRAMANIAN C, KALIAPPAN M. Development of Big Data Predictive Analytics Model for Disease Prediction Using Machine Learning Technique [J]. Journal of Medical Systems, 2019, 43(8): 1-8. doi: 10.1007/s10916-019-1398-y CrossRef Google Scholar

Message Board

Disease Prediction Method Based on Gram Matrix and Random Forest

Abstract

References

Access History

通讯作者: 陈斌, bchen63@163.com

Article Metrics

Access History

Other Articles By Authors