基于集成学习算法的慢性肾病早期筛查方法

姜玉苹; 余诚; 林燕榕; 斯海燕; 刘迪; 朱江; 王浩; 陈浩

doi:10.13718/j.cnki.xdzk.2020.10.003

基于集成学习算法的慢性肾病早期筛查方法

1.
肾泰网健康科技(南京)有限公司，南京 210023

2.
南京大学软件新技术国家重点实验室，南京 210023

基金项目: 江苏省重点研发(社会发展)项目(BE20191611)；南京市栖霞区发展和改革委员会第二批人工智能企业项目

详细信息

作者简介:
姜玉苹(1991-)，女，硕士，主要从事大数据挖掘、医学图像处理研究 .

中图分类号: TP391

An Early Screening Method of Chronic Kidney Disease Based on Ensemble Learning Algorithm

1.
ShenTaiWang Healthcare Technology Limited Company, Nanjing 210023, China

2.
National Key Laboratory for Novel Software Technology at Nanjing University, Nanjing University, Nanjing 210023, China

摘要: 慢性肾病是严重危害人类健康的常见疾病，其发病率高，知晓率低.基于集成学习算法的慢性肾病早期筛查方法能够提高肾病知晓率，有利于做到早发现早治疗.搜集2016年到2019年多家医院的体检资料，选取3年内进展为慢性肾病的体检人员作为研究对象，并选取3年内没有进展为慢性肾病的体检人员作为对照组.通过5折交叉验证，采用python 3.7进行随机森林与XGBoost算法模型的训练及测试，通过进展为慢性肾病结局的F1值、真阳性和真阴性指标比较各模型对体检人员3年内是否进展为慢性肾病的预测效果.随机森林算法模型预测效果为，真阳性率0.950，真阴性率0.969，F1值0.957；XGBoost算法模型预测效果为，真阳性率0.966，真阴性率0.955，F1值0.958.
- 慢性肾病 /
- 早期筛查 /
- 集成学习 /
- 随机森林 /
- XGBoost /
- 交叉验证
Abstract: Chronic kidney disease, with its high incidence and low awareness, is a common disease that seriously endangers human health. The early screening method of chronic kidney disease based on the ensemble learning algorithm can improve the awareness rate of kidney disease and is conducive to early detection and early treatment. In a study reported herein, the medical examination data of many hospitals from 2016 to 2019 were collected, the examinees who had progressed to chronic kidney disease within three years were selected as the research subjects, and the examinees who had not progressed to chronic kidney disease within three years were taken as the control group. Through 5-fold cross-validation, python 3.7 was used to train and test the random forest and XGBoost algorithm models, and their predictive effect was compared based on the F1-score, and true positive and true negative indicators of the outcome of chronic kidney disease. The prediction effect of the random forest algorithm model was that the true positive rate was 0.950, the true negative rate was 0.969 and the F1-score was 0.957; while that of the XGBoost algorithm model was that the true positive rate was 0.966, the true negative rate was 0.955 and the F1-score was 0.958.
- chronic kidney disease /
- early screening /
- ensemble learning /
- random forest /
- XGBoost /
- cross validation .

图 1 肾病早期筛查模型训练、测试与应用流程

下载: 全尺寸图片幻灯片

图 2 随机森林(左)与XGBoost(右)算法模型的特征重要性评估

下载: 全尺寸图片幻灯片

图 3 概率校准前后的reliability图和分布直方图

下载: 全尺寸图片幻灯片

表 1 模型预测结果的混淆矩阵

样本分类	金标准为正样本	金标准为负样本
预测为正样本	TP	FP
预测为负样本	FN	TN

下载: 导出CSV

表 2 病例统计

变量		没有进展为肾脏病	进展为肾脏病	p值
变量		N/%	N/%	p值
age	20~39	2 483(97.0)	77(3.0)	＜0.001
	40~64	1 577(72.4)	602(27.6)
	65~79	240(9.4)	2 311(90.6)
	＞80	236(19.0)	1 008(81.0)
sex	男	2 815(59.6)	1 908(40.4)	＜0.001
	女	1 721(45.1)	2 091(54.9)
BMI	＜24	2 316(65.9)	1 196(34.1)	＜0.001
	24~27	1 781(44.0)	2 265(56.0)
	＞28	438(44.9)	537(55.1)
白蛋白	＜35	6(21.4)	22(78.6)	＜0.001
	35~50	3 225(65.1)	1 730(34.9)
	＞51	912(92.8)	71(7.2)
白细胞计数	＜4	73(25.2)	217(74.8)	＜0.001
	49~	4 076(63.8)	2 314(36.2)
	＞10	369(73.9)	130(26.1)
总胆固醇	＜3	69(46.3)	80(53.7)	＜0.001
	3~5.68	3 829(57.7)	2 810(42.3)
	＞5.69	633(42.2)	866(57.8)
血肌酐	＜40	4 192(55.3)	3 389(44.7)	＜0.001
	40~49	198(47.7)	217(52.3)
	50~100	20(25.3)	59(74.7)
	＞101	126(27.4)	334(72.6)
尿酸	＜149	23(29.9)	54(70.1)	＜0.001
	149~415	3 708(72.1)	1 434(27.9)
	＞416	691(64.8)	376(35.2)
收缩压	＜90	24(48.0)	26(52.0)	＜0.001
	90~138	4 463(53.7)	3 845(46.3)
	＞139	3(7.7)	36(92.3)
舒张压	＜60	344(94.0)	22(6.0)	＜0.001
	60~89	3 700(55.7)	2 940(44.3)
	＞90	445(39.2)	689(60.8)
总蛋白	＜60	1(25.0)	3(75.0)	＜0.001
	60~79	3 601(72.4)	1 373(27.6)
	＞80	524(87.0)	78(13.0)
尿素	＜2.9	122(41.9)	169(58.1)	＜0.001
	2.9~7.4	4 228(57.7)	3 105(42.3)
	＞7.5	182(23.6)	589(76.4)
空腹血糖	＜3.9	33(31.4)	72(68.6)	＜0.001
	3.9~6.0	4 021(58.8)	2 823(41.2)
	＞6.1	482(32.0)	1 024(68.0)
尿隐血	-	4 030(71.0)	1 648(29.0)	＜0.001
	+-	162(48.5)	172(51.5)
	1+	177(51.6)	166(48.4)
	2+	108(52.9)	96(47.1)
	3+	59(47.6)	65(52.4)
尿蛋白	-	3 781(67.9)	1 784(32.1)	＜0.001
	+-	525(76.8)	159(23.2)
	1+	172(59.9)	115(40.1)
	2+	47(39.2)	73(60.8)
	3+	10(38.5)	16(61.5)

下载: 导出CSV

表 3 模型性能比较

评估指标	RF	XGBoost
精确率	0.964	0.950
真阳性率	0.950	0.966
真阴性率	0.969	0.955
F1值	0.957	0.958
注：RF：随机森林算法模型；XGBoost：XGBoost算法模型.

下载: 导出CSV

表 4 模型概率校准前后性能比较

评估指标	RF	RF+Platt	XGBoost	XGBoost+Platt
Brier	0.007	0.044	0.016	0.037
精确率	0.999	0.940	0.970	0.941
真阳性率	0.997	0.950	0.985	0.968
真阴性率	0.999	0.945	0.976	0.952
F1值	0.998	0.945	0.978	0.955
注：RF：随机森林算法模型；RF+Platt：随机森林算法模型采用Platt scaling概率校准方法校准；XGBoost：XGBoost算法模型；XGBoost+Platt： XGBoost算法模型采用Platt scaling概率校准方法校准.

下载: 导出CSV

[1]	ENE-IORDACHE B, PERICO N, BIKBOV B, et al. Chronic Kidney Disease and Cardiovascular Risk in Six Regions of the World (ISN-KDDC): a Cross-Sectional Study [J]. Lancet Glob Health, 2016, 4(5): e307-e319. doi: 10.1016/S2214-109X(16)00071-1
[2]	ZHANG L, WANG F, WANG L, et al. Prevalence of Chronic Kidney Disease in China: a Cross-Sectional Survey [J]. Lancet, 2012, 379(9818): 815-822. doi: 10.1016/S0140-6736(12)60033-6
[3]	上海慢性肾脏病早发现及规范化诊治与示范项目专家组, 高翔, 梅长林.慢性肾脏病筛查诊断及防治指南[J].中国实用内科杂志, 2017, 37(1): 28-34. doi: http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=zgsynkzz201701008
[4]	洪烨.基于机器学习算法的糖尿病预测模型研究[D].哈尔滨: 哈尔滨工业大学, 2016.
[5]	周悦玲, 蒋更如. IgA肾病进展至终末期肾病临床预测的研究现状[J].上海交通大学学报(医学版), 2016, 36(2): 296-301. doi: http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=shdeykdxxb201602028
[6]	刘迷迷, 蔡永铭.基于多层感知神经网络的糖尿病并发症预测研究[J].软件, 2018, 39(10): 30-35. doi: http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=ranj201810007
[7]	郑晓燕.基于机器学习的心血管疾病预测系统研究[D].北京: 北京交通大学, 2018.
[8]	刘璐.基于机器学习的小于胎龄儿预测模型的研究[D].北京: 北京工业大学, 2017.
[9]	周超.基于机器学习的感知信号分类与预测方法研究[D].成都: 电子科技大学, 2018.
[10]	方育柯, 傅彦, 周俊临.基于集成学习的个性化推荐算法[J].计算机工程与应用, 2011, 47(10): 1-4. doi: http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=jsjgcyyy201110001
[11]	谭言丹, 赵阳洋, 赵光财.基于AdaBoost特征选择和XGBoost的帕金森病诊断[J].信息技术, 2020, 44(9): 124-128. doi: http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=xxjs202009026
[12]	侯勇, 郑雪峰.集成学习算法的研究与应用[J].计算机工程与应用, 2012, 48(34): 17-22. doi: http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=jsjgcyyy201234004
[13]	李勇, 刘战东, 张海军.不平衡数据的集成分类算法综述[J].计算机应用研究, 2014, 31(5): 1287-1291. doi: http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=jsjyyyj201405002
[14]	李明峰, 贾修一.基于多分类器集成学习的中文反语识别技术[J].计算机与数字工程, 2018, 46(9): 1790-1795. doi: http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=jsjyszgc201809020
[15]	刘毅.基于集成学习算法的冠心病早期筛查方法研究[D].济南: 山东大学, 2018.
[16]	黄颖坤, 金炜东, 余志斌, 吴昀璞.基于深度学习和集成学习的辐射源信号识别[J].系统工程与电子技术, 2018, 40(11): 2420-2425. doi: http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=xtgcydzjs201811006
[17]	李俊磊.多组合分类器在局部区域气温预测中的研究与应用[D].广州: 广东工业大学, 2014.
[18]	FAWCETT T. An Introduction to ROC Analysis [J]. Pattern Recognition Letters, 2006, 27(8): 861-874. doi: 10.1016/j.patrec.2005.10.010
[19]	BREIMAN L. Bagging Predicators [J]. Machine Learning, 1996, 24(2): 123-140.
[20]	doi: http://link.springer.com/article/10.1023%2FA%3A1010933404324 BREIMAN L. Random Forests [J]. Machine Learning, 2001, 45(1): 5-32.
[21]	CHEN T, GUESTRIN C. XGBoost: A Scalable Tree Boosting System [C] //Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, San Francisco California USA. New York, NY, USA ACM, 2016: 785-794.
[22]	范永东.模型选择中的交叉验证方法综述[D].太原: 山西大学, 2013.
[23]	NICULESCUMIZIL A, CARUANA R. Predicting Good Probabilities with Supervised Learning [C] //International Conference on Machine Learning, ICML'05, August 7-11, 2005. Bonn, Germany. New York, USA: ACM Press, 2005: 625-632.
[24]	doi: http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=10.2307/2987588 DEGROOT M H, FIENBERG S E. The Comparison and Evaluation of Forecasters [J]. Journal of the Royal Statistical Society: Series D (The Statistician), 1983, 32(1-2): 12-22.

图( 3) 表( 4)

计量

文章访问数: 2675
HTML全文浏览数: 2675
PDF下载数: 841
施引文献: 0

全文HTML

慢性肾病具有患病率高、知晓率低、预后差和医疗费用高等特点，是继心脑血管疾病、糖尿病和恶性肿瘤之后，又一严重危害人类健康的疾病.近年来慢性肾病患病率逐年上升，全球一般人群患病率已高达14.3%^[1].我国横断面流行病学研究显示^[2]，18岁以上人群慢性肾病患病率为10.8%，据此估计我国现有成年慢性肾脏病患者1.5亿，但知晓率仅为12.5%，该调查还发现经济快速发展的农村地区居民成为慢性肾脏病的高发人群.随着我国人口老龄化、糖尿病和高血压等疾病的发病率逐年增高，慢性肾病发病率也呈现不断上升之势^[3].由此可见对慢性肾病早期筛查的重要性.随着人工智能技术的发展，越来越多的研究者将其应用到医疗卫生领域^[4-9].人工神经网络、支持向量机、决策树等机器学习方法可以实现分类功能，并在疾病的风险预测方面得到应用.而使用集成学习方法比单个机器学习方法构建的分类器性能表现更优^[10-13].使用集成学习方法已经在各个领域实现图像识别、语义识别、疾病筛查、辐射源信号识别、天气预测等功能^[14-17].基于集成学习算法的慢性肾病早期筛查方法在医疗领域具有重要价值.

3. 结论

本研究基于随机森林与XGBoost集成学习算法创建慢性肾病早期筛查方法，使用随机森林算法训练得到的筛查模型精确率、真阳性率、真阴性率和F1值分别为0.964，0.950，0.969，0.957，XGBoost算法的分别为0.950，0.966，0.955，0.958.其中随机森林算法的精确率与真阴性率较高，XGBoost算法的真阳性率与F1值较高.总体来讲，2种集成学习算法筛查模型性能相当，可以根据不同的筛查需求来选择.该慢性肾病早期筛查方法在应用过程中，2个模型共同筛查得到的阳性结果就可以判定为阳性.

慢性肾病筛查最终得出的结果是患者发展为慢性肾病的风险概率值，而分类模型直接输出的分数值并不能直接视为风险预测的概率值，需要评估出当前模型的输出结果与真实结果的偏差是否在允许的范围内，必要的时候需要对其结果进行校准，因此选用概率校准方法解决这个问题.本文使用Platt scaling概率校准方法校准后的模型性能存在一定程度的下降，但是均高于0.94.

由于给出的数据并不知道患者患慢性肾病的真实概率值，无法直接判断原模型的输出是否为有效估计，一种简单而普适的方法即绘制reliability图，图线越接近对角线，说明模型的概率估计越有效，若超出预期范围，可以采用Platt scaling概率校准方法来降低原分类模型的偏差，使最终输出值更接近真实概率，经过概率校准处理后使原模型最终的输出是有效的估计值.

综上，基于随机森林、XGBoost集成学习算法的慢性肾病早期筛查方法的预测效果均表现良好且稳定.采用Platt scaling概率校准方法进行模型概率校准并没有过多的改变分类性能，只是提升了原模型对慢性肾病风险概率估计的可靠性，因此概率校准后输出的概率值更具临床参考价值.基于集成学习算法的慢性肾病早期筛查方法可以应用于医院、体检中心、社区、保险公司及移动平台等辅助体检人员的慢性肾病早期筛查.

参考文献 (24)

姓名
	姓名不能为空！
邮箱
	邮箱不能为空！非法的邮箱地址。
手机号码
	电话不能为空！请输入有效手机号!
标题
	标题不能为空！
留言内容
	内容不能为空！
验证码
	验证码不能为空！验证码错误！

留言板

基于集成学习算法的慢性肾病早期筛查方法

1.
肾泰网健康科技(南京)有限公司，南京 210023

2.
南京大学软件新技术国家重点实验室，南京 210023

作者简介:
姜玉苹(1991-)，女，硕士，主要从事大数据挖掘、医学图像处理研究 .

An Early Screening Method of Chronic Kidney Disease Based on Ensemble Learning Algorithm

1.
ShenTaiWang Healthcare Technology Limited Company, Nanjing 210023, China

2.
National Key Laboratory for Novel Software Technology at Nanjing University, Nanjing University, Nanjing 210023, China

计量

基于集成学习算法的慢性肾病早期筛查方法

作者简介: 姜玉苹(1991-)，女，硕士，主要从事大数据挖掘、医学图像处理研究
1. 肾泰网健康科技(南京)有限公司，南京 210023

2. 南京大学软件新技术国家重点实验室，南京 210023

English Abstract

An Early Screening Method of Chronic Kidney Disease Based on Ensemble Learning Algorithm

全文HTML

1.1. 数据搜集与处理

1.2. 筛查模型构建

1.2.1. 模型训练

1.2.2. 模型测试

1.2.3. 评估方法

1.3. 概率校准

1.3.1. 概率校准方法

1.3.2. 概率校准衡量标准

2.1. 数据集构造

2.2. 筛查模型训练

2.3. 筛查模型测试

2.4. 筛查模型概率校准结果

目录

留言板

基于集成学习算法的慢性肾病早期筛查方法

1. 肾泰网健康科技(南京)有限公司，南京 210023 2. 南京大学 软件新技术国家重点实验室，南京 210023

作者简介: 姜玉苹(1991-)，女，硕士，主要从事大数据挖掘、医学图像处理研究 .

An Early Screening Method of Chronic Kidney Disease Based on Ensemble Learning Algorithm

1. ShenTaiWang Healthcare Technology Limited Company, Nanjing 210023, China 2. National Key Laboratory for Novel Software Technology at Nanjing University, Nanjing University, Nanjing 210023, China

计量

出版历程

基于集成学习算法的慢性肾病早期筛查方法

作者简介: 姜玉苹(1991-)，女，硕士，主要从事大数据挖掘、医学图像处理研究 1. 肾泰网健康科技(南京)有限公司，南京 210023 2. 南京大学 软件新技术国家重点实验室，南京 210023

English Abstract

An Early Screening Method of Chronic Kidney Disease Based on Ensemble Learning Algorithm

全文HTML

1.1. 数据搜集与处理

1.2. 筛查模型构建

1.2.1. 模型训练

1.2.2. 模型测试

1.2.3. 评估方法

1.3. 概率校准

1.3.1. 概率校准方法

1.3.2. 概率校准衡量标准

2.1. 数据集构造

2.2. 筛查模型训练

2.3. 筛查模型测试

2.4. 筛查模型概率校准结果

目录

1.
肾泰网健康科技(南京)有限公司，南京 210023

2.
南京大学软件新技术国家重点实验室，南京 210023

作者简介:
姜玉苹(1991-)，女，硕士，主要从事大数据挖掘、医学图像处理研究 .

1.
ShenTaiWang Healthcare Technology Limited Company, Nanjing 210023, China

2.
National Key Laboratory for Novel Software Technology at Nanjing University, Nanjing University, Nanjing 210023, China

作者简介: 姜玉苹(1991-)，女，硕士，主要从事大数据挖掘、医学图像处理研究
1. 肾泰网健康科技(南京)有限公司，南京 210023

2. 南京大学软件新技术国家重点实验室，南京 210023