本发明涉及医疗,尤其涉及一种基于机器学习的神经系统疾病预测及分类方法。
背景技术:
1、神经系统疾病,其中最常见的是脑血管疾病、神经退行性疾病、自身免疫性疾病及脊髓疾病等。鉴于许多神经系统疾病缺乏治愈方法,彻底了解可改变的风险因素以及这些神经系统疾病可能造成的可预防负担非常重要。
2、神经系统疾病风险预测模型的研究仍在进行中,开发一种可靠的模型来监测和预防其发生对人类健康具有重要意义。目前国内外对于神经系统疾病预测模型关注的重点依然还是单种疾病的患病风险以及预后情况的预测,很少有研究去系统地分析多种神经系统疾病之间相互区分的特征指标以及各类神经系统疾病的独特血液学特征。同时,传统的神经系统疾病诊断手段相对比较昂贵和繁琐,国内外已经建立的一些神经系统疾病诊断模型所用的检查数据不易获取,这导致一些医疗条件不太好的基层医院或偏远地区医院无法应用这些模型。
技术实现思路
1、本发明的目的在于解决现有技术中的问题。
2、本发明解决其技术问题所采用的技术方案是:提供一种基于机器学习的神经系统疾病预测及分类方法,包括以下步骤:
3、s1,获取样本数据,包括诊断数据与检查数据;
4、s2,对样本数据进行预处理,将预处理后的数据划分为训练集和验证集;
5、s3,采用不同的机器学习方法建立不同的神经系统疾病预测模型,所述神经系统疾病预测模型根据输入的检查数据预测是否患病;
6、s4,基于训练集对不同的神经系统疾病预测模型分别进行训练;
7、s5,对于训练好的神经系统疾病预测模型采用验证集验证性能,选出性能最好的神经系统疾病预测模型所采用的机器学习方法;
8、s6,采用s5选出的机器学习方法针对特定疾病建立神经系统疾病分类模型并进行训练,所述神经系统疾病分类模型根据输入的检查数据预测是否患有特定疾病;
9、s7,采用shap值分析神经系统疾病分类模型中不同特征的影响程度,确认对神经系统疾病分类贡献最大的若干特征。
10、优选的,s1所述检查数据包括血常规检查数据和/或生化检查数据。
11、优选的,s2所述预处理,包括:
12、删除缺失比例超过第一预设阈值的特征列,所述特征列指具体的指标数据;
13、删除特征列缺少超过第二预设阈值的特征,所述特征指具体的指标;
14、删除样本数少于第三预设阈值的疾病种类。
15、优选的,所述删除样本数少于第三预设阈值的疾病种类,具体为:按照国际标准icd-10的疾病代码进行筛选,保留样本数大于等于100的神经系统疾病。
16、优选的,s4所述采用不同机器学习方法建立区分模型,所述机器学习方法包括:逻辑回归lr、随机森林rf、支持向量机svm、极致梯度提升xgboost和深度神经网络dnn。
17、优选的,s5所述对于训练好的神经系统疾病预测模型采用验证集验证性能,所述性能通过曲线下面积auc来表示,曲线下面积auc的计算过程表示为:
18、计算神经系统疾病预测模型的真阳性率和假阳性率;
19、基于真阳性率和假阳性率绘制接受者操作特性曲线roc;
20、计算roc曲线与坐标轴围成的面积,获得曲线下面积auc。
21、优选的,s7所述采用shap值分析神经系统疾病分类模型中不同特征的影响程度,包括:采用shap算法为每个特征分配一个shap值,根据shap值大小确认特征对预测神经系统疾病的影响程度。
22、优选的,s7所述采用shap值分析神经系统疾病分类模型中不同特征的影响程度,包括:采用shap算法为每个特征分配一个shap值,对神经系统疾病分类模型提取shap值最大的若干个特征,对不同疾病监测模型的若干个特征取交集,根据交集次数确认特征对区分不同神经系统疾病的影响程度。
23、本发明具有如下有益效果:
24、(1)本发明运用shap算法探索了区分神经系统疾病患者和健康人的特征指标,以及各类神经系统疾病之间区分的特征指标,这为临床医生查看检验报告单时提供了一些重要线索,可以帮助减轻临床医生的诊疗压力。同时,这些特征指标也可以帮助患者和预防医学相关工作者了解神经系统疾病发病的危险因素,从而帮助疾病的早期预防;
25、(2)本发明构建模型所用的数据(包括血常规和常规生化检测数据)相对较易获取,可以帮助临床医生提高早期诊断效率以及减轻患者负担,十分适合推广至各级医疗相关机构;
26、(3)本发明纳入的神经系统疾病都是按照国际标准icd-10的疾病代码进行筛选的,疾病种类达到27种,种类比较齐全且可以很好地适用于国内外不同的医疗相关机构;
27、(4)本发明采用先建立神经系统疾病预测模型,再建立神经系统疾病分类模型的方法,进一步提高神经系统疾病分类模型的分类准确率。
28、以下结合附图及实施例对本发明作进一步详细说明,但本发明不局限于实施例。
1.一种基于机器学习的神经系统疾病预测及分类方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于机器学习的神经系统疾病预测及分类方法,其特征在于,s1中,所述检查数据包括血常规检查数据和/或生化检查数据。
3.根据权利要求1所述的基于机器学习的神经系统疾病预测及分类方法,其特征在于,s2中,所述预处理,包括:
4.根据权利要求3所述的基于机器学习的神经系统疾病预测及分类方法,其特征在于,所述删除样本数少于第三预设阈值的疾病种类,具体为:按照国际标准icd-10的疾病代码进行筛选,保留样本数大于等于100的神经系统疾病。
5.根据权利要求1所述的基于机器学习的神经系统疾病预测及分类方法,其特征在于,s3中,所述采用不同的机器学习方法建立不同的神经系统疾病预测模型,所述机器学习方法包括:逻辑回归lr、随机森林rf、支持向量机svm、极致梯度提升xgboost和深度神经网络dnn。
6.根据权利要求1所述的基于机器学习的神经系统疾病预测及分类方法,其特征在于,s5中,所述对训练好的神经系统疾病预测模型采用验证集验证性能,所述性能通过曲线下面积auc来表示,曲线下面积auc的计算过程表示为:
7.根据权利要求1所述的基于机器学习的神经系统疾病预测及分类方法,其特征在于,s7中,所述采用shap值分析神经系统疾病分类模型中不同特征的影响程度,包括:采用shap算法为每个特征分配一个shap值,根据shap值大小确认特征对预测神经系统疾病的影响程度。
8.根据权利要求1所述的基于机器学习的神经系统疾病预测及分类方法,其特征在于,s7中,所述采用shap值分析神经系统疾病分类模型中不同特征的影响程度,包括:采用shap算法为每个特征分配一个shap值,对神经系统疾病分类模型提取shap值最大的若干个特征,对不同疾病监测模型的若干个特征取交集,根据交集次数确认特征对区分不同神经系统疾病的影响程度。