本发明涉及医疗信息学,尤其涉及masld患者肝纤维化识别模型的构建方法、系统和介质。
背景技术:
1、代谢功能障碍相关的脂肪性肝病(masld),也称为非酒精性脂肪肝(nafld),影响着全球约四分之一的成年人口。目前评估masld的临床参考标准要求进行活检,据报道,1%的病例会出现严重并发症,这既昂贵又具有侵入性。因此,迫切需要开发用于masld进展的有效诊断、分期和监测的微创工具。
2、masld的表型定义为肝脏甘油三酯过量积聚,包括从脂肪变性(非酒精性脂肪肝,nafl)到非酒精性脂肪性肝炎(nash)的疾病状态转变,其特征是随着肝纤维化的发展,肝细胞气球状突起和小叶炎症,最终发展为肝硬化和肝细胞癌。因此,在masld患者中,肝纤维化被确定为与死亡率和肝移植的长期不良结果相关的关键组织学特征。鉴于肝纤维化对masld临床结果的决定性作用,已经开发了非侵入性测试,如nafld纤维化评分(nfs),用于识别晚期肝纤维化(f≥3),但这些测试在识别较轻的、非晚期的肝纤维化masld患者方面表现出较差的性能。
3、因此,如何对较轻的、非晚期的肝纤维化masld患者进行识别,是本领域技术人员关注的热点和难点。
技术实现思路
1、本发明提供一种masld患者肝纤维化识别模型的构建方法,用以解决现有非侵入性测试在识别较轻的、非晚期的肝纤维化masld患者中性能较差的问题,实现非侵入性识别较轻的、非晚期的肝纤维化masld患者。
2、第一方面,本发明提供一种masld患者肝纤维化识别模型的构建方法,包括:
3、步骤1、获取第一目标人群和第二目标人群的临床指标数据和血清中脂质分子物种的含量数据,所述第一目标人群是指非肝纤维化患者,第二目标人群是指肝纤维化患者;
4、步骤2、计算并分析在所述第一目标人群和第二目标人群中存在显著差异的脂质分子物种的含量数据,选择p<0.05且有统计学意义的含量数据对应的脂质分子物种作为第一候选识别因子;计算并分析与第一候选识别因子对应的含量数据存在显著相关的临床指标数据,选择p<0.05且有统计学意义的临床指标数据对应的临床指标作为第二候选识别因子;
5、步骤3、通过lasso回归分析,构建基础masld患者肝纤维化识别模型,并从所述基础masld患者肝纤维化识别模型中筛选出最佳masld患者肝纤维化识别模型;基于所述最佳masld患者肝纤维化识别模型,从第一候选识别因子和第二候选识别因子中筛选出系数不为零的最佳识别因子;
6、步骤4、根据最佳识别因子建立masld患者肝纤维化识别模型,用于对肝纤维化masld患者进行识别。
7、在上述构建方法中,目标人群的肝纤维化状态可以通过多种方式证实,包括有创诊断方法和无创诊断方法,包括但不限于:病理学诊断,例如,肝穿刺活组织病理学检查,利用二次谐波/双光子激发荧光显微成像技术的全定量检测;影像学诊断;血常规及生化检查;肝纤谱检查等。影像学诊断包括但不限于:b超、ct、核磁共振、瞬时弹性测定等。血常规及生化检查包括但不限于:血清学标志物(例如,层粘连蛋白、纤维连接蛋白、iv型胶原和iii型前胶原n末端前肽、apri、壳酶蛋白等)。优选地,通过病理学诊断证实目标人群的肝纤维化状态。在一种具体实施方式中,使用肝穿刺活组织病理学检查证实目标人群的肝纤维化状态。进一步地,根据kleiner 分类对目标人群的肝纤维化状态进行分类。更进一步地,根据kleiner 分类可将肝纤维化状态分为f0-f4,本发明中第二目标人群的kleiner 分类可以为f1-f4;更优选地,大于90%的第二目标人群的kleiner 分类可以为f1-f2。
8、在上述构建方法中,目标人群的脂质分子物种的含量数据可通过基于质谱的脂质组学技术获得,所述脂质分子物种可以选自下列脂质分子物种大类的两类或更多类的任意组合:脂肪酰、甘油脂、甘油磷脂、甾醇脂、丙烯醇脂、鞘脂。进一步地,所述脂质分子物种可以包括来自选自甘油脂、甘油磷脂、甾醇酯、鞘脂中的任一类或更多类的任意组合。更进一步地,甾醇脂包括氧化甾醇和甾醇。
9、在上述构建方法中,目标人群的临床指标数据可以包括选自下列指标的两种或更多种的任意组合的数据:肝纤维化评分、与脂肪肝相关的生理指标、与脂肪肝相关的血生化指标。
10、具体来说,所述肝纤维化评分可以选自下列中的任一种或多种:nafld活动评分、小叶炎症nas评分、knodell评分、scheuer评分、ishak评分、metavir分期、fib-4指数等。与脂肪肝相关的生理指标可以包括身体质量指数(bmi)、身高、体重、血压(例如,收缩压,舒张压)等。与脂肪肝相关的血生化指标可以包括谷丙转氨酶、谷草转氨酶、谷氨酰转肽酶、甘油三酯、总胆固醇、高密度脂蛋白-胆固醇等。
11、在上述构建方法中,步骤2中,对所述第一目标人群和第二目标人群的脂质分子物种的含量数据进行t检验,并使用benjamini hochberg方法对p值进行多重测试校正,选择校正后p<0.05的含量数据对应的脂质分子物种作为第一候选识别因子;
12、对第一候选识别因子对应的含量数据与临床指标数据进行相关性检验,筛选出第二候选识别因子,其中,对两个数值变量使用spearman相关性检验,对分类和数值变量使用kruskal-wallis检验,对两个分类变量使用fisher’s exact检验。
13、在上述构建方法中,步骤3中构建基础masld患者肝纤维化识别模型并筛选出最佳masld患者肝纤维化识别模型包括以下步骤:将目标人群的所有数据分为训练集和验证集,将训练集的数据输入至基础masld患者肝纤维化识别模型中,进行超参数(λ)调优并确定分类截止值,获得最佳masld患者肝纤维化识别模型。然后,利用验证集数据评估最佳masld患者肝纤维识别模型的效能,包括分类性能和预测性能。在一个具体实施方案中,训练集和验证集的数据按7:3划分。
14、在本发明的构建方法中,可以通过交叉验证(例如,5倍交叉验证)来选择使模型性能最佳的λ值。对于分类截止值的确定,可以通过绘制roc曲线,选择使得真阳性率(tpr)和假阳性率(fpr)之间平衡的截止值,即曲线下方面积(auc)最大的点来确定。在一个优选实施方案中,使用“最接近的topleft方法”来确定分类截止值。
15、在上述构建方法中,步骤3中获得的最佳识别因子可以包括选自下列临床指标中的两种或更多种的任意组合:nafld活动评分、小叶炎症nas评分、身体质量指数、舒张压、谷草转氨酶水平;和选自下列脂质分子物种中的两种或更多种的任意组合的含量数据:甘油二酯34:0(16:0_18:0)、硫酸脑苷脂d18:1/20:0、溶血磷脂酰丝氨酸18:1、葡萄糖神经酰胺d18:1/22:0、双(单酰基甘油)磷酸酯38:6(18:2_20:4)、7-酮基-27羟基-胆固醇、硫酸脑苷脂d18:1/18:0h、甘油三酯52:4(16:0)、双(单酰基甘油)磷酸酯38:5(16:0_22:5)、甘油三酯58:7(20:4)、硫酸脑苷脂d18:1/18:1h、磷脂酸32:2、双(单酰基甘油)磷酸酯38:3(18:0_20:3)、4β-羟基胆固醇、葡萄糖神经酰胺d18:1/20:0。
16、具体地,甘油二酯34:0(16:0_18:0)在hmdb数据库中的id号为hmdb0007156;硫酸脑苷脂d18:1/20:0在hmdb数据库中的id号为hmdb0012315;溶血磷脂酰丝氨酸18:1在hmdb数据库中的id号为hmdb0240603;葡萄糖神经酰胺d18:1/22:0在hmdb数据库中的id号为hmdb0004974;双(单酰基甘油)磷酸酯38:6(18:2_20:4)是指与甘油酯键相连的两条脂肪酸链的碳链总长为38,总的不饱和度为6,其中一条脂肪酸链碳链长度为18,不饱和度为2,另一条脂肪酸链碳链长度为20,不饱和度为4;7-酮基-27羟基-胆固醇的cas号为cas148988-28-7;硫酸脑苷脂d18:1/18:0h在lipid map中的id为lmsp06020004;甘油三酯52:4(16:0)是指与甘油酯键相连的三条脂肪酸链总长为52,总不饱和度为4,其中一条脂肪酸链碳链长度为16,不饱和度为0,另外两条脂肪酸链的长度和不饱和度不做进一步限制;双(单酰基甘油)磷酸酯38:5(16:0_22:5)和双(单酰基甘油)磷酸酯38:3(18:0_20:3)的碳链长度和不饱和度信息参考双(单酰基甘油)磷酸酯38:6(18:2_20:4);甘油三酯58:7(20:4)的碳链长度和不饱和度信息参考甘油三酯52:4(16:0);硫酸脑苷脂d18:1/18:1h在pubchem数据库中的编号为 pubchem cid 164449616;磷脂酸32:2是指与甘油酯键相连的两条脂肪酸链碳链总长为32,总的不饱和度为2;4β-羟基胆固醇的cas号为17320-10-4;葡萄糖神经酰胺d18:1/20:0在hmdb数据库中的id号为hmdb0004973。
17、进一步地,所述最佳识别因子包括nafld活动评分、小叶炎症nas评分、身体质量指数、舒张压、谷草转氨酶水平、甘油二酯34:0(16:0_18:0)的含量数据、硫酸脑苷脂d18:1/20:0的含量数据、溶血磷脂酰丝氨酸18:1的含量数据、葡萄糖神经酰胺d18:1/22:0的含量数据、双(单酰基甘油)磷酸酯38:6(18:2_20:4) 的含量数据、7-酮基-27羟基-胆固醇的含量数据、硫酸脑苷脂d18:1/18:0h的含量数据、甘油三酯52:4(16:0) 的含量数据、双(单酰基甘油)磷酸酯38:5(16:0_22:5) 的含量数据、甘油三酯58:7(20:4) 的含量数据、硫酸脑苷脂d18:1/18:1h的含量数据、磷脂酸32:2的含量数据、双(单酰基甘油)磷酸酯38:3(18:0_20:3) 的含量数据、4β-羟基胆固醇的含量数据、葡萄糖神经酰胺d18:1/20:0的含量数据。
18、在上述构建方法中,步骤4还包括基于前述步骤中筛选出的最佳识别因子和系数,通过逻辑函数获取masld患者存在肝纤维化的概率值。
19、由于本发明的肝纤维化识别模型解决的是分类任务(即,是否是肝纤维化),而不是回归问题,线性回归在解决一些分类任务时可能会导致分类性能下降(例如,类别分布不平衡,如在本发明实施例的目标人群中,肝纤维化人群比例远大于非纤维化者),因此优选通过进一步利用逻辑函数将线性回归转变成0-1的分类问题,由此masld患者肝纤维化识别模型的输出是概率值而不是回归方程。进一步地,所述逻辑函数是sigmoid函数。
20、第二方面,本发明提供一种masld患者肝纤维化的识别方法,包括如下步骤:
21、获取待测masld患者的临床数据和血清中脂质分子物种的含量数据;所述临床数据包括nafld活动评分、小叶炎症nas评分、身体质量指数、舒张压、谷草转氨酶水平;所述脂质分子物种包括甘油二酯34:0(16:0_18:0)、硫酸脑苷脂d18:1/20:0、溶血磷脂酰丝氨酸18:1、葡萄糖神经酰胺d18:1/22:0、双(单酰基甘油)磷酸酯38:6(18:2_20:4)、7-酮基-27羟基-胆固醇、硫酸脑苷脂d18:1/18:0h、甘油三酯52:4(16:0)、双(单酰基甘油)磷酸酯38:5(16:0_22:5)、甘油三酯58:7(20:4)、硫酸脑苷脂d18:1/18:1h、磷脂酸32:2、双(单酰基甘油)磷酸酯38:3(18:0_20:3)、4β-羟基胆固醇、葡萄糖神经酰胺d18:1/20:0;
22、将所述临床数据和血清中脂质分子物种的含量数据输入至上述任一所述的masld患者肝纤维化识别模型中,获取待测masld患者存在肝纤维化的概率值。
23、需要说明的是,对于分类预测模型的预测结果,一种是直接将预测的概率值作为预测结果,其大小代表了发生阳性结果的可能性大小,另一种是基于概率阈值判断属于哪一类。概率阈值可以是设定决策阈值来调节模型分类性能,例如采用默认的0.5,或由某些参数来确定,例如约登指数,临床决策曲线dca(结合医生对危害收益比的考量)等。
24、在本发明中,上述识别方法可以是通过计算机实施的识别方法。
25、在一种具体实施方式中,所述方法还包括分类步骤:
26、当待测masld患者存在肝纤维化的概率值大于等于预设决策阈值时,将所述待测masld患者分类为肝纤维化患者;当待测masld患者存在肝纤维化的概率值小于预设决策阈值时,将所述待测masld患者分类为非肝纤维化患者。
27、在一个具体实施方案中,使用“最接近的topleft方法”选择疾病分类的模型临界值作为预设决策阈值。
28、在一个具体实施方案中,在上述识别方法中采用的预设决策阈值为0.6014。
29、第三方面,本发明提供一种masld患者肝纤维化的识别系统,包括:
30、数据获取模块,用于:获取待测masld患者的临床数据和血清中脂质分子物种的含量数据;所述临床数据包括nafld活动评分、小叶炎症nas评分、身体质量指数、舒张压、谷草转氨酶水平;所述脂质分子物种包括甘油二酯34:0(16:0_18:0)、硫酸脑苷脂d18:1/20:0、溶血磷脂酰丝氨酸18:1、葡萄糖神经酰胺d18:1/22:0、双(单酰基甘油)磷酸酯38:6(18:2_20:4)、7-酮基-27羟基-胆固醇、硫酸脑苷脂d18:1/18:0h、甘油三酯52:4(16:0)、双(单酰基甘油)磷酸酯38:5(16:0_22:5)、甘油三酯58:7(20:4)、硫酸脑苷脂d18:1/18:1h、磷脂酸32:2、双(单酰基甘油)磷酸酯38:3(18:0_20:3)、4β-羟基胆固醇、葡萄糖神经酰胺d18:1/20:0;
31、数据处理模块,用于:将所述临床数据和血清中脂质分子物种的含量数据输入至上述任一所述构建方法所构建得到的用于masld患者肝纤维化识别模型中,获取待测masld患者存在肝纤维化的概率值。
32、在一种具体实施方式中,所述识别系统还包括分类模块,用于:当待测masld患者存在肝纤维化的概率值大于等于预设决策阈值时,将所述待测masld患者分类为肝纤维化患者;当待测masld患者存在肝纤维化的概率值小于预设决策阈值时,将所述待测masld患者分类为非肝纤维化患者。
33、第四方面,本发明提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述masld患者肝纤维化的识别方法。
34、第五方面,本发明提供一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述masld患者肝纤维化的识别方法。
35、本发明通过对masld患者的临床特征数据和血清中脂质含量数据进行分析和处理,确定了与masld患者肝纤维化程度相关的5种临床指标和15种脂质;基于5种临床指标和15种脂质,构建masld患者肝纤维化识别模型,有助于识别masld患者较轻肝纤维化,协助临床决策,具备方便、快速、准确性高的特点。
1.一种masld患者肝纤维化识别模型的构建方法,其特征在于,包括:
2.根据权利要求1所述的构建方法,其特征在于,步骤2中,对所述第一目标人群和第二目标人群的脂质分子物种的含量数据进行t检验,并使用benjamini hochberg方法对p值进行多重测试校正,选择校正后p <0.05的含量数据对应的脂质分子物种作为第一候选识别因子;
3.根据权利要求1所述的构建方法,其特征在于,所述最佳识别因子包括nafld活动评分、小叶炎症nas评分、身体质量指数、舒张压、谷草转氨酶水平、甘油二酯34:0(16:0_18:0)的含量数据、硫酸脑苷脂d18:1/20:0的含量数据、溶血磷脂酰丝氨酸18:1的含量数据、葡萄糖神经酰胺d18:1/22:0的含量数据、双(单酰基甘油)磷酸酯38:6(18:2_20:4) 的含量数据、7-酮基-27羟基-胆固醇的含量数据、硫酸脑苷脂d18:1/18:0h的含量数据、甘油三酯52:4(16:0) 的含量数据、双(单酰基甘油)磷酸酯38:5(16:0_22:5) 的含量数据、甘油三酯58:7(20:4) 的含量数据、硫酸脑苷脂d18:1/18:1h的含量数据、磷脂酸32:2的含量数据、双(单酰基甘油)磷酸酯38:3(18:0_20:3) 的含量数据、4β-羟基胆固醇的含量数据、葡萄糖神经酰胺d18:1/20:0的含量数据。
4.根据权利要求1所述的构建方法,其特征在于,步骤4还包括基于筛选出的最佳识别因子和所述最佳masld患者肝纤维化识别模型输出的最佳识别因子对应的系数,获取masld患者存在肝纤维化的概率值。
5.一种masld患者肝纤维化的识别方法,其特征在于,包括如下步骤:
6.根据权利要求5所述的识别方法,其特征在于,所述方法还包括:当待测masld患者存在肝纤维化的概率值大于等于预设决策阈值时,将所述待测masld患者分类为肝纤维化患者;当待测masld患者存在肝纤维化的概率值小于预设决策阈值时,将所述待测masld患者分类为非肝纤维化患者。
7.一种masld患者肝纤维化的识别系统,其特征在于,包括:
8.根据权利要求7所述的识别系统,其特征在于,所述识别系统还包括分类模块,用于:当待测masld患者存在肝纤维化的概率值大于等于预设决策阈值时,将所述待测masld患者分类为肝纤维化患者;当待测masld患者存在肝纤维化的概率值小于预设决策阈值时,将所述待测masld患者分类为非肝纤维化患者。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求5或6所述的masld患者肝纤维化的识别方法。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求5或6所述的masld患者肝纤维化的识别方法。