本发明涉及抗生素抗性基因和抗性细菌丰度预测,特别是涉及一种饮用水源地抗生素抗性基因与抗性细菌丰度协同预测方法。
背景技术:
1、抗生素抗性已成为全球新出现的公共卫生威胁。据估计,全球每年约有70万人的死因可归结于抗生素抗性相关问题,而且这一问题的严重程度还将进一步加剧。抗生素抗性对人类健康构成重大风险,也对环境可持续性产生影响,属于全球关注的新污染问题。现阶段,由于缺乏标准化方法和质量控制,准确监测饮用水源地水体环境中抗生素抗性基因和抗性细菌的丰度值是一项具有挑战性的任务。同时,检测水体环境抗生素抗性基因和抗性细菌的传统方法复杂、成本高且耗时较长。这些因素驱使研究人员开发相应的丰度值预测工具,以满足水资源新污染管理的迫切需求。
2、目前机器学习模型已被多个行业用作可靠的预测方法,并取得了不错的效果。然而,在实际应用中,尤其是在饮用水源地水体环境中,由于现场取样过程中的困难,可用数据量通常有限,这限制了包括深度学习在内的多种机器学习模型的应用。此外,饮用水源地环境中不同抗生素抗性基因和抗性细菌之间的天然关联关系也促使研究者考虑协同预测抗生素抗性基因和抗性细菌的丰度,并借助多抗性基因及多抗性细菌丰度数据来执行信息共享以弥补数据的不足。由于环境变量与水质变量等特征变量与抗生素抗性基因和抗性细菌丰度之间的相关性通常较低,因此常规模型难以胜任于抗生素抗性基因和抗性细菌丰度的准确预测。所以目前亟需一种有效的建模方法来对多种抗生素抗性基因和多种抗性细菌的丰度进行协同预测。
技术实现思路
1、针对现有技术中的上述不足,本发明提供的一种饮用水源地抗生素抗性基因与抗性细菌丰度协同预测方法解决了现有预测方法难以胜任于抗生素抗性基因和抗性细菌丰度准确预测的问题。
2、为了达到上述发明目的,本发明采用的技术方案为:一种饮用水源地抗生素抗性基因与抗性细菌丰度协同预测方法,包括以下步骤:
3、s1:选取饮用水源地的抗生素抗性基因丰度预测目标与抗生素抗性细菌丰度预测目标;
4、s2:引入协同预测模型所需多维特征变量;
5、s3:将抗生素抗性基因丰度预测目标、抗生素抗性细菌丰度预测目标和多维特征变量对应数据集按特定比例划分为训练集和测试集;
6、s4:将多任务学习赋能的支持向量回归模型作为协同预测模型,并基于训练集和网格搜索法,对协同预测模型进行参数寻优,完成模型训练;
7、s5:利用测试集对训练好的模型进行测试,并通过多种评价指标综合评价协同预测模型性能,完成饮用水源地抗生素抗性基因与抗性细菌丰度协同预测。
8、上述方案的有益效果是:本发明提出了一种协同预测多种抗生素抗性基因和多种抗性细菌共存情况的多任务学习赋能的支持向量回归模型,能够根据易测量的环境因素、土地使用类型以及不同细菌种类等影响因素(即多维特征变量)快速且准确地对多种抗生素抗性基因和多种抗性细菌丰度进行协同预测,解决了现有预测方法难以胜任于抗生素抗性基因和抗性细菌丰度准确预测的问题。
9、进一步地,s1中抗生素抗性基因丰度预测目标通过抗生素抗性基因排序数据库确定,所述抗生素抗性细菌丰度预测目标通过国际伤残调整寿命年数据库确定。
10、上述进一步方案的有益效果是:通过上述方法,获得待预测的目标,在具体实践中,该步骤有关预测对象的选择可以根据实际数据的获取及上述数据库的发展进行调整。
11、进一步地,s2中多维特征变量包括相关细菌类型、土地利用类型和环境因素;
12、所述相关细菌类型包括大肠杆菌、肠球菌和铜绿假单胞菌;
13、所述土地利用类型包括采样点附近流域范围内居民区比例、绿化区比例、城市区比例以及农业区比例;
14、所述环境因素包括氧化还原电位、ph值、盐度、电导率、浊度、溶解氧和24小时累计降雨量。
15、上述进一步方案的有益效果是:大肠杆菌、肠球菌和铜绿假单胞菌是环境中常见且重要的抗性细菌类型,它们有助于反映水体环境中抗生素抗性水平。不同的土地利用类型反映了人类生产与生活活动的多样性,通过包含这些变量及数据,机器学习模型可以体现不同土地使用类型及占比模式对抗生素抗性基因及抗性细菌富集的影响。众多环境变量直接或间接影响抗性细菌的水环境生存条件和抗性基因的稳定性及传播变异,进而影响其丰度值的大小。上述三种类型的特征变量能够帮助机器学习模型捕捉到环境条件的变化如何影响抗生素抗性基因及抗性细菌的分布和丰度变化。
16、进一步地,s4中包括以下分步骤:
17、s4-1:基于训练集和网格搜索法,并根据最小化具有特定约束的目标函数,构建多任务学习赋能的支持向量回归模型;
18、s4-2:利用拉格朗日函数,对构建的多任务学习赋能的支持向量回归模型进行模型变换;
19、s4-3:对变换后的模型进行求解,获得相应决策函数,完成对协同预测模型进行参数寻优。
20、上述进一步方案的有益效果是:结合样本数据以及网格搜索法寻找多任务学习赋能的支持向量回归模型的最优参数,最终构建多任务学习的回归模型,从而完成模型训练。
21、进一步地,s4-1中多任务学习赋能的支持向量回归模型为:
22、
23、其中,j为代价函数,w0为所有任务共享的权重向量,vi为第i个任务特有的权重向量,ξi为第i个任务的预测值与实际值之间的差距,m为任务的数量,上标t表示矩阵的转置,λ和γ为正则化参数,yi为第i个任务的预测目标值,zi为第i个任务的输入特征向量,bi为第i个任务的偏置项,1ni为一个全为1的向量,nm为从1到m的整数集。
24、上述进一步方案的有益效果是:上述的多任务学习赋能的支持向量回归模型可根据最小化具有特定约束的目标函数来解决回归问题。
25、进一步地,s4-2中模型变换公式为:
26、
27、其中,η(·)为拉格朗日函数,b为偏置项,αi为第i个任务的拉格朗日乘子,χ(·)为原始优化问题的目标函数;
28、在最优karush-kuhn-tucker条件下,得到如下方程:
29、
30、其中,z为包含所有任务的特征数据的矩阵,α为拉格朗日乘子,0ni为维度为n的零矩阵。
31、进一步地,s4-3中对变换后的模型进行求解,获得相应决策函数,公式为:
32、
33、其中,fi(·)为任务i的预测函数,为特征空间映射,x为输入数据,上标*表示优化后的值,i'表示在求和过程中遍历的所有任务索引,j为样本指针,n为样本指针数量,αi',j为优化后的第i'个任务第j个样本的拉格朗日乘子,κ(·)为核函数,xi',j为第i'个任务的第j个样本,αi,j为优化后的第i个任务第j个样本的拉格朗日乘子,xi,j为第i个任务的第j个样本。
34、上述进一步方案的有益效果是:本发明选择的核函数为径向基函数,其中κ(xi,j,x)用于在特征空间中计算xi,j和新输入x之间的相似性。通过核函数将非线性特征转化为线性学习问题的内积形式,从而允许算法在高维空间中找到一个线性决策界面,以便处理原始空间中的非线性关系。
35、进一步地,s5中多种评价指标包括均方误差mse、平均绝对百分比误差mape和回归分析决定系数r2。
36、上述进一步方案的有益效果是:通过采用上述多种评价指标对模型进行综合评估,进一步提升模型预测精度。
1.一种饮用水源地抗生素抗性基因与抗性细菌丰度协同预测方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的饮用水源地抗生素抗性基因与抗性细菌丰度协同预测方法,其特征在于,所述s1中抗生素抗性基因丰度预测目标通过抗生素抗性基因排序数据库确定,所述抗生素抗性细菌丰度预测目标通过国际伤残调整寿命年数据库确定。
3.根据权利要求1所述的饮用水源地抗生素抗性基因与抗性细菌丰度协同预测方法,其特征在于,所述s2中多维特征变量包括相关细菌类型、土地利用类型和环境因素;
4.根据权利要求1所述的饮用水源地抗生素抗性基因与抗性细菌丰度协同预测方法,其特征在于,所述s4中包括以下分步骤:
5.根据权利要求4所述的饮用水源地抗生素抗性基因与抗性细菌丰度协同预测方法,其特征在于,所述s4-1中多任务学习赋能的支持向量回归模型为:
6.根据权利要求5所述的饮用水源地抗生素抗性基因与抗性细菌丰度协同预测方法,其特征在于,所述s4-2中模型变换公式为:
7.根据权利要求6所述的饮用水源地抗生素抗性基因与抗性细菌丰度协同预测方法,其特征在于,所述s4-3中对变换后的模型进行求解,获得相应决策函数,公式为:
8.根据权利要求1所述的饮用水源地抗生素抗性基因与抗性细菌丰度协同预测方法,其特征在于,所述s5中多种评价指标包括均方误差mse、平均绝对百分比误差mape和回归分析决定系数r2。