本发明涉及生物,尤其涉及放射生物学,具体的说,是多中心场景下的放射剂量-生存分数拟合模型优化方法及系统。
背景技术:
1、放射生物学模型的建立一般是指基于放射生物学实验数据(如放射剂量-生存分数数据等)对放射物理射线相关物理量(比如剂量)和细胞或组织对其生物学反应(细胞生存分数)间建立映射关系,为更好地发挥放射物理射线的实际应用价值提供基础。现有的放射生物学模型的建立的基本流程为:1)收集放射生物学实验数据;2)以公认的生物学模型(如linear-quadratic lq模型)为基础对收集的放射生物学实验数据中的物理射线物理量和细胞或组织对其生物学反应之间的映射进行拟合;3)评估测试建立的模型。
2、但在多中心应用场景下,由于不同中心的实验误差等情况的存在,不可避免的会使得基于一个中心的实验数据所建立的生物学效应模型在另一个中心使用时的预测精度(泛化)有待进一步提高。一种常用的解决方案时将多个中心的实验数据集中在一起建立生物学效应模型,然而由于各个中心出于对数据安全的考虑,将不同中心大量的生物学效应数据收集在一起是越来越不太现实的。联邦学习,通过将模型构建在单中心本地化,而后将不同中心本地化训练的模型集中管理构建联邦模型并服务于各个单中心的预测任务,有效地避免了将多个中心的实验数据集中在一起的难点;但由于对于单个中心的模型而言其它中心的数据是未知的,这不可避免的使得这种对不同中心模型集中管理的简单方式(每个模型的权重相等)所构建的联邦模型并不能够将这些模型的一些联合潜力释放出来,即仍然存在泛化能力差的问题。
技术实现思路
1、本发明的目的在于提供一种多中心场景下的放射剂量-生存分数拟合模型优化方法及系统,通过利用不同中心共享少量的数据,进步一步挖掘这些不同中心模型的联合在其它中心数据上的泛化潜力,进而优化它们在联邦模型中的权重,最终达到提升放射剂量-生存分数生物学效应模型在多中心应用场景下的泛化能力。
2、本发明通过下述技术方案解决上述问题:
3、多中心场景下的放射剂量-生存分数拟合模型优化方法,包括:
4、步骤s1、分别将各单中心的数据划分为训练数据、验证数据和测试数据;
5、步骤s2、在训练集数据上基于多个不同的模型分别建立生物学效应预测基础模型;
6、步骤s3、分别在各个单中心的验证数据的集合上分别评估各个单中心生物学效应预测基础模型的验证预测误差,并以此计算它们的权重;并按照所述权重构建联邦模型;
7、步骤s4、在各单中心测试数据的集合上测试所构建的联邦模型。
8、本发明通过利用不同中心共享少量的数据,进步一步挖掘这些不同中心模型的联合在其它中心数据上的泛化潜力,进而优化它们在联邦模型中的权重,最终达到提升生物学效应模型在多中心应用场景下的泛化能力,提高预测精度。
9、进一步地,所述生物学效应预测基础模型为放射剂量-生存分数拟合模型。
10、进一步地,所述步骤s2具体为:
11、在每个单中心的训练数据上分别拟合各自中心的生物学效应预测基础模型;
12、常用最小二乘的方法,在第n个单中心的训练数据上拟合出放射剂量-生存分数拟合模型,其中,n为单中心的编号,n=1,2,…,n,n为单中心的个数。
13、进一步地,当放射剂量-生存分数拟合模型为lq模型时,表示为:
14、sf=lqn(d)
15、其中,d为放射剂量,sf为生存分数,直觉上解释,α字段表示能造成细胞破坏的‘单次击中’事件;β字段表示由辐射交互造成细胞死亡的‘多次击中’事件;α和β描述了细胞对于放射辐射的本真敏感性;当两个参数的比值α/β比较大时,表示细胞对于一定分段剂量的放射不太敏感;当两个参数的比值比较小时,则表示细胞对于一定分段剂量的放射比较敏感。
16、进一步地,所述权重的计算方法为:单中心的放射剂量-生存分数拟合模型的验证预测误差越小对应的权重越大。
17、进一步地,权重计算公式为:
18、
19、进一步地,所述联邦模型的表达式为:
20、多中心场景下的放射剂量-生存分数拟合模型优化系统,包括:
21、数据采集及处理模块,用于收集多个单中心的生物学效应实验数据,并分别划分为训练数据、验证数据和测试数据;
22、模型拟合模块,用于分别利用各单中心的训练数据,对自己单中心的生物学效应预测基础模型进行拟合;
23、模型误差统计模块,用于利用各单中心的验证数据的集合分别对各单中心的生物学效应预测基础模型进行预测,并统计验证预测误差;
24、集成模型构建模块,用于根据统计的验证预测误差,对每个单中心的生物学效应预测基础模型赋予权重,并按照所述权重构建联邦模型。
25、本发明与现有技术相比,具有以下优点及有益效果:
26、(1)本发明将多中心的实验数据划分为训练数据、验证数据和测试数据。各中心在各自的训练数据上分别拟合生物学效应预测基础模型;而后,多个预测基础模型在所有中心的验证数据的并集上进行验证统计验证误差,并据此确定各个生物学效应预测基础模型的权重,根据确定的权重构建联邦模型。由于各个单中心模型的权重由它们各自在所有中心验证数据的集合上确定的,也就是这些单中心模型的权重是在包含了其没有见过的其它中心的少量数据上进行优化的(这不同于传统联邦学习,各个中心不共享数据,单中心模型在联邦模型中的权重一样),因此这些加权模型所构成的联邦模型理论上势必能够在多中心应用场景下表现出更好的泛化能力,提高模型的预测精度。
27、(2)本发明仅需要不同中心共享少量数据就能够提升最终联邦预测模型在多中心应用场景下的泛化能力。
28、(3)在各个单中心测试数据的集合上测试所构建的联邦模型;各个单中心测试数据的集合实际上是模拟了生物学效应模型在多中心下的真实应用场景。通过将模型构建在单中心本地化,而后将不同中心本地化训练的模型集中管理构建联邦模型并服务于各个单中心的预测任务,有效地避免了将多个中心的实验数据集中在一起的难点。
1.多中心场景下的放射剂量-生存分数拟合模型优化方法,其特征在于,包括:
2.根据权利要求1所述的多中心场景下的放射剂量-生存分数拟合模型优化方法,其特征在于,所述生物学效应预测基础模型为放射剂量-生存分数拟合模型。
3.根据权利要求2所述的多中心场景下的放射剂量-生存分数拟合模型优化方法,其特征在于,所述步骤s2具体为:
4.根据权利要求3所述的多中心场景下的放射剂量-生存分数拟合模型优化方法,其特征在于,当放射剂量-生存分数拟合模型为lq模型时,表示为:
5.根据权利要求4所述的多中心场景下的放射剂量-生存分数拟合模型优化方法,其特征在于,所述权重的计算方法为:单中心的放射剂量-生存分数拟合模型的验证预测误差越小对应的权重越大。
6.根据权利要求5所述的多中心场景下的放射剂量-生存分数拟合模型优化方法,其特征在于,权重计算公式为:
7.根据权利要求6所述的多中心场景下的放射剂量-生存分数拟合模型优化方法,其特征在于,所述联邦模型的表达式为:
8.多中心场景下的放射剂量-生存分数拟合模型优化系统,其特征在于,包括: