基于多组学数据的骨肉瘤分型和预后标志物筛选及应用的制作方法

    技术2025-02-18  56


    本技术属于生物,具体涉及一种基于多组学数据的骨肉瘤分型和预后标志物筛选及应用。


    背景技术:

    0、技术背景

    1、骨肉瘤是临床最常见的原发恶性骨肿瘤,骨肉瘤在普通人群中的发病率为200-300万/年,多发于儿童和青少年。局限性肿瘤的骨肉瘤患者5年生存率维持在60-70%,转移性和复发性患者5年生存率<20%。骨肉瘤的发生和转移涉及复杂分子机制,目前临床缺乏对骨肉瘤分子亚型的精准诊断,同时不明确骨肉瘤分子亚型与骨肉瘤患者预后的关系。因此,骨肉瘤的精准治疗首先需要一些有效的分子标志物来帮助区分与患者预后显著关联的分子亚型。

    2、专利文献cn114023442a,公开日2022.02.08,基于多组学数据的骨肉瘤分子亚型致癌全景图,将91例具有临床预后数据的骨肉瘤样本划分为四种分子亚型:免疫激活、免疫抑制、同源重组缺陷和myc驱动。myc驱动亚型(s-md)的骨肉瘤样本相比其他亚型的总生存期预后差。因此,myc驱动亚型(s-md)可指示骨肉瘤预后差,可以构建机器学习模型从不同组学的角度将myc驱动亚型(s-md)作为预测目标,被模型预测为myc驱动亚型(s-md)的骨肉瘤样本应同时具有总生存期预后差的特点。作为机器学习模型分类特征的、能从不同组学角度预测myc驱动亚型(s-md)的基因集合,可以作为骨肉瘤分子标志物。

    3、鉴于此,提出本技术。


    技术实现思路

    1、为解决上述技术问题,本技术利用骨肉瘤标志物的转录组信息或骨肉瘤标志物的启动子区(tss1500)甲基化信息构建模型来预测骨肉瘤样本是否属于myc驱动亚型(s-md)。同时,在target和gse21257这两个公共验证数据集中,被模型预测为myc驱动亚型(s-md)的骨肉瘤样本具有生存期预后差的特点。

    2、具体的,本技术提出如下技术方案:

    3、本技术首先提出了一种用于预测骨肉瘤分型和骨肉瘤预后的基因集合,作为骨肉瘤分子标志物,所述基因集包括如下9个基因:

    4、cpe、galnt3、dusp3、igf2bp3、cadm1、fgfr1、zfp3、kif26a和arhgap9

    5、本技术还提供获取样本中上述9基因水平的检测剂或组件在制备用于预测骨肉瘤分型和/或骨肉瘤预后产品中的应用,以及获取样本中上述9基因水平的在预测骨肉瘤分型和/或骨肉瘤预中的应用。

    6、进一进的,所述基因水平包括基因转录水平或基因启动子区甲基化水平。

    7、进一步的,所述骨肉瘤分型为myc驱动亚型(s-md),所述骨肉瘤预后为骨肉瘤患者的生存期预后,优选的为总生存期预后。

    8、进一步的,所述检测剂于核酸水平进行检测;

    9、进一步优选的,所述检测剂用于执行以下任一种方法:核酸测序法、聚合酶链反应、变性梯度凝胶电泳、核酸分型芯片检测、变性高效液相色谱法、原位杂交、生物质谱法以及hrm法。

    10、进一步的,所述试剂盒还包括样品的处理试剂,所述样品的处理试剂包括样品裂解试剂、样品纯化试剂以及样品核酸提取试剂中的至少一种。

    11、进一步的,所述样品选自所述骨肉瘤患者的血清、血浆、脑脊髓液、组织或组织裂解液、细胞培养上清、精液以及唾液样品中的至少一种;

    12、进一步优选的,所述样品选自所述骨肉瘤患者的血清、血浆。

    13、本技术还提供一种筛选预测骨肉瘤分型和预后的基因集合的方法,所述方法包括如下步骤:

    14、1)骨肉瘤样本转录组和甲基化数据采集和过滤:

    15、采集多例骨肉瘤样本转录组数据:计算每个基因在多例样本的平均tpm值和tpm值变异系数;根据tpm值和tpm值变异系数,过滤低表达基因,过滤高变异系数基因;优选的,所述转录组数据为rna-seq基因表达tpm值矩阵;采集多例骨肉瘤样本甲基化数据,不进行数据过滤;优选的,所述甲基化数据为850k甲基化芯片基因启动子区甲基化beta值矩阵;

    16、2)骨肉瘤样本转录组和甲基化数据的标准化:

    17、将多例骨肉瘤样本基因表达tpm值矩阵的每个值加0.01取log2,对单个样本的基因表达值进行z-score标准化;将多例骨肉瘤样本基因启动子区甲基化beta值矩阵的每个值取log2,对单个样本的基因甲基化值进行z-score标准化;

    18、3)骨肉瘤基因标志物的筛选:

    19、基于xgboost算法对骨肉瘤基因标志物进行三轮筛选:

    20、优选的;所述三轮筛选的步骤包括:

    21、对标准化之后的每个基因计算其样本的转录组和甲基化spearman相关系数,过滤掉相关系数≥α的基因;将每例骨肉瘤样本每个基因的标准化转录组数据和标准化甲基化数据通过多项式特征交互和relu函数进行整合:

    22、"=$%&'(0.8*"-+0.2*"0+2.2*"-"0);

    23、其中,"-为每个基因的标准化转录组数据,"0为每个基因的标准化甲基化数据;$%&'为线性整流函数;

    24、整合后的样本数据作为xgboost模型的训练输入,样本是否属于myc驱动亚型(s-md)为xgboost的训练标签,进行模型多轮训练;保存反复训练过程中在所有骨肉瘤样本的预测精度>0.9,auc值>0.9,预测myc驱动亚型(s-md)总生存期预后差(log-rank检验p值<0.01)的基因集合;

    25、继续使用转录组和甲基化整合数据,将保存的每个基因集合进行xgboost留一交叉验证筛选:依次将每例样本作测试,其余样本作训练;每次输入1例样本的基因集合数据作为xgboost模型的训练输入,其余样本是否属于myc驱动亚型(s-md)为xgboost的训练标签,进行训练;如果基因集合在留一交叉验证过程中所有测试样本的预测精度>0.9且auc值>0.9,每轮训练的其他样本的预测精度>0.9且auc值>0.9,则保存该基因集合;

    26、使用样本标准化后的转录组数据和甲基化数据,将上一步骤筛选得到的每个基因集合进行xgboost单组学筛选:将样本的转录组或甲基化基因集合数据作为xgboost模型的训练输入,样本是否属于myc驱动亚型(s-md)为xgboost的训练标签,进行训练;如果基因集合在所有骨肉瘤样本的转录组预测精度>0.9,auc值>0.9,甲基化预测精度>0.9且auc值>0.9,则保存该基因集合,再通过排序,筛选得到9基因集合。

    27、进一步的,前述应用中,所述9基因是通过上述方法筛选获得。

    28、本技术还提供一种用于预测骨肉瘤分型和/或骨肉瘤预后的产品,所述产品包含获取样本中9基因水平的检测剂或组件;所述9基因包括:cpe、galnt3、dusp3、igf2bp3、cadm1、fgfr1、zfp3、kif26a和arhgap9;所述基因水平包括基因转录水平或基因启动子区甲基化水平。

    29、进一步的,所述骨肉瘤分型为myc驱动亚型(s-md),所述骨肉瘤预后为骨肉瘤患者的生存期预后,优选的为总生存期预后。

    30、进一步的,所述试剂盒进一步包括样品的处理试剂,所述样品的处理试剂包括样品裂解试剂、样品纯化试剂以及样品核酸提取试剂中的至少一种。

    31、进一步的,所述产品为试剂盒形式的产品。

    32、本技术还提供一种预测骨肉瘤分型和/或骨肉瘤预后的方法,所述方法包括检测样本中9基因的水平;

    33、进一步的,所述9基因包括:cpe、galnt3、dusp3、igf2bp3、cadm1、fgfr1、zfp3、kif26a和arhgap9。

    34、进一进的,所述基因水平包括基因转录水平或基因启动子区甲基化水平。

    35、进一步的,所述骨肉瘤分型为myc驱动亚型(s-md),所述骨肉瘤预后为骨肉瘤患者的生存期预后,优选的为总生存期预后。

    36、进一步优选的,所述方法具体如下:

    37、(i)获取受试样品中9基因的水平;

    38、(ii)与对照样本进行9基因的水平比较;其中,所述受试样品与所述对照样品中9基因的水平存在显著性差异是所述受试者为myc驱动亚型(s-md)或预后差的指征;

    39、或者,

    40、(ii)与设定的阈值绝对量进行比较;其中,所述受试者样本9基因水平高于阈值绝对量是所述受试者为myc驱动亚型(s-md)或预后差的指征。

    41、本技术还提供一种在体内或体外检测样本中9基因水平的方法,所述方法包括疾病诊断方法和非疾病诊断方法,所述方法包括如下步骤:

    42、(i)获取样品中9基因的水平,所述9基因包括:cpe、galnt3、dusp3、igf2bp3、cadm1、fgfr1、zfp3、kif26a和arhgap9;所述基因水平包括基因转录水平和/或基因启动子区甲基化水平;

    43、优选的,所述方法进一步包括如下步骤:

    44、(ii)与对照样本中进行9基因的水平进行比较,确定是否存在显著差异;

    45、或者,

    46、(ii)与设定的阈值绝对量进行比较;确定是否高于阈值绝对量。

    47、本技术有益技术效果:

    48、1)本技术从转录组和甲基化两个角度筛选和证实了基因“cpe、galnt3、dusp3、igf2bp3、cadm1、fgfr1、zfp3、kif26a和arhgap9”可以作为骨肉瘤分型和骨肉瘤预后的标志物,尤其是这些基因的基因转录水平和/或基因启动子区甲基化水平。

    49、2)本技术在用9基因实现高精度预测骨肉瘤myc驱动亚型(s-md)的同时,模型预测的亚型分组也能指示骨肉瘤患者的生存期预后状态,揭示骨肉瘤myc驱动亚型(s-md)与骨肉瘤患者生存期预后差具有密切关联。


    技术特征:

    1.获取样本中9基因水平的检测剂或组件在制备用于预测骨肉瘤分型和/或骨肉瘤预后的产品中的应用;所述9基因包含cpe、galnt3、dusp3、igf2bp3、cadm1、fgfr1、zfp3、kif26a和arhgap9。

    2.根据权利要求1所述的应用,其特征在于,所述基因水平包括基因转录水平和/或基因启动子区甲基化水平;所述骨肉瘤分型为myc驱动亚型(s-md),所述骨肉瘤预后为骨肉瘤患者的生存期预后。

    3.根据权利要求1-2任一所述的应用,其特征在于,所述试剂盒还包括样品的处理试剂,所述样品的处理试剂包括样品裂解试剂、样品纯化试剂以及样品核酸提取试剂中的至少一种。

    4.根据权利要求4所述的应用,其特征在于,所述样品选自所述骨肉瘤患者的血清、血浆、脑脊髓液、组织或组织裂解液、细胞培养上清、精液以及唾液样品中的至少一种;

    5.一种筛选预测骨肉瘤分型和预后的基因集合的方法,或权利要求1-4任一所述的应用,其特征在于,所述基因集合或9基因的筛选步骤为:

    6.根据权利要求5所述的方法或应用,其特征在于:

    7.根据权利要求5所述的方法或应用,其特征在于:

    8.一种用于预测骨肉瘤分型和/或骨肉瘤预后的产品,其特征在于,所述产品包含获取样本中9基因水平的检测剂或组件;所述9基因包括:cpe、galnt3、dusp3、igf2bp3、cadm1、fgfr1、zfp3、kif26a和arhgap9;优选的,所述基因水平包括基因转录水平或基因启动子区甲基化水平;更优选的,所述试剂盒进一步包括样品的处理试剂,所述样品的处理试剂包括样品裂解试剂、样品纯化试剂以及样品核酸提取试剂中的至少一种。

    9.一种用于预测骨肉瘤分型和/或骨肉瘤预后的骨肉瘤分子标志物,其特征在于,所述标志物包括包括cpe、galnt3、dusp3、igf2bp3、cadm1、fgfr1、zfp3、kif26a和arhgap9。

    10.一种预测骨肉瘤分型和/或骨肉瘤预后的方法,其特征在于,所述方法包括检测样本中9基因水平,所述标志物包括cpe、galnt3、dusp3、igf2bp3、cadm1、fgfr1、zfp3、kif26a和arhgap9;


    技术总结
    本申请属于生物技术领域,具体涉及基于多组学数据的骨肉瘤分型和预后标志物筛选及应用等。本申请从转录组和甲基化数据中筛选并证实了基因CPE、GALNT3、DUSP3、IGF2BP3、CADM1、FGFR1、ZFP3、KIF26A和ARHGAP9能够作为骨肉瘤分型和骨肉瘤预后的指征。

    技术研发人员:华莹奇,姜亚飞,宋云杰,赵伟松,田凯,邓望龙,李诗濛,任用
    受保护的技术使用者:江苏先声医学诊断有限公司
    技术研发日:
    技术公布日:2024/10/24
    转载请注明原文地址:https://symbian.8miu.com/read-26746.html

    最新回复(0)