一种细菌宏基因组测序数据的分析方法、装置及其应用与流程

    技术2024-11-28  20


    本发明属于细菌感染检测领域,具体地,涉及一种细菌宏基因组测序数据的假阳性过滤的分析方法、装置及其应用。


    背景技术:

    1、病原学的精准诊断对于感染性疾病的诊断和治疗具有重要意义。传统的病原学诊断高度依赖于临床医师的经验,通常根据患者的临床表现做出细菌的鉴别诊断,针对可疑的细菌进行检测,逐一排查;因传统检测方法的局限性往往无法兼顾罕见致病细菌和混合感染等情况,而宏基因组第二代测序(metagenomics next generation sequencing,简称mngs)技术可以快速、无偏倚地同时检测多种细菌。典型的mngs生物信息学流程由来自原始输入fastq文件的一系列分析步骤组成,包括质量和低复杂性过滤、接头过滤、人类宿主去除、通过与参考数据库比对进行微生物鉴定、可选的序列组装以及在科、属和种的水平上对单个读数和/或连续序列(重叠群)进行分类。

    2、宏基因组二代测序技术(metagenomic next generation sequencing)不依赖传统的微生物培养,直接对临床样本中的总核酸进行高通量测序,与数据库进行比对分析,根据比对到的序列信息来判断样本包含的责任病原,但部分病原的检出可能是因为基因组错误的积累或者同源干扰太多、人源序列未滤除干净、高丰度物种由于变异带来的近缘物种序列引入、工程试剂菌污染、噬菌体污染、人工载体污染等等,导致临床假阳性结果的产生。

    3、细菌属于细菌域,是生物的主要类群之一,也是所有生物中数量最多的一类,其也是许多疾病的细菌,可以通过各种方式,如接触、消化道、呼吸道、昆虫叮咬等在正常人体间传播疾病,具有较强的传染性。因此,需要鉴定传染样本中准确的细菌种类,以便为临床诊断和治疗提供支持。

    4、因此,本领域需求一种分析方法,其能够对细菌的临床fastq数据经比对和种属鉴定后的细菌list进行生信假阳结果过滤与筛选,为细菌报告的解读工作提供准确与精简的范围,减少非真实物种干扰,降低临床假阳性风险。


    技术实现思路

    1、有鉴于此,第一方面,本发明提供一种细菌宏基因组测序数据的分析方法,包括如下步骤:

    2、s1、获取细菌宏基因组测序数据;

    3、s2、将所述测序数据按照物种进行匹配,并按照物种获取细菌物种reads数集;

    4、s3、对所述细菌物种reads数集的细菌reads序列进行特异性鉴定,获取细菌物种特异性和非特异性reads序列集;

    5、s4、根据如下公式获取细菌物种reads数集的ga-ratio值、ms-ratio值、g-dps值,以及cro-s值:

    6、ga-ratio值=单个物种的特异性reads数/同属中最高特异性reads数;

    7、ms-ratio值=单个物种非特异性reads数/单个物种特异性reads数;

    8、g-dps值=同一物种比对起始位点集合的平均差/同一物种比对起始位点集合的平均值;

    9、cro-s值=跨域比对reads数/(跨域比对reads数+非跨域比对reads数);

    10、s5、根据上述ga-ratio值、ms-ratio值、g-dps值,以及cro-s值按照如下任一判断标准过滤假阳性结果,并输出最终结果:

    11、ga-ratio值≤0.085,

    12、ms-ratio值≥20,

    13、g-dps值≤0.085,或者

    14、cro-s值≥0.6。

    15、申请人创造性地发现,通过上述4个公式以及其相应阈值的判断,能够使得输出结果当中的细菌的假阳性结果大幅减少。

    16、即满足上述4项判断标准中的任意一个,则判断为假阳性结果,予以过滤。

    17、进一步地,所述步骤s1还可以包括步骤s1-2:对测序数据进行质控处理。

    18、所述质控处理为去除接头序列与低质量序列片段;去除匹配人源基因组的序列;去除短片段、重复片段、低复杂度序列片段。

    19、在一些具体的实施方案中,所述s1步骤进一步包括获得以下数据中的至少一种:物种名、物种对应的属名、属中特异性短核苷酸序列数、测序数据量、人源数据量占总数据量比值、微生物总数据量、致病信息、短核苷酸序列数、阴性对照短核苷酸序列数、特异性短核苷酸序列数、阴性对照特异性短核苷酸序列数、单位短核苷酸序列数、阴性对照单位短核苷酸序列数、相对丰度、覆盖度、序列片段编号、序列比对情况、比对参考序列名称、比对起始位置、比对质量分数、比对结果详情、序列片段碱基信息、序列片段每个碱基质量信息、不同参考基因组的比对结果详情。

    20、进一步地,所述步骤s2可选地还包括步骤s2-2:判断所述细菌物种是否属于以下物种,若是,则无需进行过滤直接输出至最终结果:

    21、表皮葡萄球菌、单增李斯特氏菌、粪肠球菌、屎肠球菌、鲍曼不动杆菌、大肠杆菌、金黄色葡萄球菌、枯草芽孢杆菌、肺炎克雷伯菌、脓肿分枝杆菌、铜绿假单胞菌、结核分枝杆菌复合群、鸟分枝杆菌复合群。

    22、上述细菌物种属于临床上重点关注对象,因此,可以无需过假阳性过滤直接输出至最终结果,便于为临床提供更为详细的参考。

    23、进一步地,所述步骤s3的特异性鉴定包括计算如下判断标准:

    24、1)所述细菌reads序列的碱基错配数;

    25、2)所述细菌reads序列的碱基匹配度非m之和;

    26、3)所述细菌reads序列的碱基错配数+碱基匹配度非m之和;以及

    27、4)所述细菌reads序列仅匹配单个细菌物种。

    28、在一些具体的实施方案中,所述步骤s3按照如下判断标准进行特异性鉴定:

    29、1)所述细菌reads序列的碱基错配数≤3;

    30、2)所述细菌reads序列的碱基匹配度非m之和≤5;

    31、3)所述细菌reads序列的碱基错配数+碱基匹配度非m之和≤5;以及

    32、4)所述细菌reads序列仅匹配单个细菌物种。

    33、即满足上述所有判断标准,则判断为特异性reads。

    34、第二方面,本发明提供一种细菌宏基因组测序数据分析的装置,包括:

    35、s1、获取数据模块,用于获取细菌宏基因组测序数据;

    36、s2、匹配模块,用于将所述测序数据按照物种进行匹配,并按照物种获取细菌物种reads数集;

    37、s3、特异性鉴定模块,用于对所述细菌物种reads数集的细菌reads序列进行特异性鉴定,获取细菌物种特异性和非特异性reads序列集;

    38、s4、计算模块,用于根据如下公式获取细菌物种reads数集的ga-ratio值、ms-ratio值、g-dps值,以及cro-s值:

    39、ga-ratio值=单个物种的特异性reads数/同属中最高特异性reads数;

    40、ms-ratio值=单个物种非特异性reads数/单个物种特异性reads数;

    41、g-dps值=同一物种比对起始位点集合的平均差/同一物种比对起始位点集合的平均值;

    42、cro-s值=跨域比对reads数/(跨域比对reads数+非跨域比对reads数);

    43、s5、结果输出模块,用于根据上述ga-ratio值、ms-ratio值、g-dps值,以及cro-s值按照如下任一判断标准过滤假阳性结果,并输出最终结果:

    44、ga-ratio值≤0.085,

    45、ms-ratio值≥20,

    46、g-dps值≤0.085,或者

    47、cro-s值≥0.6。

    48、即满足上述4项判断标准中的任意一个,则判断为假阳性结果,予以过滤。

    49、进一步地,所述模块s1还可以包括模块s1-2:对测序数据进行质控处理。

    50、所述质控处理为去除接头序列与低质量序列片段;去除匹配人源基因组的序列;去除短片段、重复片段、低复杂度序列片段。

    51、在一些具体的实施方案中,所述s1模块进一步包括获得以下数据中的至少一种:物种名、物种对应的属名、属中特异性短核苷酸序列数、测序数据量、人源数据量占总数据量比值、微生物总数据量、致病信息、短核苷酸序列数、阴性对照短核苷酸序列数、特异性短核苷酸序列数、阴性对照特异性短核苷酸序列数、单位短核苷酸序列数、阴性对照单位短核苷酸序列数、相对丰度、覆盖度、序列片段编号、序列比对情况、比对参考序列名称、比对起始位置、比对质量分数、比对结果详情、序列片段碱基信息、序列片段每个碱基质量信息、不同参考基因组的比对结果详情。

    52、进一步地,所述模块s2可选地还包括模块s2-2:判断所述细菌物种是否属于以下物种,若是,则无需进行过滤直接输出至最终结果:

    53、表皮葡萄球菌、单增李斯特氏菌、粪肠球菌、屎肠球菌、鲍曼不动杆菌、大肠杆菌、金黄色葡萄球菌、枯草芽孢杆菌、肺炎克雷伯菌、脓肿分枝杆菌、铜绿假单胞菌、结核分枝杆菌复合群、鸟分枝杆菌复合群。

    54、上述细菌物种属于临床上重点关注对象,因此,可以无需过假阳性过滤直接输出至最终结果,便于为临床提供更为详细的参考。

    55、进一步地,所述模块s3的特异性鉴定包括计算如下判断标准:

    56、1)所述细菌reads序列的碱基错配数;

    57、2)所述细菌reads序列的碱基匹配度非m之和;

    58、3)所述细菌reads序列的碱基错配数+碱基匹配度非m之和;以及

    59、4)所述细菌reads序列仅匹配单个细菌物种。

    60、在一些具体的实施方案中,所述模块s3按照如下判断标准进行特异性鉴定:

    61、1)所述细菌reads序列的碱基错配数≤3;

    62、2)所述细菌reads序列的碱基匹配度非m之和≤5;

    63、3)所述细菌reads序列的碱基错配数+碱基匹配度非m之和≤5;以及

    64、4)所述细菌reads序列仅匹配单个细菌物种。

    65、即满足上述所有判断标准,则判断为特异性reads。

    66、进一步地,所述装置还包括核酸提取模块,所述核酸提取模块用于提取样本的核酸。

    67、第三方面,本发明提供一种如上所述的分析方法或者装置在制备细菌宏基因组测序数据的试剂盒或者装置中的应用。

    68、第四方面,本发明提供一种设备,包括:

    69、至少一个处理器;以及

    70、与至少一个所述处理器通信连接的存储器;其中,

    71、所述存储器存储有可被所述处理器执行的指令,所述指令用于被所述处理器执行以实现上述任一项所述的细菌宏基因组测序数据的分析方法。

    72、在一些实施方案中,所述设备还包括至少一个输入设备和至少一个输出设备;在所述设备中,所述处理器、存储器、输入设备、输出设备之间通过总线连接。

    73、第五方面,提供了一种存储介质,所述存储介质存储有计算机指令,所述计算机指令用于被所述计算机执行以实现上述任一项所述的细菌宏基因组测序数据的分析方法。

    74、在一些实施方案中,存储介质为计算机可读存储介质。

    75、第六方面,本发明提供一种试剂盒,包括:

    76、样本核酸提取试剂和宏基因组测序试剂;以及

    77、如上所述的装置或者设备或者存储介质。

    78、使用本发明的细菌宏基因组测序数据的分析方法,通过一定的算法和标准,使得最终结果中的细菌的假阳性结果被过滤掉,更符合临床结果,能更好辅助医生的诊断和用药,为患者提供更好的诊疗服务。


    技术特征:

    1.一种细菌宏基因组测序数据的分析方法,包括如下步骤:

    2.根据权利要求1所述的方法,其特征在于,所述步骤s1还可以包括步骤s1-2:对测序数据进行质控处理。

    3.根据权利要求2所述的方法,其特征在于,所述步骤s2还包括步骤s2-2:判断所述细菌物种属于以下物种,则无需进行过滤直接输出至最终结果:

    4.根据权利要求1所述的方法,其特征在于,所述步骤s3的特异性鉴定包括计算如下判断标准:

    5.根据权利要求1所述的方法,其特征在于,所述步骤s3按照如下判断标准进行特异性鉴定:

    6.一种如权利要求1~5中任一项所述的细菌宏基因组测序数据的分析方法在制备细菌宏基因组测序数据的分析装置中的应用。

    7.一种细菌宏基因组测序数据分析的装置,包括:

    8.根据权利要求7所述的装置,其特征在于,所述模块s2还包括模块s2-2:判断所述细菌物种属于以下物种,则无需进行过滤直接输出至最终结果:

    9.一种细菌宏基因组测序数据分析的设备,包括:

    10.一种存储介质,所述存储介质存储有计算机指令,所述计算机指令用于被所述计算机执行以实现如权利要求1~5中任一项所述的细菌宏基因组测序数据的分析方法。


    技术总结
    本发明属于细菌感染检测领域,具体地,涉及一种细菌宏基因组测序数据的疑似细菌判定分析方法、装置及其应用。本发明提供了一种细菌宏基因组测序数据的分析方法,包括如下步骤:S1、获取细菌宏基因组测序数据;S2、将所述测序数据按照物种进行匹配,并按照物种获取细菌物种reads数集;S3、对所述细菌物种reads数集的细菌reads序列进行特异性鉴定,获取细菌物种特异性和非特异性reads序列集;S4、根据如下公式获取细菌物种reads数集的GA‑ratio值、MS‑ratio值、G‑dps值,以及Cro‑S值;S5、根据上述GA‑ratio值、MS‑ratio值、G‑dps值,以及Cro‑S值按照如下任一判断标准过滤假阳性结果,并输出最终结果。

    技术研发人员:杨丽,李赛,邓小龙,吴康,戴立忠
    受保护的技术使用者:圣湘生物科技股份有限公司
    技术研发日:
    技术公布日:2024/10/24
    转载请注明原文地址:https://symbian.8miu.com/read-22657.html

    最新回复(0)