本发明涉及测序生信处理,具体为肿瘤全转录组测序的变异过滤方法及装置。
背景技术:
1、rna-seq测序是将所有rna种类转化为互补dna片段(互补dna文库),即以cdna为模板构建支持测序的文库,通过测序平台对其进行全转录组水平检测。rna-seq测序技术无需预先设计特异性探针,可直接测定每个转录本片段序列,可以检测单个碱基差异、基因家族中相似基因以及可变剪接造成的不同转录本的表达,能够检测到细胞中少至几个拷贝的稀有转录本和新的转录本。相对于全基因组和全外显子组,转录组中有丰富的基因表达和序列信息,在肿瘤中分析基因融合、剪接变异和基因表达谱方面有独特的优势。
2、rna-seq原始数据经过序列预处理、序列比对、变异识别、信息注释和变异过滤的生物信息学分析,并由遗传分析人员综合考虑人群频率、变异质量、变异对蛋白的影响程度等信息,从数百万个变异中找到具有临床意义的融合基因和snv/indel变异个数,用于肿瘤患者辅助临床诊断、指导治疗、评估预后等,以上是目前常见的rna-seq数据分析方案。
3、现有过滤方案可能存在问题如下:(1)未设置白名单,会导致漏掉具有临床意义的snv/indel变异和融合基因;(2)二代测序技术具有测序环节造成的特定基因组区域的假阳性位点,很难被过滤;(3)变异筛选是个复杂耗时、容错率低的过程,过度的变异过滤可能导致与疾病诊断、治疗或预后相关的阳性变异被去除,变异过滤不足又会遗留大量的变异进行人工操作耗时较长且容易出错。
技术实现思路
1、本发明提供了肿瘤全转录组测序的变异过滤方法及装置,用于至少解决现有技术变异筛选过滤消耗时间长,出错率高等缺陷之一。
2、有鉴于此,本发明的方案为:
3、肿瘤全转录组测序的变异过滤方法,包括snv/indel变异过滤及融合基因过滤;其中:
4、所述snv/indel变异过滤步骤包括:对原始数据产生的snv/indel变异进行依次进行低质量和高频变异的过滤、非编码区变异的过滤,以及结合人群频率和snv/indel变异白名单对外显子和剪接区变异的过滤;然后结合肿瘤相关基因白名单、snv/indel变异黑、白名单对过滤的结果进行分类并标签化,标签类型包括:非热点、低频重复区域、非经典转录本变异及黑名单snv/indel;
5、所述融合基因过滤步骤包括:依次结合融合基因黑名单、融合基因白名单对原始数据检出的融合基因进行过滤,对过滤的结果进行分类和标签化,标签类型包括:非编码基因、基因区间、重复融合基因对、融合基因黑名单。
6、进一步地,所述snv/indel变异白名单的构建过程包括:
7、基于历史肿瘤全转录组数据经过人工复核评级为tier i、tier ii的变异得到临时snv/indel变异白名单一;
8、提取肿瘤相关基因致病以及疑似致病的变异,生成临时snv/indel变异白名单二;
9、合并临时snv/indel变异白名单一及临时snv/indel变异白名单二得到snv/indel变异白名单;
10、所述snv/indel变异黑名单的构建过程包括:
11、基于历史肿瘤全转录组数据经过人工复核评级非tier i、tier ii、tier iii的变异得到临时snv/indel变异黑名单;
12、取临时snv/indel变异黑名单中不在snv/indel变异白名单的内的变异生成snv/indel变异黑名单。
13、进一步地,所述低质量和高频变异的过滤包括,基于snv/indel变异的测序覆盖度、测序覆盖度与变异频率之积,及肿瘤本地检出频率设置阈值进行过滤。优选地,所述肿瘤本地检出频率阈值是根据历史肿瘤全转录组阳性样本,按照梯度选取多个样本子集,为各梯度设置不同的历史本地检出频率阈值,将阳性检出检出率达到100%对应各子集各梯度保留的变异个数从小到大排序,选择排在第一个四分位数附近的阈值作为历史本地检出频率阈值。
14、进一步地,所述非编码区变异的过滤包括:对属于基因间区、ncrna、基因上下游区域的变异进行过滤去除,以及对内含子和utr区中人群频率为0.1以上或不影响剪接的变异进行过滤;和/或,
15、所述外显子和剪接区变异的过滤包括:过滤属于外显子和剪接区的变异人群频率为0.1以上的变异、过滤不在snv/indel变异白名单或数据库收录为20以上且人群频率为0.01以上的变异、过滤属于同义突变且不影响剪接的变异,及过滤剪接变异本地检出频率为5%以上且cosmic收录小于3的变异。
16、进一步地,snv/indel变异过滤步骤中,所述非热点类型包括:不在候选基因列表、本地检出率高、人群频率高于0.001。
17、优选地,所述非热点类型基于如下标准进行标签化:
18、对于不在肿瘤相关基因白名单snv/indel变异的基因,满足clinvar数据库收录不为致病性或疑似致病性,或满足cosmic数据库收录≤10或为空值的变异,添加“不在候选基因列表,非热点”标签;
19、对于snv/indel变异的本地检出频率≥5%,满足clinvar数据库收录不为致病性或疑似致病性,或满足cosmic数据库收录≤10或为空值的变异,添加“本地检出频率高,非热点”标签;
20、对于snv/indel变异的最大人群频率≥0.001,满足cosmic数据库收录≤10或为空值的变异,添加“人群频率高于0.001,非热点”标签。
21、进一步地,snv/indel变异过滤步骤中,所述低频重复区域类型标记以snv/indel变异的短串联重复次数≥5且肿瘤样本snv/indel变异变异频率≤10%为依据。
22、进一步地,所述融合基因白名单的构建过程包括:
23、基于历史肿瘤全转录组数据经人工复核评级为1级、2级的融合基因生产临时融合基因白名单一;
24、基于文献和数据库记载的融合基因,生成临时融合基因白名单二;
25、取临时融合基因白名单一和临时融合基因白名单二的并集作为融合基因白名单;
26、所述融合基因黑名单的构建过程包括:
27、基于历史肿瘤全转录组数据若干患者监测结果和对照细胞系中验证为假阳性的融合基因,生成临时融合基因黑名单一;
28、利用健康人对照检出融合基因生成临时融合基因黑名单二;
29、取临时融合基因黑名单二中不在融合基因白名单中的融合基因,生成临时融合基因黑名单三;
30、取临时融合基因黑名单一与临时融合基因黑名单三的并集生成融合基因黑名单一;
31、基于历史肿瘤全转录组数据经人工复核评级非1级、2级、3级的融合基因生产临时融合基因黑名单四;
32、取融合基因黑名单四中不在融合基因白名单中的融合基因,生成融合基因黑名单二;
33、融合基因过滤步骤中,所述分类和标签化过程基于融合基因检出的断点对在融合基因黑名单二的融合基因,添加“融合基因黑名单二”的标签。
34、进一步地,融合基因过滤步骤中,所述原始数据检出的融合基因过滤后,比对参考序列,根据split_reads1+split_reads2,及discordant_mates之一是否为0,保留split_reads1+split_reads2+discordant_mates大于不同阈值的融合基因。
35、进一步地,还包括对snv/indel变异及融合基因标签进行复核的步骤,复核过程包括确认直接过滤去除数据的标签,和确认待定的标签。
36、本发明另外一个目的在于,提出肿瘤全转录组测序的变异过滤装置,包括:
37、snv/indel变异过滤模块:用于对原始数据产生的snv/indel变异进行依次进行低质量和高频变异的过滤、非编码区变异的过滤,以及结合人群频率和snv/indel变异白名单对外显子和剪接区变异的过滤;然后结合肿瘤相关基因白名单、snv/indel变异黑、白名单对过滤的结果进行分类并标签化,标签类型包括:非热点、低频重复区域、非经典转录本变异及黑名单snv/indel;
38、所述融合基因过滤模块:用于依次结合融合基因黑名单、融合基因白名单对原始数据检出的融合基因进行过滤,对过滤的结果进行分类和标签化,标签类型包括:非编码基因、基因区间、重复融合基因对。
39、与现有技术相比,本发明具备以下有益效果:
40、本发明提供的变异过滤方法通构建snv/indel变异、融合基因本地检出频率、肿瘤相关基因白名单、snv/indel变异、融合基因黑/白名单;对原始数据检出snv/indel变异和融合基因进行生信分析过滤和分类标签化;所述方法充分利用本地构建的数据信息以及样本数据自身的质量,显著降低了临床报告解读过程中需要分析的无效位点数量,缩短肿瘤报告解读中位点筛选的时间,在过滤掉良性和高频变异的同时,避免出现假阴性的致病变异位点。
1.肿瘤全转录组测序的变异过滤方法,其特征在于,包括snv/indel变异过滤及融合基因过滤;其中:
2.根据权利要求1所述的变异过滤方法,其特征在于,所述snv/indel变异白名单的构建过程包括:
3.根据权利要求1所述的变异过滤方法,其特征在于,所述非编码区变异的过滤包括:对属于基因间区、ncrna、基因上下游区域的变异进行过滤去除,以及对内含子和utr区中人群频率为0.1以上或不影响剪接的变异进行过滤;和/或,
4.根据权利要求1所述的变异过滤方法,其特征在于,snv/indel变异过滤步骤中,所述非热点类型包括:不在候选基因列表、本地检出率高、人群频率高于0.001。
5.根据权利要求4所述的变异过滤方法,其特征在于,所述非热点类型基于如下标准进行标签化:
6.根据权利要求1所述的变异过滤方法,其特征在于,snv/indel变异过滤步骤中,所述低频重复区域类型标记以snv/indel变异的短串联重复次数≥5且肿瘤样本snv/indel变异变异频率≤10%为依据。
7.根据权利要求1所述的变异过滤方法,其特征在于,所述融合基因白名单的构建过程包括:
8.根据权利要求1所述的变异过滤方法,其特征在于,融合基因过滤步骤中,所述原始数据检出的融合基因过滤后,比对参考序列,根据split_reads1+split_reads2,及discordant_mates之一是否为0,保留split_reads1+split_reads2+discordant_mates大于不同阈值的融合基因。
9.根据权利要求1所述的变异过滤方法,其特征在于,还包括对snv/indel变异及融合基因标签进行复核的步骤,复核过程包括确认直接过滤去除数据的标签,和确认待定的标签。
10.肿瘤全转录组测序的变异过滤装置,其特征在于,包括: