本发明涉及生物信息,具体说是一种基因组生殖区域定位方法。
背景技术:
1、被子植物生产的果实和种子是许多动物(包括人类)的主要食物来源,尤其在农业与园艺方面,农作物是人类粮食供应的基础,水果和蔬菜提供了丰富的维生素和矿物质以促进健康,而花卉则通过其观赏性和美学价值提升人类的生活质量和精神愉悦。
2、被子植物主要通过开花和种子实现有性繁殖,其中雄蕊产生花粉,雌蕊中的胚珠接受花粉进行受精,形成种子。相比于无性繁殖,有性繁殖过程中的基因重组产生了新的基因组合,提高了遗传多样性,使得在环境变化和抵御病虫害时,有更多的个体可能具有适应优势,从而提高物种的存活率。
3、传统的基因组生殖区域定位方法复杂且繁琐,需要研究人员在前期投入大量时间和空间,构建大规模的分离群体,然后估计和比较遗传图谱与物理图谱的位置;或者是调查表型后进行大量的测序工作,然后性状定位,是一个耗时耗力的工作。其中构建分离群体和调查表型通常以生长季甚至年为单位进行,部分童期较长的物种,构建一个合适的群体则可能耗费科研人员的整个职业生涯才能完成。
技术实现思路
1、针对现有技术中存在的缺陷,本发明的目的在于提供一种基因组生殖区域定位方法。该方法利用大量已发表的植物基因组和注释文件,基于生殖区域的序列特征和基因表达,实现高效、快速的定位生殖区域的目的,有效简化了繁冗的传统定位方法,促进研究人员对植物生殖的研究。
2、为达到以上目的,本发明采取的技术方案是:
3、一种基因组生殖区域定位方法,其特征在于,包括如下步骤:
4、步骤1,基因组重组抑制区域定位;
5、步骤2,生殖相关区域定位。
6、在上述方案的基础上,所述步骤1的具体步骤为:
7、步骤1-1,对比目标物种和该目标物种的近缘物种的基因组序列,计算所述目标物种和目标物种的近缘物种全基因序列的序列相似性及不同区间序列片段之间的序列相似性;检测上述每个区间序列片段的序列相似性与全基因组序列相似性之间的差值是否达到显著水平,保留序列相似性显著低于全基因组平均值的区间(p<0.05);
8、步骤1-2,对目标物种的基因组序列进行重复序列注释,提取位置信息,在步骤1-1过滤序列相似性结果的基础上,统计每个区间序列中的重复序列含量,检测上述每个区间序列片段中的重复序列含量与全基因组重复序列含量之间的差值是否达到显著水平,保留重复序列含量显著高于全基因组中重复序列含量的区间(p<0.05);
9、步骤1-3,将目标物种的基因注释文件格式化,保留必要位置信息;在步骤1-1过滤序列相似性和步骤1-2过滤重复序列密度的基础上,统计每个区间序列片段中的基因密度,检测上述每个区间序列片段中的基因密度与全基因组基因密度之间的差值是否达到显著水平,保留基因密度显著低于全基因组序列中的基因密度的区间(p<0.05),即得基因组重组抑制区域。
10、在上述方案的基础上,所述步骤2的具体步骤为:
11、步骤2-1,获取目标物种的花组织及其他组织的基因表达量,筛选只在花组织中有表达但在其他组织中不表达的基因,得到目标物种的生殖器官特异表达基因集;所述其他组织为目标物种的根组织、茎组织、叶组织、果实组织、卷须组织、幼苗组织和莲座组织;
12、在本步骤中,目标物种花组织及其他组织的基因表达量来源于公共数据库或者使用常规流程计算。计算基因表达量的常规流程主要包括2步,首先将原始测序数据比对到参考基因组上,获得比对后的bam文件,可使用生物信息分析软件hisat2和samtools完成,然后是利用bam文件和参考基因组的基因注释文件计算得到基因的表达量,可使用生物信息分析软件stringtie完成。
13、步骤2-2,统计步骤2-1获得的生殖器官特异表达基因集中各个基因在步骤1所得目标物种基因组各重组抑制区域的分布情况,选取包含上述生殖器官特异表达基因数量多及上述生殖器官特异表达基因占比高的区域,即得基因组上生殖相关区域。
14、本发明所述的基因组生殖区域定位方法,其有益效果为:
15、该方法利用大量已发表的植物基因组和注释文件,基于生殖区域的序列特征和基因表达,实现高效、快速的定位生殖区域的目的。该方法最快可在一天内得到目标物种候选的生殖区域,若目标物种的基因组非常复杂,也可通过拆分染色体的方式在几周内得到结果。该方法有效简化了繁冗的传统定位方法,促进研究人员对植物生殖的研究。
1.一种基因组生殖区域定位方法,其特征在于,包括如下步骤:
2.如权利要求1所述的一种基因组生殖区域定位方法,其特征在于:所述步骤1的具体步骤为:
3.如权利要求2所述的一种基因组生殖区域定位方法,其特征在于:所述步骤2的具体步骤为: