本文所描述的主题涉及生物信息学,且更具体地说,涉及用于实施生物信息协议的系统、设备和方法,例如在例如硬件处理平台的集成电路上执行用于分析基因组数据的一个或多个功能。
背景技术:
1、如本文中详细描述,高处理量dna定序分析的一些主要计算挑战是解决可用基因组数据的放量增长、当搜集数据时增加准确性和灵敏度的需要,以及当对从此类基因组数据导出的广泛范围的定序数据集执行分析时的快速、高效且准确的计算工具的需要。
2、与下一代定序器产生的此类增加的定序处理量保持同步通常表现为多线程软件工具,它们已经在具有昂贵高可用性存储的计算机集群中的越来越大数量的更快处理器上执行,这需要大量的功率和显著的it支持成本。重要的是,未来的定序处理量速率的增加将转换为加速这些二级处理解决方案的实际美元成本。
3、至少部分地提供本文所描述的其使用的装置、系统和方法,以便解决这些和其它此类挑战。
技术实现思路
1、本公开是针对在对通过一级处理过程产生的数据,例如对基因序列数据执行一个或多个基因组学和/或生物信息学协议中的装置、系统和其使用方法。举例来说,在各种方面中,本文提供的装置、系统和方法被配置成用于对基因数据执行二级和/或三级分析协议,所述基因数据诸如例如由下一代定序器(“next gen sequencer,ngs”)进行的rna和/或dna的定序产生的数据。在特定实施例中,提供用于处理基因序列数据的一个或多个二级和/或三级处理管线。具体地,提供用于处理基因序列数据的一个或多个三级处理管线,例如其中所述管线和/或其个别元件在序列导出数据的较宽范围上提供比现有技术中当前可用的情形更优良的灵敏度和改进的准确性。
2、举例来说,本文提供例如用于对基因序列数据和/或从其导出的其它数据执行序列和/或基因组分析管线中的一个或多个的系统。在各种实施例中,系统可以包含一个或多个电子数据源,其提供表示多个基因和/或基因组数据读段的数字信号,例如其中所述多个基因组数据读段中的每一个包含核苷酸序列。系统还可以包含存储器,例如dram或高速缓冲存储器,例如用于存储已定序读段中的一个或多个、一个或多个基因参考序列以及所述一个或多个基因参考序列的一个或多个索引。系统可以另外包含一个或多个集成电路,例如fpga、asic或sasic,和/或cpu和/或gpu和/或量子处理单元(qpu),所述集成电路例如关于fpga、asic或sasic可以由一组硬接线数字逻辑电路形成,所述硬接线数字逻辑电路由多个物理电互连件互连。系统可以另外包含量子计算处理单元,用于实施本文公开的方法中的一个或多个。
3、在各种实施例中,所述多个电互连件中的一个或多个可以包含对一个或多个集成电路的输入,所述集成电路可以例如经由合适的有线连接直接地或者例如经由无线网络连接(举例来说,云或混合云)间接地与电子数据源连接或是可与其连接的。无论与定序器的连接如何,本公开的集成电路都可以被配置成用于例如直接从定序器或从相关联存储器接收所述多个基因组数据读段。读段可以标准fastq或bcl文件格式以数字方式编码。因此,系统可以包含具有一个或多个电互连件的集成电路,所述电互连件可以是包含存储器接口的物理互连件以便允许集成电路存取存储器。
4、具体来说,集成电路的硬接线数字逻辑电路可以被布置成一组处理引擎,例如其中每一处理引擎可以由硬接线数字逻辑电路的子集形成以便对所述多个基因数据读段以及对从其导出的其它数据执行如下文所述的序列、基因组和/或三级分析管线中的一个或多个步骤。举例来说,硬接线数字逻辑电路的每一子集可以成有线配置以执行分析管线中的一个或多个步骤。另外,在集成电路是fpga的情况下,序列中的此类步骤和/或另外的分析过程可以涉及在分析过程期间的fpga的部分重新配置。
5、具体来说,所述组处理引擎可以包含例如成有线配置的映射模块,其用以根据所述多个读段中的读段中的核苷酸序列的至少某些来经由存储器接口从存储器存取所述一个或多个基因参考序列的索引,以便基于所述索引将所述读段映射到所述一个或多个基因参考序列的一个或多个片段。另外,所述组处理引擎可以包含成有线配置的对准模块,其用以经由存储器接口从存储器存取所述一个或多个基因参考序列,以将读段(例如,映射读段)对准到例如从映射模块接收和/或存储于存储器中的所述一个或多个基因参考序列的所述一个或多个片段中的一个或多个位置。
6、此外,所述组处理引擎可以包含分选模块,以便根据所述一个或多个基因参考序列中的所述一个或多个位置分选每一对准的读段。此外,所述组处理引擎可以包含变异体调用模块,例如用于例如关于参考基因组处理映射、对准和/或分选的读段,以进而产生用于与定序基因数据与参考基因组参考数据之间的变异一起使用和/或详述所述变异的hmm读出和/或变异体调用文件。在各种实例中,所述多个物理电互连件中的一个或多个可以包含来自集成电路的输出,用于传送来自映射模块和/或对准和/或分选和/或变异体调用模块的结果数据。
7、具体来说,相对于映射模块,在各种实施例中,提供用于使用基因参考数据的索引对多个基因数据读段执行映射分析管线的系统。在各种实例中,基因序列(例如,读段)和/或基因参考数据可以由可以存储于系统的存储器中的核苷酸序列表示。映射模块可以包含于集成电路内且可以由一组预配置和/或硬接线数字逻辑电路形成,所述数字逻辑电路由多个物理电互连件互连,所述物理电互连件可以包含用于允许集成电路存取存储器的存储器接口。在更特定的实施例中,硬接线数字逻辑电路可以被布置成一组处理引擎,例如其中每一处理引擎由硬接线数字逻辑电路的子集形成以对所述多个基因组数据读段执行序列分析管线中的一个或多个步骤。
8、举例来说,在一个实施例中,所述组处理引擎可以包含成硬接线配置的映射模块,其中所述映射模块和/或其一个或多个处理引擎被配置成用于例如经由多个物理电互连件中的一个或多个接收基因组数据读段,且用于以一方式提取读段的一部分以便从其产生种子。在此实例中,读段可以由核苷酸序列表示,且种子可以表示由所述读段表示的核苷酸序列的子集。映射模块可以包含或可连接到存储器,所述存储器包含所述读段中的一个或多个、所述读段的种子中的一个或多个、参考基因组中的一个或多个的至少一部分,和/或一个或多个索引,此索引是从所述一个或多个参考基因组建立。在某些实例中,映射模块的处理引擎采用种子和索引来基于种子计算索引内的地址。
9、一旦已计算或另外导出和/或例如在板载或板外存储器中存储地址,就可以存取存储器中的索引中的所述地址以便从所述地址接收记录,例如表示基因参考序列中的位置信息的记录。此位置信息可以随后用以基于所述记录确定从读段到基因参考序列的一个或多个匹配位置。随后可以将匹配位置中的至少一个经由存储器接口输出到存储器。
10、在另一实施例中,一组处理引擎可以包含例如成预配置和/或硬接线配置的对准模块。在此实例中,处理引擎中的一个或多个可以被配置成经由所述多个物理电互连件中的一个或多个接收用于读段数据的映射位置中的一个或多个。随后可以针对每一映射位置存取存储器(内部或外部)以检索对应于映射位置的参考序列/基因组的片段。可以计算读段到每一检索的参考片段的对准以及所述对准的评分。一旦计算,就可以选择和输出读段的至少一个最佳评分对准。在各种实例中,对准模块还可以当计算对准时实施动态编程算法,例如,例如具有线性或仿射间隙评分的smith-waterman算法、有间隙对准算法和/或无间隙对准算法中的一个或多个。在特定实例中,对准的计算可以包含首先执行到每一参考片段的无间隙对准,且基于无间隙对准结果,选择用以进一步执行有间隙的对准的参考片段。
11、在各种实施例中,可以提供变异体调用模块用于执行改进的变异体调用功能,所述功能当以软件和/或硬件配置中的一个或两个实施时产生比目前本领域中已知的方法、装置和系统更优良的处理速度、更好的处理结果准确性和增强的总效率。具体地,在一个方面中,提供用于以软件和/或硬件执行变异体调用操作的改进的方法,例如用于对基因序列数据执行一个或多个hmm操作。在另一方面中,提供包含用于执行此类改进的变异体调用操作的集成电路的新型装置,其中变异体调用操作的至少一部分是以硬件实施。
12、因此,在各种实例中,本文公开的方法可以包含通过硬接线和/或量子数字逻辑电路的第一子集将多个读段映射到一个或多个基因参考序列的一个或多个片段。另外,所述方法可以包含通过集成和/或量子电路,例如通过所述多个物理电互连件中的一个或多个从存储器或与其相关联的高速缓冲存储器存取映射读段中的一个或多个和/或基因参考序列中的一个或多个;以及通过硬接线和/或量子数字逻辑电路的第二子集将所述多个映射读段对准到所述一个或多个基因参考序列的所述一个或多个片段。
13、在各种实施例中,所述方法可以另外包含通过集成和/或量子电路,例如通过所述多个物理电互连件中的一个或多个从存储器或与其相关联的高速缓冲存储器存取对准的多个读段。在此实例中,所述方法可以包含通过硬接线和/或量子数字逻辑电路的第三子集根据对准的多个读段在所述一个或多个基因参考序列中的位置来分选所述对准的多个读段。在某些实例中,所述方法还可以包含例如通过集成和/或量子电路的所述多个物理电互连件中的一个或多个输出来自映射和/或对准和/或分选的结果数据,例如其中所述结果数据包含映射和/或对准和/或分选的多个读段的位置。
14、在一些实例中,所述方法可以另外包含例如通过硬接线和/或量子数字逻辑电路的又一子集使用获得的结果数据,以用于确定从受试者的定序遗传样本导出的映射、对准和/或分选数据如何不同于参考序列,以便产生描绘所述两个样本之间的基因差异的变异体调用文件。因此,在各种实施例中,所述方法还可以包含通过集成和/或量子电路,例如通过所述多个物理电互连件中的一个或多个从存储器或与其相关联的高速缓冲存储器存取映射和/或对准和/或分选的多个读段。在此实例中,所述方法可以包含通过硬接线和/或量子数字逻辑电路的第三或第四子集对存取的读段执行变异体调用功能,例如hmm或配对hmm操作,以便产生详述映射、对准和/或分选的读段如何不同于一个或多个参考(例如,单倍型)序列的变异体调用文件。
15、因此,根据本公开的特定方面,本文提出紧凑的硬件(例如,基于芯片)或量子加速平台,其用于对基因和/或基因组定序数据执行二级和/或三级分析。具体来说,提供硬接线和/或量子数字逻辑电路的平台或管线,其已经具体来说被设计成用于例如对定序基因数据或从其导出的基因组数据执行二级和/或三级基因分析。具体来说,可以提供可以被布置成一组处理引擎的一组硬接线数字和/或量子逻辑电路,例如其中所述处理引擎可以预配置和/或硬接线和/或量子配置存在于本公开的处理平台上,且可以专门设计用于对dna和/或rna数据执行与基因分析有关的二级映射和/或对准和/或变异体调用操作,和/或可以专门设计用于对结果数据执行其它三级处理。
16、在特定实例中,在执行一个或多个基因组学和/或生物信息学二级和/或三级处理协议中的本装置、系统和其使用方法已经优化以便提供与以软件实施的标准二级处理管线相比快若干数量级的处理速度改进。另外,如本文阐述的管线和/或其组件在序列导出数据集的广泛范围上提供更好的灵敏度和准确性以用于基因组学和生物信息学处理的目的。在各种实例中,这些操作中的一个或多个可以由集成电路执行,所述集成电路是通用中央处理单元和/或图形处理单元和/或量子处理单元的部分或者被配置为通用中央处理单元和/或图形处理单元和/或量子处理单元。
17、举例来说,基因组学和生物信息学是涉及信息技术和计算机科学对遗传和/或分子生物学领域的应用的领域。确切地说,生物信息学技术可应用于处理和分析例如来自个体的各种基因和/或基因组数据,以便确定关于所述数据的定性和定量信息,所述信息可随后由各种从业者用于开发防治性、治疗和/或诊断方法,以用于防止、处理、改善和/或至少识别患病状态和/或其可能,且因此,在个别化层级上改进医疗保健的安全、质量和有效性。因此,由于其集中于推进个人化医疗保健,基因组学和生物信息学领域促进主动的而不是反应性的个别化医疗保健,且这给予需要治疗的受试者更多参与其自身健康的机会。采用本文公开的遗传、基因组学和/或生物信息学技术的优点是,可以在样本集合的较宽范围上以高得多速率且时常更准确地执行分子生物(例如,基因)数据的定性和/或定量分析,因此加快个人化医疗保健系统的出现。具体来说,在各种实施例中,基因组学和/或生物信息学相关任务可以形成基因组学管线,其包含以下一个或多个:微阵列分析管线,基因组(例如,全基因组)分析管线,基因分型分析管线,外显子组分析管线,表观基因组分析管线,宏基因组分析管线,微生物群落分析管线,包含联合基因分型的基因分型分析管线,包含结构变异体、体细胞变异体和gatk的变异体分析管线,以及rna定序和其它基因分析管线。
18、因此,为了利用这些优点,存在增强的且更准确的软件实施方案用于执行一个或一系列此类基于生物信息学的分析技术,例如用于通过通用cpu和/或gpu的部署和/或可以在量子处理平台的一个或多个量子电路中实施。然而,传统配置的基于软件的生物信息学方法和系统的共同特性是它们是劳动密集的,花费长时间在此类通用处理器上执行,且容易出错。因此,如本文实施的可以执行这些算法的生物信息学系统,例如由量子处理单元的cpu和/或gpu以较少劳动和/或处理较不密集的方式以较大百分比准确性用软件实施,将是有用的。
19、已经开发且在本文提出此类实施方案,例如其中基因组学和/或生物信息学分析是由在系统中的cpu和/或gpu和/或量子计算机上运行的优化软件执行,所述系统利用由本公开的处理单元和/或集成电路导出的基因序列数据。此外,应注意,分析、存储和共享此原始数字数据的成本已经远超过其产生的成本。因此,本文还提出“及时系统”存储和/或检索方法,其以用重新产生数据的速度来交换共同存储此类数据的成本的方式优化此类数据的存储。因此,本文提出的数据产生、分析和“及时系统”或“jit”存储方法解决了作为一直增长的原始数据产生和存储与从其搜寻真实医疗洞察之间长期存在但未能满足的障碍的关键瓶颈。
20、因此,本文提出用于实施基因组学和/或生物信息学协议或其部分的系统、设备和方法,例如用于例如在例如在硬件处理平台上的集成电路和通用处理器中的一个或两个上执行用于分析基因组数据的一个或多个功能,例如用于以软件和/或固件执行一个或多个生物分析操作。举例来说,如本文在下文阐述,在各种实施方案中,提供集成电路和/或量子电路以便加速一级、二级和/或三级处理平台中的一个或多个过程。在各种实例中,集成电路可以用于以加速方式执行基因分析相关任务,例如映射、对准、变异体调用、压缩、解压缩及类似任务,并且因此,集成电路可以包含硬件加速配置。另外,在各种实例中,可以提供集成和/或量子电路,例如其中所述电路是处理单元的部分,所述处理单元被配置成用于对产生的映射和/或对准和/或变异体调用数据执行一个或多个基因组学和/或生物信息学协议。
21、具体来说,在第一实施例中,第一集成电路可以由耦合到或另外附接到主板且被配置的fpga、asic和/或sasic形成,或在fpga的情况下可以通过固件可编程以被配置为适于执行基因组学分析管线中的至少第一组序列分析功能的一组硬接线数字逻辑电路,例如其中所述集成电路如本文中以上所描述被配置成包含被布置成一组处理引擎的一个或多个数字逻辑电路,所述处理引擎适于对基因数据执行映射、对准和/或变异体调用操作中的一个或多个步骤以便产生序列分析结果数据。所述第一集成电路还可以包含例如由多个物理电互连件形成的输出,例如用于将来自映射和/或对准和/或其它过程的结果数据传送到存储器。
22、另外,可以包含第二集成和/或量子电路,其耦合到或另外附接到主板,且经由通信接口与存储器通信。所述第二集成和/或量子电路可以形成为中央处理单元(cpu)或图形处理单元(gpu)或量子处理单元(qpu),其被配置成用于接收映射和/或对准和/或变异体调用的序列分析结果数据,且可以适于响应于一个或多个软件算法,所述软件算法被配置成指示cpu或gpu对映射、对准和/或变异体调用的序列分析结果数据执行基因组分析管线的一个或多个基因组学和/或生物信息学功能。具体地,基因组学和/或生物信息学相关任务可以形成基因组学分析管线,其包含以下一个或多个:微阵列分析,基因组管线,例如全基因组分析管线,基因分型分析管线,外显子组分析管线,表观基因组分析管线,宏基因组分析管线,微生物群落分析管线,包含联合基因分型的基因分型分析管线,包含结构变异体、体细胞变异体和gatk的变异体分析管线,以及rna定序分析管线和其它基因分析管线。
23、举例来说,在一个实施例中,第二集成电路的cpu和/或gpu和/或qpu可以包含被配置成用于布置用于执行全基因组分析管线的基因组分析管线的软件,例如包含以下一个或多个的全基因组分析管线:基因组范围的变异分析、全外显子组dna分析、全转录物组rna分析、基因功能分析、蛋白质功能分析、蛋白质结合分析、定量基因分析,和/或基因组装分析。在某些实例中,可以执行全基因组分析管线以用于以下一个或多个目的:祖先分析、个人病史分析、疾病诊断、药物发现,和/或蛋白质图谱分析。在特定实例中,执行全基因组分析管线以用于肿瘤学分析的目的。在各种实例中,可以在整个系统中例如全局地使此数据的结果可用。
24、在各种实例中,第二集成和/或量子电路的cpu和/或gpu和/或量子处理单元(qpu)可以包含被配置成用于布置用于执行基因分型分析的基因组分析管线的软件,例如包含联合基因分型的基因分型分析。举例来说,可以使用贝叶斯概率计算执行联合基因分型分析,例如得到给定确定的基因型是真实基因型的绝对概率的贝叶斯概率计算。在其它实例中,软件可以被配置成用于执行宏基因组分析以便产生宏基因组结果数据,所述结果数据又可以用于执行微生物群落分析。
25、在某些实例中,第一和/或第二集成电路和/或存储器可以容纳在扩展卡上,所述扩展卡例如外围组件互连(peripheral component interconnect,pci)卡。举例来说,在各种实施例中,集成电路中的一个或多个可以是耦合到pcie卡或另外与主板相关联的一个或多个芯片。在各种实例中,集成和/或量子电路和/或芯片可以是定序器或计算机或服务器内的组件,例如服务器集群的部分。在特定实施例中,集成和/或量子电路和/或扩展卡和/或计算机和/或服务器可以经由因特网(例如,云)访问。
26、此外,在一些实例中,存储器可以是易失性随机存取存储器(ram),例如直接存取存储器(dram)。具体来说,在各种实施例中,存储器可以包含至少两个存储器,例如,例如用于存储参考单倍型序列数据的作为hmem的第一存储器,以及例如用于存储基因组序列数据的读段的作为rmem的第二存储器。在特定实例中,所述两个存储器中的每一个可以包含写入端口和/或读取端口,例如其中所述写入端口和读取端口各自访问单独的时钟。另外,所述两个存储器中的每一个可以包含用于存储大量基因序列和/或处理结果数据的触发器配置。
27、在附图和以下描述中阐述了本文所描述的主题的一个或多个变化的细节。本文所描述的主题的其它特征和优点从所述描述和附图以及从权利要求书将显而易见。虽然出于说明性目的关于企业资源软件系统或其它商业软件解决方案或架构来描述当前所公开主题的某些特征,但应当容易理解此类特征并不希望是限制性的。本公开所附的权利要求书旨在限定受保护主题的范围。
1.一种用于提高受试者核酸序列的核酸序列分析的准确性的方法,所述方法包括:
2.根据权利要求1所述的方法,所述方法还包括:
3.根据权利要求1所述的方法,其中所述多个参考序列包括(i)标准参考序列和(ii)一个或多于一个替代参考序列。
4.根据权利要求1所述的方法,其中所述多个参考序列包括(i)具有第一祖先的第一参考序列和(ii)具有不同于所述第一祖先的第二祖先的第二参考序列。
5.根据权利要求1所述的方法,其中所述核酸序列读段包括表示所述受试者的部分dna的数据,包括至少一百万个核苷酸。
6.根据权利要求1所述的方法,其中各个核酸序列读段包括表示所述受试者的部分dna的数据,包括多个核苷酸。
7.根据权利要求1所述的方法,其中所述二级分析操作包括映射操作、对准操作或变异体调用操作。
8.一种用于提高受试者核酸序列的核酸序列分析的准确性的系统,所述系统包括:
9.根据权利要求8所述的系统,所述操作还包括:
10.根据权利要求8所述的系统,其中所述多个参考序列包括(i)标准参考序列和(ii)一个或多于一个替代参考序列。
11.根据权利要求8所述的系统,其中所述多个参考序列包括(i)具有第一祖先的第一参考序列和(ii)具有不同于所述第一祖先的第二祖先的第二参考序列。
12.根据权利要求8所述的系统,其中所述核酸序列读段包括表示所述受试者的部分dna的数据,包括至少一百万个核苷酸。
13.根据权利要求8所述的系统,其中各个核酸序列读段包括表示所述受试者的部分dna的数据,包括多个核苷酸。
14.根据权利要求8所述的系统,其中所述二级分析操作包括映射操作、对准操作或变异体调用操作。