本发明属于信息处理,更进一步涉及生物信息数据处理中的一种基于图表示学习的细胞-染色质交互共嵌入方法。本发明可用于三维基因组的细胞嵌入和特异染色质交互识别。
背景技术:
::1、核基因组包含了定义细胞、组织和生物体表型所需的大部分遗传信息,它们在三维空间中被复杂地组织起来,这种三维基因组结构对于dna转录、基因表达和基因组功能至关重要。随着全基因组染色质相互作用测序方法的发展,以high-throughput chromosomeconformation capture(hi-c)为代表的高通量方法可以准确得到高分辨率的三维基因组图谱,揭示了染色质在不同尺度上的生物结构。细胞嵌入是将单个细胞映射到低维向量空间的技术,旨在捕捉细胞之间的相似性和差异性。细胞嵌入在单细胞研究中被广泛应用,具有以下几个重要的应用和优势:数据可视化、细胞聚类、子类发现。不同细胞类型和不同发育时间的细胞具有差异的染色质交互,这可能与基因表达、转录活动有关,将细胞和染色质交互共同嵌入到一个特征空间有重要意义。2、zhou等人在其发表的论文“robust single-cell hi-c clustering byconvolution-and random-walk–based imputation”(proceedings of the nationalacademy of sciences.2019may20;116(28):14011-14018.)中提出了一种利用带重启的随机游走进行细胞补全和嵌入的方法。该方法的实现步骤是,对hi-c交互图谱先做平滑卷积,再使用带重启的随机游走计算bin之间的相似度作为交互强度,保留最大的前20%的交互强度。然后将特征展平为一维向量,对整个数据集做principal component analysis(pca)降维,得到最终的细胞嵌入。该方法存在两点不足之处在于,其一,数据补全步骤需要巨量的运行时间,在大规模数据集上难以应用;其二,细胞嵌入依赖pca降维,不能直接刻画细胞间的关系。3、zhang等人在其发表的论文“ultrafast and interpretable single-cell 3dgenome analysis with fast-higashi”(cell systems.2022oct 19;13(10):798-807.)中提出了一种利用张量分解和带重启的部分随机游走进行细胞嵌入和元交互识别的方法。该方法的实现步骤是,将来自不同染色体的单细胞hi-c图谱表示为多个三维张量。然后利用推广张量分解模型core-parafac2,同时对这些仅共享一个维度的三维张量进行建模。分解出来的其中一个矩阵被当作细胞嵌入向量矩阵,另一个矩阵作为其识别的元交互。同时使用部分随机游走对稀疏的单细胞hi-c图谱进行补全,提高模型的性能。该方法存在两点不足之处在于,其一,虽然使用了部分随机游走以减少单次训练的数据量,但是仍然需要分析完整的hi-c图谱;其二,提取的元交互以细胞类型为单位,不能精确到单个细胞,难以分析单细胞之间的异质性。4、综上所述,以上两种方法由于设计结构和张量分解模型的限制,均不能识别细胞特异性的染色质交互。并且由于这些方法均需要分析所有三维基因组中的数据,其运行时间在高分辨率的情况下较长。技术实现思路1、本发明的目的是针对上述现有技术的不足,提供一种基于单细胞三维基因组数据的细胞-染色质交互共嵌入方法。用于解决现有方法不能识别细胞特异性染色质交互和大规模数据集上运行时间较长的问题。2、实现本发明目的的思路是:本发明通过使用z-score标准化和基于邻居的染色质交互过滤来提取共有显著染色质交互。由于细胞中的大多数染色质交互都不具有生物意义,提取的共有显著染色质交互更能体现细胞间的异质性,并且可以使用更少的数据量表示一个细胞的特征,由此大大减少了细胞-染色质交互共嵌入方法运行需要的时间。本发明通过构建异质图和设计异质图自编码器网络,学习重构邻接矩阵,得到异质图中每个节点的低维表示,使得不同状态的细胞具有可区分的特征,并且正确建模细胞与染色质交互的关系。由此解决了现有方法不能识别细胞特异性染色质交互的问题。本发明使用softmax转换从而可以直观地识别细胞特异性的染色质交互。3、实现本发明目的的技术方案如下:4、步骤1,对单细胞三维基因组数据依次进行预处理、标准化;5、步骤2,从标准化后的数据中提取细胞间共有显著染色质交互;6、步骤3,构建包含细胞-染色质交互的异质图;7、步骤4,训练异质图自编码器网络;8、步骤5,将异质图及其节点属性输入到训练好的异质图自编码器网络中,得到细胞节点和染色质交互节点的共嵌入向量;9、步骤6,对异质图中的染色质交互节点嵌入做softmax转换。10、本发明与现有技术相比,具有如下优点:11、第一,本发明通过提取细胞间的共有显著染色质交互,挖掘底层生物特征,使用更少的数据量作为细胞表示。克服现有技术需要分析完整hi-c图谱的不足,使得本发明具有运行时间快,可以应用在大规模数据集上的优点。12、第二,本发明通过异质图自编码器网络,训练节点在低维特征空间上的嵌入,正确建模单个细胞与染色质交互的关系,克服现有技术只能识别细胞类型的元交互的不足,使得本发明具有可以识别单细胞特异性染色质交互的优点。技术特征:1.一种基于图表示学习的细胞-染色质交互共嵌入方法,其特征在于,提取细胞间的共有显著染色质交互,通过异质图自编码器网络得到节点在低维空间的共嵌入表示,该嵌入方法的步骤如下:2.根据权利要求1所述的基于图表示学习的细胞-染色质交互共嵌入方法,其特征在于,步骤1中所述预处理的步骤如下:3.根据权利要求1所述的基于图表示学习的细胞-染色质交互共嵌入方法,其特征在于,步骤1中所述标准化的步骤如下:4.根据权利要求1所述的基于图表示学习的细胞-染色质交互共嵌入方法,其特征在于,步骤2中所述从标准化后的数据中提取细胞间共有显著染色质交互的步骤如下:5.根据权利要求4所述的基于图表示学习的细胞-染色质交互共嵌入方法,其特征在于,步骤3中所述构建包含细胞-染色质交互的异质图的步骤如下:6.根据权利要求5所述的基于图表示学习的细胞-染色质交互共嵌入方法,其特征在于,所述在细胞节点和染色质交互节点之间做属性传播是由下式实现的:7.根据权利要求1所述的基于图表示学习的细胞-染色质交互共嵌入方法,其特征在于,步骤4中所述异质图自编码器网络的结构依次由第一图卷积模块、第二图卷积模块、线性层串联组成;将线性层的输入维度、输出维度分别设置为128、64;所述第一、第二图卷积模块的结构相同,均由异质图卷积层、线性层、激活层依次串联组成;将第一、第二图卷积模块中的图卷积层的输出维度分别设置为256、128,线性层的输入维度和输出维度分别设置为256*256、128*128,激活层使用leakyrelu函数实现。8.根据权利要求1所述的基于图表示学习的细胞-染色质交互共嵌入方法,其特征在于,步骤4中所述训练异质图自编码器网络的步骤如下:9.根据权利要求8所述的基于图表示学习的细胞-染色质交互共嵌入方法,其特征在于,所述二元交叉熵损失函数如下:10.根据权利要求1所述的基于图表示学习的细胞-染色质交互共嵌入方法,其特征在于,步骤6中所述对异质图中的染色质交互节点嵌入做softmax转换的步骤如下:技术总结本发明公开了一种基于图表示学习的细胞‑染色质交互共嵌入方法,解决现有技术不能识别细胞特异性的染色质交互,以及运行时间在高分辨率的情况下较长的问题。本发明提取细胞间共有显著染色质交互,构建包含细胞‑染色质交互的异质图,利用训练好的异质图自编码器网络对节点进行嵌入,对染色质交互节点嵌入做Softmax转换。本发明通过提取细胞间的共有显著染色质交互,挖掘底层生物特征,使用更少的数据量作为细胞表示,加快模型运行速度。通过异质图自编码器网络,训练节点在低维特征空间上的嵌入,正确建模细胞与染色质交互的关系,识别细胞特异性的染色质交互。技术研发人员:高琳,孙铭徽,叶育森受保护的技术使用者:西安电子科技大学技术研发日:技术公布日:2024/10/24
转载请注明原文地址:https://symbian.8miu.com/read-24159.html