本发明涉及细胞分化轨迹分析,具体涉及一种单细胞分化轨迹推断方法。
背景技术:
1、细胞的分化是一个非常复杂的过程,通常是指同一来源的细胞逐渐产生出形态结构、功能特征各不相同的细胞类群的过程,其结果是在空间上细胞产生差异,在时间上同一细胞与其从前的状态有所不同。细胞分化的本质是基因组在时间和空间上的选择性表达,通过不同基因表达的开启或关闭,最终产生标志性蛋白质。一般情况下,细胞分化过程是不可逆的。
2、对细胞分化轨迹进行探究,可以帮助生物信息研究人员找到具有生物信息学意义的分群结果,揭示细胞间的异质性,并且获得新的生物学见解,如发现罕见的细胞类型等,细胞分化轨迹分析可用于多种细胞过程(包括分化,增殖和致癌转化)的单细胞基因表达动力学,促进生物学发展和医疗技术的进步。
技术实现思路
1、针对现有技术中的上述不足,本发明提供的一种单细胞分化轨迹推断方法可以准确快速地进行单细胞分化轨迹推断。
2、为了达到上述发明目的,本发明采用的技术方案为:
3、提供一种单细胞分化轨迹推断方法,其包括以下步骤:
4、s1、从scrna-seq数据中提取dna序列并将其转录为rna序列;从scatac-seq数据中提取dna序列;
5、s2、将转录得到的rna序列和从scatac-seq数据中提取得到的dna序列分别编码为独热编码矩阵,对应得到dna序列编码矩阵和rna序列编码矩阵;
6、s3、将dna序列编码矩阵和rna序列编码矩阵进行拼接,得到拼接矩阵;
7、s4、通过堆叠的卷积神经网络分别获取dna序列编码矩阵的特征、rna序列编码矩阵的特征,以及拼接矩阵的特征;
8、s5、将dna序列编码矩阵与其特征进行拼接,得到dna融合特征;将rna序列编码矩阵与其特征进行拼接,得到rna融合特征;
9、s6、通过门控网络将dna融合特征与拼接矩阵的特征进行融合,得到dna混合特征;通过门控网络将rna融合特征与拼接矩阵的特征进行融合,得到rna混合特征;
10、s7、将dna混合特征与dna序列编码矩阵进行残差连接,得到scatac-seq数据的序列嵌入;将rna混合特征与rna序列编码矩阵进行残差连接,得到scrna-seq数据的序列嵌入;
11、s8、将scatac-seq数据的序列嵌入作为门控网络中分类器的输入,获取染色质可及性预测概率值;将scrna-seq数据的序列嵌入作为门控网络中分类器的输入,获取基因表达状态的预测概率值;
12、s9、对门控网络中分类器的权重进行对比学习,并基于真实概率值和步骤s8得到的预测概率值,构建损失函数对门控网络进行训练,并将训练后的门控网络中分类器的权重中的向量作为scatac-seq数据和scrna-seq数据在门控网络训练过程中所使用的细胞的最终特征向量;
13、s10、对细胞的最终特征向量进行聚类,根据聚类结果获取单细胞的分化轨迹。
14、本发明的有益效果为:
15、1、本方法基于dna序列和rna序列进行建模,同时预测染色质可及性和基因表达状态,并整合成对的单细胞多组学数据,将分类器的权重作为两种组学的细胞低维特征,利用对比学习学习其中的细胞异质性,提高单细胞的聚类准确率,进而构建准确的单细胞的分化轨迹。
16、2、本方法采用轻量级深度学习模型,避免了当前众多基于编码解码器结构的单细胞数据融合模型训练困难的尴尬处境,还可以提高数据处理效率。
17、3、本方法考虑到细胞异质性对于单细胞多组学数据融合的影响,利用对比学习,能够更精准地刻画多组学数据中的单细胞特征,为准确聚类打下基础。
1.一种单细胞分化轨迹推断方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的单细胞分化轨迹推断方法,其特征在于,编码为独热编码矩阵的具体方法为:
3.根据权利要求1所述的单细胞分化轨迹推断方法,其特征在于,堆叠的卷积神经网络包括7层卷积结构,第一层卷积结构的计算表达式为:
4.根据权利要求1所述的单细胞分化轨迹推断方法,其特征在于,获取dna混合特征和rna混合特征的表达式为:
5.根据权利要求4所述的单细胞分化轨迹推断方法,其特征在于,获取scatac-seq数据的序列嵌入和scrna-seq数据的序列嵌入的表达式为:
6.根据权利要求5所述的单细胞分化轨迹推断方法,其特征在于,门控网络中分类器的表达式为:
7.根据权利要求6所述的单细胞分化轨迹推断方法,其特征在于,对门控网络进行训练的具体方法包括以下子步骤:
8.根据权利要求1所述的单细胞分化轨迹推断方法,其特征在于,根据聚类结果获取单细胞的分化轨迹的具体方法为: