一种基于ResNet网络的卤代化合物高效识别方法

    技术2025-09-14  25


    本发明属于天然产物,具体地说,涉及一种基于resnet网络的卤代化合物高效识别方法。


    背景技术:

    1、含卤素活性分子是创新药物研发的优势结构类群,在药物研发层面,卤代小分子化合物因其特殊的理化性质和更强的靶点亲和性而备受关注,被认为是具有显著成药优势的结构类群。在过去的二十年里,卤素在药物研发领域引起了广泛关注。据统计,目前广泛应用于临床治疗的小分子药物中,卤代药物占比28%左右。在全球最畅销的100种药品中,近13%药物的最终活性成分是经过氯代或溴代的,这一极高的比例突显了卤代分子在药物研发中的重要性。同时卤素被广泛应用于靶点优化、先导化合物以及候选药物中,旨在增强药物与靶点的结合亲和力,卤素的加入常常可以显著提高化合物的生物活性,活性改善幅度可达到2到100000倍不等,并能对药代动力学参数产生深远影响(参见文献:chiodi d,ishihara y.“magic chloro”:profound effects of the chlorine atom in drugdiscovery[j].journal of medicinal chemistry,2023,66(8):5305-5331.)。

    2、人工智能是解决海洋卤代化合物发现“偶然性”瓶颈问题的革新策略。目前想要从复杂的粗提物定位到卤代化合物的特征谱学信息,传统的分析方法存在人工分析数据量过大、分析时间过长以及分析效率低下等弊端,更加难以应对当前日益增长的数据量。因此,如何从海洋生物粗提物复杂的谱学数据中快速抽提和定位到卤代分子,依旧是一项亟待解决的关键科学问题。基于机器学习的人工智能(artificial intelligence,ai)技术在高通量大数据处理方面具有天然优势,可以以已知卤代分子特征谱学作为训练集数据,进行多维度特征和规律的自主学习,进而对目标数据库(例如粗提物的完整光谱数据)进行预测和降维分析,不但可以快速提高分析效率,还能够挖掘出超越已有认识的新知识。因此,将人工智能引入对特征谱学的寻找、定位、分析,精准锁定含有卤代化合物的提取物,将为卤代化合物的精准发现带来“革新性”策略。kong等人在自动质谱/质谱(质谱/质谱)数据挖掘策略方面取得了重要进展,他们借助深度学习中的前馈神经网络(fbmn),创建了一个名为lindenaneextractor的程序,该程序基于乌药烷型倍半萜(lps)的特征二级质谱图为数据集,旨在识别从植物提取物中提取lps的特征数据成分,该结果表明了深度学习在质谱图预测的可行性。

    3、虽然人工智能技术在天然产物领域应用广泛,但是目前还没有专门针对卤代化合物“指向性”发现的人工智能ai方法。


    技术实现思路

    1、本发明的目的是提供一种基于resnet网络的卤代化合物高效识别方法,可以解决天然产物领域内对卤代化合物识别的技术问题。

    2、为了实现上述目的,本发明采用的技术方案如下:

    3、本发明的第一方面,提供了一种基于resnet网络的卤代化合物高效识别方法,包括以下步骤:

    4、第一步、建立包含卤代化合物的质谱图像数据集,将质谱图像数据集分为训练集和验证集;

    5、所述第一步包括以下两个步骤:

    6、(1)建立含卤代化合物的质谱图像数据集,并对采集的图像进行图像增强处理;

    7、(2)将增强后的图像调整为统一大小尺寸,分为训练集和验证集;

    8、第二步,搭建基于resnet18的卷积神经网络,并对resnet18网络按照预设方式进行改进,获得改进的resnet18网络模型;

    9、第三步、基于第一步构建的训练集对第二步获得的改进的resnet18网络模型进行训练,获得训练后的改进的resnet18网络模型;

    10、第四步、将待检测卤代化合物的质谱图输入第三步获得的训练后的改进的resnet18网络模型中,得到预测结果。

    11、所述(1)包括以下步骤:

    12、从mestrenova软件中模拟出含一个cl原子化合物的质谱图、含一个br原子化合物的质谱图和既不含cl原子化合物的质谱图也不含br原子化合物的质谱图,从naturalproduct reports期刊中查找含一个cl原子化合物的质谱图、含一个br原子化合物的质谱图组成数据集,对数据集进行图像增强处理。

    13、所述图像增强处理方法:以0.5的概率随机水平翻转图像,随机调整图像的亮度、饱和度和色调,从而实现对数据集进行图像增强处理。

    14、所述卤代化合物是一类含有卤素(cl、br、i或f原子)的有机化合物。

    15、所述(2)包括以下步骤:

    16、对增强后的图像进行均一化处理,将图片分辨率统一调整为224×224,并将图像格式从h×w×c调整为c×h×w,构建成数据集;将数据集分为训练集和验证集,比例为8:2。

    17、所述数据集中,将含有br原子化合物的质谱图标记为0,含有cl原子化合物的质谱图标记为1,既不含cl原子化合物又不含br原子化合物的质谱图标记为2。

    18、所述搭建基于resnet18的卷积神经网络是在intel(r)core(tm)i9-10900f cpu@2.80ghz,显卡为nvidia geforce gtx 1660super,系统为windows 10专业版的电脑上,软件为pycharm,编程语言为python 3.8.17,训练框架为pytorch 1.12.0,虚拟环境名为pytorch下进行搭建。

    19、所述对resnet18网络按照预设方式进行改进包括:采用迁移学习的方法(迁移学习是一种在已有模型基础上进行训练的方法。通过使用预训练模型(本实验中使用resnet18),利用在大型数据集上已学习到的特征,将其迁移到新的任务中。在实验中将原模型输出维度从1000改为3,从而适应本实验的任务。),修改模型的全连接层(本实验是三分类,需要对网络的最后一层进行修改,以适应三分类问题,具体来说,resnet18原始网络中,最后一层全连接层的输出维度是1000。需要将这层的输出维度改为3,以适应本实验。如下面这段代码所示,self.b6=nn.sequential(nn.adaptiveavgpool2d((1,1)),nn.flatten(),nn.linear(512,3))),使其适应该模型;

    20、在resnet18网络中添加注意力模块se(squeeze-and-excitation,se),通过实验发现在网络的第一层卷积和最后一层卷积之后添加se模块效果最好,同时对传统的残差网络顺序进行调整(传统的残差网络结构组成顺序是按照卷积层、批标准化层、激活函数进行连接),在残差结构中的卷积层前面增加批标准化和激活函数(在res_a1、res_b1、res_a2、res_b2、res_a3、res_b3、res_a4、res_b4),在加快学习收敛速度的同时也使梯度增大;在确定了se模块和残差结构的顺序(本发明的残差结构顺序:按照批标准化和激活函数层、深度可分离卷积层、批标准化层、激活函数层、深度可分离卷积进行连接)后,又将残差结构中的传统卷积替换为深度可分离卷积(深度可分离卷积主要体现在两个方面:参数效率和模型性能。相比于传统卷积,深度可分离卷积操作分解为深度卷积和逐点卷积两个步骤,有效的减少了参数数量和计算量,同时保持了模型的性能。),深度可分离卷积分为深度卷积和逐点卷积,在确定以上参数后,经过实验发现,验证集准确率达到了99.3%;其中输出层(softmax)经过自适应池化层(adaptiveavgpool)后的输出大小为512×1×1,然后经过一个全连接层(全连接层是fc),输出类别为3。

    21、所述改进的resnet18网络模型的结构依次包括:

    22、convolution层:输入通道为64,卷积核大小为3×3,步幅为1,填充为1;输出通道为64;

    23、maxpool层:输入通道为64,步幅为2,填充为0;输出通道为64;

    24、res_a1层:包含两个深度可分离卷积层;第一个卷积层的输入通道数为64,输出通道数为64,卷积核大小为3×3,步幅为1,填充为1;第二个卷积层的输入通道数为64,输出通道数为64,卷积核大小为3×3,步幅为1,填充为1;

    25、res_b1层:包含两个深度可分离卷积层;第一个卷积层的输入通道数为64,输出通道数为64,卷积核大小为3×3,步幅为2,填充为1;第二个卷积层的输入通道数为64,输出通道数为64,卷积核大小为3×3,步幅为1,填充为1;

    26、注意力模块se(squeeze-and-excitation,se):输入通道为64,se模块没有进行卷积操作,因此没有卷积核和步幅,输出通道为64;

    27、res_a2层:包含两个深度可分离卷积层;第一个卷积层的输入通道数为64,输出通道数为64,卷积核大小为3×3,步幅为1,填充为1;第二个卷积层的输入通道数为164,输出通道数为64,卷积核大小为3×3,步幅为1,填充为1;

    28、res_b2层:含两个深度可分离卷积层;第一个卷积层的输入通道数为64,输出通道数为64,卷积核大小为3×3,步幅为1,填充为1;第二个卷积层的输入通道数为64,输出通道数为64,卷积核大小为3×3,步幅为1,填充为1;

    29、res_a3层:包含两个深度可分离卷积层;第一个卷积层的输入通道数为64,输出通道数为128,卷积核大小为3×3,步幅为2,填充为1;第二个卷积层的输入通道数为128,输出通道数为128,卷积核大小为3×3,步幅为1,填充为1;

    30、res_b3层:包含两个深度可分离卷积层;第一个卷积层的输入通道数为128,输出通道数为128,卷积核大小为3×3,步幅为2,填充为1;第二个卷积层的输入通道数为128,输出通道数为128,卷积核大小为3×3,步幅为1,填充为1;

    31、res_a4层:包含两个深度可分离卷积层;第一个卷积层的输入通道数为128,输出通道数为256,卷积核大小为3×3,步幅为2,填充为1;第二个卷积层的输入通道数为256,输出通道数为256,卷积核大小为3×3,步幅为1,填充为1;

    32、res_b4层:包含两个深度可分离卷积层;第一个卷积层的输入通道数为256,输出通道数为256,卷积核大小为3×3,步幅为2,填充为1;第二个卷积层的输入通道数为256,输出通道数为256,卷积核大小为3×3,步幅为1,填充为1;

    33、注意力模块se(squeeze-and-excitation,se):输入通道为256,se模块没有进行卷积操作,因此没有卷积核和步幅,输出通道为512;

    34、convolution层:输入通道为512,输出通道为512,卷积核大小为3×3,步幅为1,填充为0;

    35、adaptiveavgpool自适应池化层:输入通道为512,输出通道为512,卷积核大小为3×3,步幅为1;

    36、fc:输入通道为512,输出通道为3;

    37、softmax:输出通道为3,输出尺寸为1×1;softmax函数将特征通道值转换为0-1之间的概率,以表示每个类别的预测概率。

    38、所述第三步包括以下步骤:将第一步构建的训练集加载到第二步获得的改进的resnet18网络模型中,使用训练集对模型进行训练,训练设置epoch、学习率、batch_size参数,通过观察损失率和准确率,如果达到拟合,则代表模型训练成功,获得训练后的改进的resnet18网络模型;反之,不成功。

    39、所述第三步,在训练过程中,设置batch_size大小为16,epoch设置为100,学习率设置为0.000005。此时改进的resnet18网络模型已经达到拟合,拟合后获得训练后的改进的resnet18网络模型。

    40、所述第三步,上述resnet18网络模型的损失函数使用的是交叉熵损失函数l为:

    41、

    42、其中,n是样本数量,k是类别数量,yi,k是第i个样本属于第k类的真实率,pi,k是模型预测第i个样本属于第k类的概率,k是类别索引,例如在本实验中k的取值范围是{0,1,2}。

    43、所述第三步,在实验中,使用softmax函数将输出转换为每个类别的概率分布,softmax函数表达式如下:

    44、

    45、其中,zj表示输入向量中第j个元素的原始得分,n表示输入向量的维度,既类别的数量,e表示自然对数的底数。

    46、所述第四步包括以下步骤:将实验室分离得到的卤代化合物,溶于溶剂中,测定高分辨质谱数据,得到待检测卤代化合物的质谱图,将待检测卤代化合物的质谱图输入到mestrenova软件中,根据峰面积设置阈值,设定显示最小峰面积范围为4%;将此时mestrenova软件页面横坐标为保留时间(min),纵坐标为强度[639,152,1704,494]的矩形区域用红色矩形进行框选,同时将横坐标为m/z(da),纵坐标为强度[566,549,1707,918]的矩形区域用绿色矩形进行框选,在框选的红色矩形和绿色矩形区域内的数字用黄色小矩形进行框选,由于mestrenova软件中的数字是蓝色,根据颜色将数字使用黄色矩形进行框选;接下来程序等待2s开始进行鼠标自动点击,首先点击当前屏幕区域的[714,197]位置,等待0.5s,点击红色区域内的已经框选的一个数字,点击之后,等待0.5s,鼠标在自动点击当前屏幕区域[752,643]位置,程序在等待0.5s后,鼠标自动点击绿色矩形区域内的最高位置的被黄色矩形框选的数字,在等待0.5s后,截图保存当前绿色区域内的屏幕到本地的文件夹,循环上面这一点击过程,直至点击完所有红色矩形内的数字,最后将保存的.jpg图片输入到第三步获得的训练后的改进的resnet18网络模型中进行预测。

    47、由于采用上述技术方案,本发明具有以下优点和有益效果:

    48、本发明提供的基于resnet网络的卤代化合物高效识别方法,通过迁移学习初始化网络参数以节约训练时间和训练成本,解决了卤代化合物识别分类速度慢、准确率低的问题,为卤代化合物的识别提供了一种自动化的方案。本发明的方法可以通过质谱图对卤代化合物进行快速识别,为含卤代化合物的精准发现带来“革新性策略”。


    技术特征:

    1.一种基于resnet网络的卤代化合物高效识别方法,其特征在于,包括以下步骤:

    2.根据权利要求1所述的基于resnet网络的卤代化合物高效识别方法,其特征在于,所述(1)包括以下步骤:

    3.根据权利要求2所述的基于resnet网络的卤代化合物高效识别方法,其特征在于,所述图像增强处理方法:以0.5的概率随机水平翻转图像,随机调整图像的亮度、饱和度和色调,从而实现对数据集进行图像增强处理。

    4.根据权利要求1所述的基于resnet网络的卤代化合物高效识别方法,其特征在于,所述(2)包括以下步骤:

    5.根据权利要求1所述的基于resnet网络的卤代化合物高效识别方法,其特征在于,所述对resnet18网络按照预设方式进行改进包括:采用迁移学习的方法,修改模型的全连接层,使其适应该模型;

    6.根据权利要求1所述的基于resnet网络的卤代化合物高效识别方法,其特征在于,所述改进的resnet18网络模型的结构依次包括:

    7.根据权利要求1所述的基于resnet网络的卤代化合物高效识别方法,其特征在于,所述第三步包括以下步骤:将第一步构建的训练集加载到第二步获得的改进的resnet18网络模型中,使用训练集对模型进行训练,训练设置epoch、学习率、batch_size参数,通过观察损失率和准确率,如果达到拟合,则代表模型训练成功,获得训练后的改进的resnet18网络模型;反之,不成功。

    8.根据权利要求7所述的基于resnet网络的卤代化合物高效识别方法,其特征在于,所述第三步,上述resnet18网络模型的损失函数使用的是交叉熵损失函数l为:

    9.根据权利要求7所述的基于resnet网络的卤代化合物高效识别方法,其特征在于,所述第三步,在实验中,使用softmax函数将输出转换为每个类别的概率分布,softmax函数表达式如下:

    10.根据权利要求1所述的基于resnet网络的卤代化合物高效识别方法,其特征在于,所述第四步包括以下步骤:将实验室分离得到的卤代化合物,溶于溶剂中,测定高分辨质谱数据,得到待检测卤代化合物的质谱图,将待检测卤代化合物的质谱图输入到mestrenova软件中,根据峰面积设置阈值,设定显示最小峰面积范围为4%;将此时mestrenova软件页面横坐标为保留时间,纵坐标为强度[639,152,1704,494]的矩形区域用红色矩形进行框选,同时将横坐标为m/z,纵坐标为强度[566,549,1707,918]的矩形区域用绿色矩形进行框选,在框选的红色矩形和绿色矩形区域内的数字用黄色小矩形进行框选,由于mestrenova软件中的数字是蓝色,根据颜色将数字使用黄色矩形进行框选;接下来程序等待2s开始进行鼠标自动点击,首先点击当前屏幕区域的[714,197]位置,等待0.5s,点击红色区域内的已经框选的一个数字,点击之后,等待0.5s,鼠标在自动点击当前屏幕区域[752,643]位置,程序在等待0.5s后,鼠标自动点击绿色矩形区域内的最高位置的被黄色矩形框选的数字,在等待0.5s后,截图保存当前绿色区域内的屏幕到本地的文件夹,循环上面这一点击过程,直至点击完所有红色矩形内的数字,最后将保存的.jpg图片输入到第三步获得的训练后的改进的resnet18网络模型中进行预测。


    技术总结
    本发明公开了一种基于ResNet网络的卤代化合物高效识别方法:基于构建的训练集对改进的ResNet18网络模型进行训练,获得训练后的改进的ResNet18网络模型。将待检测卤代化合物的质谱图输入第三步获得的训练后的改进的ResNet18网络模型中,得到预测结果。本发明通过迁移学习初始化网络参数以节约训练时间和训练成本,解决了卤代化合物识别分类速度慢、准确率低的问题。

    技术研发人员:于豪冰,丁金峰,刘小宇,胡波,崔名慧,孟宪超,宁哲
    受保护的技术使用者:中国人民解放军海军军医大学
    技术研发日:
    技术公布日:2024/10/24
    转载请注明原文地址:https://symbian.8miu.com/read-35493.html

    最新回复(0)