本发明涉及材料性能预测领域,特别涉及一种大语言模型辅助定量预测设计新材料的方法及系统。
背景技术:
1、材料性能主要取决于其成分和工艺路线。以钢铁材料为例,钢的生产涉及一系列过程,如冶炼、凝固、多道次变形和热处理规程,各工艺操作之间的顺序和参数,对最终产品性能起决定性影响。近年来,基于机器学习的材料设计和性能预测过程中,在特征选择和模型训练之前,通常会将成分和制备加工工艺路线转化为表格数据,构建性能预测模型。然而要开发新的制备加工工艺路线,使用表格型工艺特征表示法会产生高维稀疏特征矩阵,从而变得难以操作。
2、本发明利用不同加工路线序列的自然语言描述和引入文本特征的成分表示,基于材料领域语料重新训练大语言模型,并将材料设计与语言模型相结合,实现基于自然语言描述的材料性能定量化预测。
技术实现思路
1、本发明的目的就是克服现有技术的不足,提供了一种大语言模型辅助定量预测设计新材料的方法及系统,解决工艺路线的结构化数据抽取、序列对齐和高维稀疏等难题,为材料的性能预测和工艺设计提供一种可行的技术路线。
2、本发明采用如下技术方案:
3、一方面,本发明提供了一种大语言模型辅助定量预测设计新材料的方法,包括:
4、s1、收集材料领域相关文献,对所述文献的语料进行预处理,得到预处理语料;
5、s2、基于步骤s1的得到的所述预处理语料,训练分词器;
6、s3、基于步骤s2训练得到的分词器及步骤s1得到的所述预处理语料,训练大语言模型;
7、s4、利用训练完成的所述分词器和所述大语言模型,获得工艺特征编码;
8、s5、利用训练完成的所述分词器和所述大语言模型,获得成分特征编码;
9、s6、构建神经网络预测模型,对于所述预处理语料,经过步骤s4、s5,分别获得现有材料的工艺特征编码和成分特征编码,以之作为输入对所述神经网络预测模型进行训练;
10、s7、对待测新材料,经过步骤s4、s5,分别获得待测新材料的工艺特征编码和成分特征编码,以之作为训练完成的神经网络预测模型的输入,得到待测新材料的预测性能;
11、步骤s4、s5无先后顺序。
12、如上所述的任一可能的实现方式,进一步提供一种实现方式,步骤s1具体包括:
13、s1.1收集材料领域相关文献,所述文献包括摘要及全文;
14、s1.2构建针对特定文献数据库的解析器,解析并收集所述文献的信息文本;
15、s1.3对步骤s1.2得到的信息文本进行预处理,所述预处理包括:unicode字符集合的替换、统一转换为小写表示、及特殊字符的移除,得到预处理语料。
16、如上所述的任一可能的实现方式,进一步提供一种实现方式,步骤s1.2中,构建针对特定数据库的文献解析器抽取相关的信息文本,解析文章标题、摘要、作者、出版日期、来源数据库、数字对象标识符(doi)等相关信息。
17、如上所述的任一可能的实现方式,进一步提供一种实现方式,步骤s1.3中,对解析的文本信息进行相关预处理,利用nltk和transformer的python第三方模块,构建unicode字符集合的替换符,同时将文本统一转换为小写表示,并对多次出现特殊字符进行移除。
18、如上所述的任一可能的实现方式,进一步提供一种实现方式,步骤s2具体为:
19、对所述预处理语料采用bpe(byte-pair encoding)算法训练分词器,首先根据语料构建由单个字符组成的词典,接着将所有语料划分为单个字符,统计字符出现的频率,然后依次向词典中添加语料中频率最高的字符串,直到循环次数结束,分词器训练完成,最后将文本输入该分词器,即可得到对应的子词索引token_ids。。
20、如上所述的任一可能的实现方式,进一步提供一种实现方式,步骤s3中,所述大语言模型为基于transformer网络架构的deberta模型架构,该模型编码器部分采用解耦的注意力机制和增强的解码器,用于更准确的捕捉文本语义,编码器由12个transformer模块和12个自我注意力头组成,用以接收不超过512个单词的输入并得到序列表示,所述序列表示是包含上下文文本特征的向量序列编码表示,从而掌握句子的内部结构细节。
21、如上所述的任一可能的实现方式,进一步提供一种实现方式,步骤s3中,每个单词由两个不同的向量表示:一个向量捕捉其语义内容,另一个向量编码表示其语序位置。注意力机制,计算公式如(1)所示,其中q为查询矩阵,k为键矩阵以及v表示为值矩阵,dk为q和k的矩阵维数,通常用于消除维度对自我注意力机制的影响:
22、
23、如上所述的任一可能的实现方式,进一步提供一种实现方式,步骤s3具体包括:
24、s3.1将所述预处理语料分为训练集和验证集;
25、s3.2所述大语言模型采用掩码语言模型(mlm)任务进行预训练,掩盖所述预处理语料中设定比例(例如15%)的子词作为待预测子词,掩盖部分的子词使用[mask]标记代替,接着使用分词器输出对应的子词索引token_ids构成所述大语言模型的输入;利用所述大语言模型的初始化参数,将输入进行多次转换得到基于上下文表示的文本向量,经过神经网络的正向传播得到[mask]标记的向量表示,接着使用交叉熵作为损失函数,计算出训练损失后,采用反向传播计算损失函数的梯度,对所述大语言模型的模型整体参数进行更新,经过反复迭代直至训练集和验证集上的交叉熵损失趋于收敛,获得最佳大语言模型参数,训练完成。
26、如上所述的任一可能的实现方式,进一步提供一种实现方式,步骤s3.1中,5%的语料用于构建验证集。
27、如上所述的任一可能的实现方式,进一步提供一种实现方式,步骤s3.2中,具体方法为:材料大语言模型的预训练过程中,采用掩码语言模型(mlm)进行训练,掩盖了语料15%的子词作为待预测子词;输入的初始文本被编码嵌入后通过多个网络层的转换,具体来说,文本首先被分词器切分为子词,同时在文本的开头、结尾添加[cls]和[sep]标记,部分添加[mask]标记表示为被掩盖的词,材料大语言模型的输入由子词序列和位置索引表示,包括token嵌入、position嵌入和type嵌入,输入材料大语言模型后首先被传递给编码层,编码器由12个transformer模块和12个自注意力头组成,可以接收不超过512个单词的输入并生成序列表示,生成序列是包含上下文文本特征的向量序列编码表示,从而掌握句子的内部结构细节;注意力机制使用不同的线性投影,将文本编码进行多次转换得到基于上下文表示的文本向量,最终在mlm任务中使用交叉熵作为损失函数,所述损失函数为:
28、
29、其中,h(p,q)为训练损失,pi为[mask]标记的真实分布,qi为[mask]标记的预测分布。
30、如上所述的任一可能的实现方式,进一步提供一种实现方式,步骤s4具体包括:
31、s4.1基于分词器将工艺特征切分为子词序列,在子词序列首尾分别添加[cls]和[sep]标记;
32、s4.2根据分词器将子词序列转换为输入的词索引token_ids和注意力遮蔽序列attention mask;
33、s4.3将步骤s4.2输入的词索引token_ids和注意力遮蔽序列attention mask输入所述大语言模型中,获得工艺特征的序列编码表示,最终使用[cls]的向量表示作为工艺特征编码。
34、如上所述的任一可能的实现方式,进一步提供一种实现方式,步骤s5具体为:
35、针对材料成分特征的输入,引入化学符号的文本特征并融合重量百分比特征构建成分的混合特征,利用训练完成的分词器和大语言模型,依次对来自化学元素周期表的元素的化学符号进行编码并存储,同时结合元素重量百分比,使用长度为768的[cls]特殊标记编码作为元素符号特征编码e,材料的成分特征编码如下式:
36、
37、其中,e表示材料的成分特征编码,ei表示该材料的第i个化学元素符号对应的特征编码,wi表示第i个化学元素对应重量百分比,i表示该材料包含的元素种类数。
38、该成分特征在编码材料化学成分重量百分比的同时,还引入了化学元素符号的文本编码,使得成分特征表达的信息更加全面,同时,解决了面对多种材料设计需求,成分差异带来的数据稀疏问题。
39、如上所述的任一可能的实现方式,进一步提供一种实现方式,步骤s6中,所述神经网络预测模型包括共享-独立特征抽取网络层和混合特征抽取网络层;步骤s6具体包括:
40、s6.1基于长度为768的成分特征编码和文本特征编码,构建16*768的混合特征编码矩阵,即将成分特征编码和文本特征编码依次沿着行的方向交叉填充,构建包含成分特征编码和文本特征编码的混合特征编码;这种三通道并行的特征输入方式,使得模型在获取到单一且独立的成分、工艺特征编码的同时,还保留了原始的混合特征,因此传递给模型的信息更多也防止模型对单一特征不断学习出现的过拟合情况,相比于单一特征或混合特征的输入方式,在数据集上的表现有20%~30%的提升;
41、s6.2对于成分特征编码和文本特征编码的单个特征输入处理采用神经元个数为512、256、128、64的多层感知机网络架构连接,激活函数使用relu函数,同时使用dropout丢弃一部分网络节点的输出,防止过拟合;
42、s6.3基于初始的混合特征编码、工艺特征编码、成分特征编码,构建基于三通道并行的特征抽取过程,其中包含max和avg的池化层,卷积核的大小为3×3,构建从开始的单通道到多通道再到单通道的输出,最后将二维的矩阵的中间输出展开为一维向量的输出,获得3个长度为64的向量表示;
43、s6.4在混合特征抽取网络层部分,以共享-独立抽取网络层输出的3个长度为64的向量表示分别采用独立的mlp网络层进一步构建特征抽取表示,采用神经元个数为64、32、16的神经网络层,激活函数使用relu函数,使用dropout防止过拟合;
44、s6.5基于步骤6.4输出的重构的特征表示进行拼接,获得材料工艺和成分的混合特征,接着构建mlp网络层输出材料性能的预测输出值,服务于钢铁材料力学性能的预测;计算预测的结果和真实标签的损失值,损失函数采用均方误差(mse),如下式所示:
45、
46、其中n表示样本的数量,表示针对第i个样本的神经网络的预测输出值,yi表示第i样本的真实标签值;
47、计算当前神经网络预测模型参数的训练损失,反复迭代对神经网络预测模型权重进行多次更新;每训练一个批量的样本,使用验证集来评估模型效果并输出,保存最优模型参数;如果模型在验证集上的损失接近于收敛,则停止训练。
48、另一方面,本发明还提供了一种大语言模型辅助定量预测设计新材料的系统,所述系统用于实现上述的方法,所述系统包括:
49、语料预处理模块,用于对文献的语料进行预处理,得到预处理语料;
50、分词器训练模块,基于所述预处理语料,对分词器进行训练;
51、大语言模型训练模块,基于训练后的分词器及所述预处理语料,训练大语言模型;
52、工艺特征编码模块,用于获得所述预处理语料的工艺特征编码;
53、成分特征编码模块,用于获得所述预处理语料的成分特征编码;
54、神经网络预测模型训练模块,对于所述预处理语料,通过工艺特征编码模块和成分特征编码模块,分别获得现有材料的工艺特征编码和成分特征编码,以之作为输入对所述神经网络预测模型进行训练;
55、材料性能预测模块,对于待测新材料,通过工艺特征编码模块和成分特征编码模块,分别获得待测新材料的工艺特征的编码及成分特征的编码,以之作为训练完成的神经网络预测模型的输入,对待测新材料的性能进行预测。
56、本发明的有益效果为:
57、通过材料相关语料的收集,构建了以transformer-encoder架构为基础的材料大语言模型,用于文本特征的编码;利用材料大语言模型的解耦注意力机制和增强的解码器架构,更好地提取全局语义信息;通过自然语言文本和成分的多模态混合特征编码,构建了基于卷积网络的力学性能预测网络,在考虑单独特征的同时,也考虑了两类混合特征的输出。本发明具有良好的收敛性和稳定性,为材料的设计提供了一条可行的途径,较为明显地提高了性能预测的准确性。
1.一种大语言模型辅助定量预测设计新材料的方法,其特征在于,所述方法包括:
2.如权利要求1所述的大语言模型辅助定量预测设计新材料的方法,其特征在于,步骤s1具体包括:
3.如权利要求1所述的大语言模型辅助定量预测设计新材料的方法,其特征在于,步骤s2具体为:
4.如权利要求1所述的大语言模型辅助定量预测设计新材料的方法,其特征在于,步骤s3中,所述大语言模型为基于transformer网络架构的deberta模型架构,该模型编码器部分采用解耦的注意力机制和增强的解码器,用于更准确的捕捉文本语义,编码器由12个transformer模块和12个自我注意力头组成,用以接收不超过512个单词的输入并得到序列表示,所述序列表示是包含上下文文本特征的向量序列编码,从而掌握句子的内部结构细节。
5.如权利要求3所述的大语言模型辅助定量预测设计新材料的方法,其特征在于,步骤s3具体包括:
6.如权利要求5所述的大语言模型辅助定量预测设计新材料的方法,其特征在于,步骤s3.2中,所述损失函数为:
7.如权利要求1所述的大语言模型辅助定量预测设计新材料的方法,其特征在于,步骤s4具体包括:
8.如权利要求1所述的大语言模型辅助定量预测设计新材料的方法,其特征在于,步骤s5具体为:
9.如权利要求1所述的大语言模型辅助定量预测设计新材料的方法,其特征在于,步骤s6中,所述神经网络预测模型包括共享-独立特征抽取网络层和混合特征抽取网络层;步骤s6具体包括:
10.一种大语言模型辅助定量预测设计新材料的系统,其特征在于,所述系统用于实现如权利要求1-9任一项所述的方法,所述系统包括: