一种基于大模型的营养素与疾病知识图谱的构建方法

    技术2025-01-07  60


    本发明涉及人工智能与医疗健康,尤其涉及一种基于大模型的营养素与疾病知识图谱的构建方法。


    背景技术:

    1、在当今社会,人们越来越关注健康和医疗问题。食物是日常生活中不可或缺的一部分,而它们与疾病和症状之间的关系也备受关注,食物对疾病和症状发生作用主要是由营养素产生的。将营养素与疾病症状的关系构建成知识图谱可以帮助人们更好地理解营养与疾病预防之间的联系,促进健康生活方式的养成。

    2、然而,营养素与疾病症状的关系多是非结构化的形式,如论文,专利,书籍存在,从中抽取关系存在几个核心难题:

    3、信息抽取难度大:从大量的文本资料中自动识别并提取营养素、疾病实体及其相互关系是一项艰巨任务。文本表述的多样性、专业术语的复杂性以及信息表达的模糊性都增加了实体识别与关系抽取的难度。

    4、实体链接不准确:同一营养素或疾病可能有多种表述方式,如别名、缩写等,如何准确地将不同来源的提及链接到同一个实体上,是构建高质量知识图谱的关键。


    技术实现思路

    1、本发明提供一种基于大模型的营养素与疾病知识图谱的构建方法,以克服营养素与疾病症状之间关系信息抽取难度大和实体链接不准确的技术问题。

    2、为了实现上述目的,本发明的技术方案是:

    3、一种基于大模型的营养素与疾病知识图谱的构建方法,包括:

    4、s1:构建语言大模型和营养素和疾病相关的提示词,并将含有营养素和疾病相关的原始文本和所述提示词输入到所述语言大模型,所述语言大模型根据所述提示词输出营养素、疾病名称以及营养素与疾病之间关系的原始三元组数据集;所述提示词用于表征营养素、疾病的名称和营养素与疾病之间的关联度;

    5、s2:构建营养素与疾病之间关系的提示词,将所述原始三元组数据集和所述营养素与疾病之间关系的提示词重新输入所述语言大模型,得到营养素、疾病名称以及营养素与疾病之间关系的三元组数据集;所述提示词表征确定所述营养素与疾病之间关系是否为治病或致病;

    6、s3:构建疾病编码的本地向量数据库,读取所述三元组数据集中的疾病名称,在所述本地向量数据库中查询疾病名称对应的疾病编码,并使用带有疾病编码的疾病名称替换所述三元组数据集中的疾病名称,得到新的三元组数据集;

    7、s4:将所述新的三元组数据集导入图数据库中,创建营养素、疾病名称以及关系的知识图谱。

    8、进一步的,s1构建语言大模型和构建营养素和疾病相关的提示词,并将含有营养素和疾病相关的原始文本和所述提示词输入到所述语言大模型,所述语言大模型根据所述提示词输出营养素、疾病名称以及营养素与疾病之间关系的原始三元组数据集;所述提示词用于表征营养素、疾病的名称和营养素与疾病之间的关联度,包括:

    9、s11、构建语言大模型,所述语言大模型为通用大模型;

    10、s12、构建营养素和疾病相关的提示词,所述提示词包括营养素中文名称、营养素英文名称、营养素缩写、疾病名称或症状以及营养素与疾病之间关系;

    11、s13、将所述含有营养素和疾病相关的原始文本和所述提示词输入到所述语言大模型,如公式(1)所示,

    12、

    13、其中,o1表示语言大模型输出的结果,llm表示语言大模型,t表示所述语言大模型读取所述原始三元组数据集生成的字符串数组;p1表示提示词;n表示营养素,d表示疾病名称或症状;r表示营养素与疾病之间的关系;r1表示营养素摄取不足导致疾病;r2表示营养素摄取过量导致疾病;r3表示营养素对疾病治疗有利;null表示没有营养素或没有疾病或营养素与疾病之间没有关系。

    14、进一步的,s2构建营养素与疾病之间关系的提示词,将所述原始三元组数据集和所述营养素与疾病之间关系的提示词重新输入所述语言大模型,得到营养素、疾病名称以及营养素与疾病之间关系的三元组数据集;所述提示词用于表征所述营养素与疾病之间关系是否为治病或致病,包括:

    15、s21、构建营养素与疾病之间关系的提示词,所述提示词为验证营养素与疾病之间的关系是否为治病或致病,所述致病包括营养素不足导致疾病和营养素过量导致疾病;所述治病为营养素对疾病治疗有利;

    16、s22、将所述三元数据集和所述新的提示词重新输入所述语言大模型,如公式(2)所示,

    17、

    18、其中,pi表示营养素与疾病之间关系的提示词。

    19、进一步的,s3构建疾病编码的本地向量数据库,读取所述三元组数据集中的疾病名称,在所述本地向量数据库中查询疾病名称对应的疾病编码,并使用带有疾病编码的疾病名称替换所述三元组数据集中的疾病名称,得到新的三元组数据集,包括:

    20、s31、构建疾病编码的本地向量数据库,所述本地向量数据库包括疾病表,所述疾病表中的记录为r={n,e,c},其中n为字符串,内容包括疾病名称,疾病同义词与疾病描述,e表示n的向量,c为疾病编号;

    21、s32、读取所述三元组数据集中的疾病名称或症状,在所述本地向量数据库的疾病表中进行向量相似度查询;

    22、将所述疾病名称或症状的字符串转换成向量,并计算所述向量与所述疾病表内的疾病名称的余弦距离,如公式(3)所示,

    23、

    24、当疾病表与疾病的余弦距离distcosine小于设定的阈值时,将当前疾病表的疾病编号设为该疾病的疾病编号,并将所述疾病编号增加到所述三元组文件中。

    25、进一步的,s4将所述新的三元组数据集导入图数据库中,创建营养素、疾病名称以及关系的知识图谱,包括:

    26、s41、调用图数据库,并在所述图数据库中创建数据库;

    27、s42、将所述三元组文件导入所述图数据库:

    28、创建营养素节点,所述营养素节点属性包括营养素名称、英文名称和名称缩写;

    29、创建疾病节点,所述疾病节点属性包括疾病名称和疾病编号;

    30、匹配所述营养素节点和所述疾病节点并创建所述营养素和疾病的关系;

    31、s43、将编号相同的疾病建立异名关系:

    32、找到具有相同编号的疾病节点对并为所述节点对创建异名关系。

    33、本发明一种基于大模型的营养素与疾病知识图谱的构建方法,通过将含有营养素、疾病相关的原始文本和提示词输入大模型,验证有关系的三元组中,疾病名称的标准化实体链接:以世界卫生组织国际疾病分类为标准编码,通过构建疾病编码的本地向量数据库实现向量相似度查询,最终在图数据库中创建营养素、疾病以及关系;提高创建营养素与疾病关系的效率,以及营养素与疾病实体对齐的准确性,得到高质量的知识图谱,为营养师提供更加准确的营养信息。



    技术特征:

    1.一种基于大模型的营养素与疾病知识图谱的构建方法,其特征在于,包括:

    2.根据权利要求1所述的一种基于大模型的营养素与疾病知识图谱的构建方法,其特征在于,s1构建语言大模型和构建营养素和疾病相关的提示词,并将含有营养素和疾病相关的原始文本和所述提示词输入到所述语言大模型,所述语言大模型根据所述提示词输出营养素、疾病名称以及营养素与疾病之间关系的原始三元组数据集;所述提示词用于表征营养素、疾病的名称和营养素与疾病之间的关联度,包括:

    3.根据权利要求1所述的一种基于大模型的营养素与疾病知识图谱的构建方法,其特征在于,s2构建营养素与疾病之间关系的提示词,将所述原始三元组数据集和所述营养素与疾病之间关系的提示词重新输入所述语言大模型,得到营养素、疾病名称以及营养素与疾病之间关系的三元组数据集;所述提示词用于表征所述营养素与疾病之间关系是否为治病或致病,包括:

    4.根据权利要求1所述的一种基于大模型的营养素与疾病知识图谱的构建方法,其特征在于,s3构建疾病编码的本地向量数据库,读取所述三元组数据集中的疾病名称,在所述本地向量数据库中查询疾病名称对应的疾病编码,并使用带有疾病编码的疾病名称替换所述三元组数据集中的疾病名称,得到新的三元组数据集,包括:

    5.根据权利要求1所述的一种基于大模型的营养素与疾病知识图谱的构建方法,其特征在于,s4将所述新的三元组数据集导入图数据库中,创建营养素、疾病名称以及关系的知识图谱,包括:


    技术总结
    本发明公开了一种基于大模型的营养素与疾病知识图谱的构建方法,包括:构建大模型和营养素疾病相关的提示词,将相关原始文本和提示词输入大模型,输出营养素、疾病名称和营养素与疾病之间关系的原始三元组数据集;构建营养素与疾病之间关系的提示词,将数据集和提示词输入大模型,得到三元组数据集;构建疾病编码本地向量数据库,读取疾病名称,查询对应的疾病编码,使用带编码的名称替换三元组数据集的疾病名称,得到新的三元组数据集;将新的三元组数据集导入图数据库,创建营养素、疾病名称及关系知识图谱;本发明能够提高创建营养素与疾病关系的效率和营养素与疾病实体对齐的准确性,得到高质量的知识图谱,为营养师提供更加准确的营养信息。

    技术研发人员:赵磊,郭权,韩立,李承秀,房颖,康玲,王灝,彭钰莹,范博
    受保护的技术使用者:大连东软信息学院
    技术研发日:
    技术公布日:2024/10/24
    转载请注明原文地址:https://symbian.8miu.com/read-24744.html

    最新回复(0)