本发明涉及数据检索,更具体的,涉及一种基于知识图谱的中药材多样化检索的建模方法及系统。
背景技术:
1、目前,大量中药材的数据以半结构化或非结构化的形式存在于书籍和网络中,缺乏直观的数据存储方式。中药材的种类繁多,大部分人缺乏中药材方面的专业知识,因此在识别中药材方面存在一定的局限性,误识中药材而导致严重后果的事件也时常发生。
2、当前大多数中药材检索网站通常只支持按中药名或中药功效类别进行检索,这种检索方式相对单一,检索返回的结果呈现为表格形式,内容繁杂,用户很难找到所需的重点信息。而且这种检索结果难以明显地展现不同中药材在成分、性味归经、功效等多方面的相互关系。
3、为了克服这些挑战,必须采取多方面的策略,主要是要加强中医药与现代科技的融合。利用知识图谱以及人工智能等先进技术,可以对中药材的数据进行更有效的整理和分析,从而挖掘他们之间的关系,加深对于中医药的研究。
4、近年来,图数据库已经成为解决数据管理问题的关键工具。区别于传统数据库,图数据库通过其可视化功能强化了对复杂事物间联系的展现,它不仅易于学习和扩展,还支持智能应用的发展。
5、除此之外,深度学习在图像识别领域的广泛应用使得图像处理变得更加智能化和高效化。它为计算机视觉领域带来了革命性的突破,推动了许多相关领域的发展。
6、比如现有一种基于中药知识图谱的智能问答系统,所述系统包括:问题获取模块,用于获取用户的自然问句;命名实体和意图识别模块,用于采用bert+slot-gated模型对用户的自然问句进行实体识别和意图识别处理,得到自然问句中包含的实体和意图;答案抽取模块,用于根据实体和意图生成查询语句,并根据查询语句在中药知识图谱中进行查询,得到与用户的自然问句对应的答案,并将答案返回给用户。
7、然而现有技术依然存在检索方式单一,检索信息丰富度不足的问题,因此如何发明一种能够针对中药材的多样化检索系统,是本技术领域亟需解决的技术问题。
技术实现思路
1、本发明为了解决现有技术检索方式单一,检索信息丰富度不足的问题,提供了一种基于知识图谱的中药材多样化检索的建模方法及系统,其具有易于学习和扩展,支持智能应用发展的特点。
2、为实现上述本发明目的,采用的技术方案如下:
3、一种基于知识图谱的中药材多样化检索的建模方法,包括以下具体步骤:
4、爬取中药材图像,构建中药材图像识别模型;
5、提取若干种中药材的实体和关系,并结合中药材图像,构建包含实体、关系、图像的中药材多模态知识图谱;
6、基于中药材多模态知识图谱、中药材图像识别模型构建中药材多样化检索模型。
7、优选的,构建中药材图像识别数据库,具体步骤为:
8、挑选若干个中药材类别;
9、基于挑选的若干个中药材类别,从多个网络图库中爬取并筛选若干个中药材图像并将其预处理后归类进对应的中药材类别;构建中药材图像识别数据库。
10、进一步的,构建中药材图像识别模型,具体步骤为:
11、将中药材图像识别数据库分为训练集、测试集和验证集;
12、对训练集、测试集和验证集通过水平翻转、统一缩放进行增强,得到训练数据集、验证数据集、测试集数据集;
13、设置交叉熵损失函数,并引入正则化项:
14、将训练数据集输入预训练的resnet模型进行迭代训练,得到中药材图像识别模型,训练中,采用adam优化方法自适应地调整学习率;
15、通过验证数据集、测试集数据集分别验证和测试训练后的模型;测试时通过计算图像识别模型的预测正确率评价图像识别模型,若图像识别模型的正确率低于设定阈值,则重新对中药材图像识别模型进行迭代训练。
16、更进一步的,所述的实体分为主体及客体,其主体为中药材,客体为药味、药性、归经、分类、功效、产地、禁用人群、配伍禁忌、化学成分、症状、性状、毒性、名方任一项或多项;所述的关系具体包括:药味为、药性为、归属、属于、具有、主产于、禁用人群为、配伍禁忌为、主要成分、主治、性状为、毒性为、名方为任一项或多项。
17、更进一步的,提取若干种中药材的实体和关系,具体步骤为:
18、采用正则化匹配的方式,得到并标注包含中药材实体和关系的语料;
19、通过语料预训练语言大模型;
20、通过预训练后的语言大模型,从可信数据源提取每种中药材的实体,并进一步基于实体进行关系抽取,得到每种中药材的关系,由此得到结构化的主体、客体、关系的三元组数据;
21、每次提取实体和关系后,将所得到的的实体关系加入结构化数据中,在下一次提取中进一步预训练语言大模型。
22、更进一步的,构建包含实体、关系、图像的中药材多模态知识图谱,具体步骤为:
23、使用py2neo库将得到的若干个中药材的实体和关系存储进neo4j数据库中;
24、在neo4j数据库中, 将主体通过其对应的图像表示,并将三元组数据中的每个实体作为节点,将关系作为边,将节点与节点之间通过边相连,得到中药材多模态知识图谱。
25、更进一步的,所述的中药材多样化检索模型,具体为:
26、将检索的问句类型解析为 :输入客体类型-输出中药材、输入中药材-输出实体类型、输入图像-输出中药材的3种类别;
27、基于检索的问句类型进行检索:
28、对于输入客体类型-输出中药材,将用户的输入分解为至少1个客体类型和该类型下的关键词信息,并将其转化为相应的cypher语句,从neo4j数据库中检索对应的中药材多模态知识图谱,输出包括匹配的中药材节点与输入的关键词信息的知识图谱;
29、对于输入中药材-输出实体类型,将用户输入的中药材,转化为相应的cypher语句,从neo4j数据库中检索对应的中药材多模态知识图谱,输出该中药材匹配的全部实体类型的中药材多模态知识图谱;
30、对于输入图像-输出中药材,通过所述的中药材图像识别模型识别输入的图像,并输出识别出的中药材结果。
31、一种基于知识图谱的中药材多样化检索系统,包括用户端、服务器端;
32、所述的用户端用于接受用户输入信息并对多样化检索结果进行可视化展示;
33、所述的服务器端用于将用户的输入信息输入所述的中药材多样化检索模型,输出多样化检索结果。
34、优选的,所述的服务器端具体包括图像识别模块、解析检索模块、数据交互模块;所述的用户端具体包括登录注册模块、图谱检索模块、图像检索模块;
35、所述的图像识别模块用于通过中药材图像识别模型对用户输入的图像进行识别并输出图像识别结果;
36、所述的解析检索模块用于解析用户的非图像输入,将检索内容转化为cypher语句,采用py2neo查询neo4j数据库中的中药材多模态知识图谱结果;
37、所述的数据交互模块用于进行前后端数据的交换,将用户的输入利用ajax异步传输到后端中,后端对信息进行查询,然后查询结果利用json格式封装返回给前端;
38、所述的登录注册模块用于提供用户登录、注册、修改信息的功能;
39、所述的图像检索模块用于对图像识别结果进行可视化展示;
40、所述的图谱检索模块用于对中药材多模态知识图谱结果通过echart进行可视化展示。
41、进一步的,其技术架构为web的b/s架构,系统架构分为三层:在前端的表现层、在后端的业务逻辑层和数据层,系统后端使用django框架,前端使用bootstrap、jquery、echart;数据存储使用neo4j数据库。
42、本发明的有益效果如下:
43、本发明公开了一种基于知识图谱的中药材多样化检索的建模方法,综合了中药材图像识别模型、中药材多模态知识图谱,构建了中药材多样化检索模型,由此解决了现有技术检索方式单一,检索信息丰富度不足的问题,且具有易于学习和扩展,支持智能应用发展的特点。
1.一种基于知识图谱的中药材多样化检索的建模方法,其特征在于:包括以下具体步骤:
2.根据权利要求1所述的基于知识图谱的中药材多样化检索的建模方法,其特征在于:构建中药材图像识别数据库,具体步骤为:
3.根据权利要求1所述的基于知识图谱的中药材多样化检索的建模方法,其特征在于:构建中药材图像识别模型,具体步骤为:
4.根据权利要求1所述的基于知识图谱的中药材多样化检索的建模方法,其特征在于:所述的实体分为主体及客体,其主体为中药材,客体为药味、药性、归经、分类、功效、产地、禁用人群、配伍禁忌、化学成分、症状、性状、毒性、名方任一项或多项;所述的关系具体包括:药味为、药性为、归属、属于、具有、主产于、禁用人群为、配伍禁忌为、主要成分、主治、性状为、毒性为、名方为任一项或多项;其中,中药材这一个实体具有属性:简述、用量用法、药理作用、采收方式、历史、生态环境、生物学特性、成分、image;名方这一实体有属性:组成、功效。
5.根据权利要求4所述的基于知识图谱的中药材多样化检索的建模方法,其特征在于:提取若干种中药材的实体和关系,具体步骤为:
6.根据权利要求5所述的基于知识图谱的中药材多样化检索的建模方法,其特征在于:构建包含实体、关系、图像的中药材多模态知识图谱,具体步骤为:
7.根据权利要求6所述的基于知识图谱的中药材多样化检索的建模方法,其特征在于:所述的中药材多样化检索模型,具体为:
8.一种基于知识图谱的中药材多样化检索系统,其特征在于:包括用户端、服务器端;
9.根据权利要求8所述的基于知识图谱的中药材多样化检索系统,其特征在于:所述的服务器端具体包括图像识别模块、解析检索模块、数据交互模块;所述的用户端具体包括登录注册模块、图谱检索模块、图像检索模块;
10.根据权利要求9所述的基于知识图谱的中药材多样化检索系统,其特征在于:其技术架构为web的b/s架构,系统架构分为三层:在前端的表现层、在后端的业务逻辑层和数据层,系统后端使用django框架,前端使用bootstrap、jquery、echart;数据存储使用neo4j数据库。