本发明涉及数据分析,尤其涉及一种待识别药品名称的识别方法、装置及存储介质。
背景技术:
1、随着人工智能和自然语言处理技术的进步,越来越多的研究致力于利用文本挖掘、机器学习和深度学习等方法,从海量的药品数据中提取信息、建立模型,以实现准确识别药品并给出个性化推荐。受到医疗信息化和大数据技术的推动,未来有望为医疗健康管理提供更加智能化、精准化的解决方案。
2、目前,在是否为同一个药品的识别上,传统方法是人工识别,或者通过计算机功能界面模糊搜索,受到所给词序影响和大小写、中英文的影响,速度慢,效率低,容易遗漏。要想准确定位,需要反复尝试不同的词序或者写法。
3、例如公开号为:cn115481623a的专利申请公开的一种特定实体名称识别优化方法,包括:通过训练bi l stm-crf模型,再对用户输入的文本提取可能实体,通过句法分析、冲突检测,将特定实体名称成分合并,得到所有可能的候选名称,再经过数据库验证后,将最后结果去重输出。
4、例如公告号为:cn112966504b的发明专利公告的名称识别及关联推荐方法、装置、计算机设备及存储介质,包括:获取配件名称,识别配件名称的关联名称,汇总关联名称得到关联清单,接收用户端选择的关联名称并将其设为目标名称;根据目标名称从交易系统中获取至少一个配件信息并汇总形成配件清单,接收用户端选择的配件信息并将其设为交易信息;将用户端选择的配件信息设为目标信息,获取与目标信息之间具有配件关联关系的配件信息并汇总形成推荐清单,将用户端选择的配件信息设为交易信息;汇总交易信息形成订单信息,将订单信息发送至交易系统。
5、但本技术在实现本技术实施例中发明技术方案的过程中,发现上述技术至少存在如下技术问题:
6、目前,在当今数据量暴增的场景下,传统技术方法已无法满足生产生活需要,存在同一药品识别推荐耗时耗力的问题。
技术实现思路
1、本技术实施例通过提供一种待识别药品名称的识别方法、装置及存储介质,解决了现有技术中存在同一药品识别推荐耗时耗力的问题,实现了快速识别药品名称推荐同一药品。
2、本技术实施例提供了一种待识别药品名称的识别方法,包括以下步骤:通过获取待识别药品的图像信息,对图像信息文字提取,得出初步识别药品名称加规格;连接本地药品目录数据库,初步检索并提取出初步识别药品名称加规格相似的药品名称加规格;将初步识别药品名称加规格和相似的药品名称加规格均进行归一化分词处理;通过集合差异量化算法对归一化分词结果进行处理,得出初步识别药品名称加规格和相似的药品名称加规格的名称相似度;选择名称相似度最高的相似药品名称作为与待识别药品名称相同的药品,并作为推荐药品名称输出。
3、进一步的,所述分词处理包括以下步骤:以药品名称、药品规格信息、药品计量单位分别对药品名称加规格进行分词处理;分别将药品名称、药品规格信息、药品计量单位的分词结果进行二次分词处理;对两次分词处理分别得到的分词结果均进行规范化处理和归一化处理;得到归一化分词结果。
4、进一步的,所述名称相似度的获得方法为:提取初步识别药品名称加规格和相似的药品名称加规格各自对应的归一化分词结果;比较两组的归一化分词结果,找出相同的分词并将其移除,得到各自的药品分词集合;统计两组药品分词集得出不同分词数量,记为集合差异度;将集合差异度转换为名称相似度。
5、进一步的,所述药品分词集合还包括以下处理步骤:在药品分词集合中,把名称分词排在靠前位置,其它分词排列在靠后位置,得出有序性排列的药品分词集合元素;如果差异度是由药品分词集合元素key导致,则对差异度进行校正调整;所述对差异度进行校正调整的公式为:
6、sdiff=[abs(a-b)]+1*m+[abs(b-a)]+1*n
7、式中,sdiff为差异度,a是初步识别药品名称加规格的药品分词集合,b是相似的药品名称加规格的药品分词集合,abs函数用于获取集合a与集合b中元素数量差值的绝对值,m为修正因子甲,n为修正因子乙;当abs(a-b)>0,则m=1,否则m=0,abs(a-b)表示集合a与集合b之间的绝对差,当abs(b-a)>0,则n=1,否则n=0,abs(b-a)表示集合b与集合a之间的绝对差。
8、进一步的,所述将集合差异度转换为名称相似度的公式为:
9、
10、式中,si(ab)为初步识别药品名称加规格和相似的药品名称加规格之间的名称相似度,a为初步识别药品名称加规格对应的药品分词集合,b为相似的药品名称加规格对应的药品分词集合,count(.)函数用于统计集合中的元素个数。
11、进一步的,所述本地药品目录数据库中的药品信息在被分词过后将被标记,并存储药品信息对应的分词结果,并在下次轮询时重新对被标记的药品信息自动拆分。
12、进一步的,所述得出初步识别药品名称加规格和相似的药品名称加规格的名称相似度之后还包括以下步骤:根据待识别药品的图像信息提取药品成分信息,并将成分信息进行归一化分词处理,得到待识别药品成分分词集合;根据待识别药品成分分词集合构建第一知识图谱;将初步检索并提取出的相似的药品名称加规格对应的药品成分信息通过自然语言算法进行提取,将提取后的药品成分信息进行归一化分词处理,得出相似药品成分分词集合;根据相似药品成分分词集合构建第二知识图谱;通过子图匹配算法对比第一知识图谱和第二知识图谱的子图谱,得出药品成分知识图谱相似度;当出现名称相似度相同的多个相似药品时,对比药品成分知识图谱相似度,选择药品成分知识图谱相似度最高值对应的相似药品名称作为推荐药品名称输出。
13、进一步的,所述药品成分知识图谱相似度还可用于当同一药品存在多个药品名称时,根据成分信息和规格信息得出药品其他名称,具体方法为:获取待识别药品的药品规格信息一,同时获取相似的药品名称加规格对应的药品规格信息二,并对药品规格信息一和药品规格信息二进行分词处理,得出规格分词结果一和规格分词结果二;将待识别药品和相似药品之间的药品成分知识图谱相似度由高到低进行排序;选择前k个药品成分知识图谱相似度对应的相似药品,k为药品成分知识图谱相似度的排序名次,k为自然数,对比待识别药品的规格分词结果一和相似药品的规格分词结果二;得出规格规格分词结果一和规格分词结果二相似度最高的相似药品,将其记为药品别名推荐输出。
14、本技术实施例提供了一种待识别药品名称的识别装置,包括:基础信息获取模块、相似名称检索模块、分词处理模块、名称相似度分析模块和推荐输出模块:所述基础信息获取模块:用于通过获取待识别药品的图像信息,对图像信息文字提取,得出初步识别药品名称加规格;所述相似名称检索模块:用于连接本地药品目录数据库,初步检索并提取出初步识别药品名称加规格相似的药品名称加规格;所述分词处理模块:用于将初步识别药品名称加规格和相似的药品名称加规格均进行归一化分词处理;所述名称相似度分析模块:用于通过集合差异量化算法对归一化分词结果进行处理,得出初步识别药品名称加规格和相似的药品名称加规格的名称相似度;所述推荐输出模块:用于选择名称相似度最高的相似药品名称作为与待识别药品名称相同的药品,并作为推荐药品名称输出。
15、本技术实施例提供了一种计算机可读存储介质,用于存储程序,所述程序被处理器执行时实现待识别药品名称的识别方法。
16、本技术实施例中提供的一个或多个技术方案,至少具有如下技术效果或优点:
17、1、通过利用分词技术,结合两个集合的对称差集的量化方法,从而得出初步识别药品名称加规格与本地药品目录数据库的标准药品名称加规格名称相似度,进而快速识别药品名称推荐同一药品,实现药品标准化推荐和检索,有效解决了现有技术中存在同一药品识别推荐耗时耗力的问题。
18、2、通过根据药品的成分信息,根据成分信息分析出知识图谱,根据知识图谱找到相似的药品,再分别比较每个药品与待识别药品之间的相似度,从而达到二次验证识别药品是否属于同一药品,进而实现了增加药品推荐的准确性。
19、3、通过采用药品智能识别技术,让计算机自动后台并发任务,数据处理异步任务,从而缩短了数据处理响应时间,提升了药厂满意度,进而会增加客户黏性,并且在商业合作的竞标中提升了自身优势。
1.一种待识别药品名称的识别方法,其特征在于,包括以下步骤:
2.如权利要求1所述待识别药品名称的识别方法,其特征在于,所述分词处理包括以下步骤:
3.如权利要求1所述待识别药品名称的识别方法,其特征在于,所述名称相似度的获得方法为:
4.如权利要求3所述待识别药品名称的识别方法,其特征在于,所述药品分词集合还包括以下处理步骤:
5.如权利要求3所述待识别药品名称的识别方法,其特征在于,所述将集合差异度转换为名称相似度的公式为:
6.如权利要求1所述待识别药品名称的识别方法,其特征在于,所述本地药品目录数据库中的药品信息在被分词过后将被标记,并存储药品信息对应的分词结果,并在下次轮询时重新对被标记的药品信息自动拆分。
7.如权利要求1所述待识别药品名称的识别方法,其特征在于,所述得出初步识别药品名称加规格和相似的药品名称加规格的名称相似度之后还包括以下步骤:
8.如权利要求7所述待识别药品名称的识别方法,其特征在于,所述药品成分知识图谱相似度还可用于当同一药品存在多个药品名称时,根据成分信息和规格信息得出药品其他名称,具体方法为:
9.一种待识别药品名称的识别装置,其特征在于,包括基础信息获取模块、相似名称检索模块、分词处理模块、名称相似度分析模块和推荐输出模块:
10.一种计算机可读存储介质,用于存储程序,其特征在于,所述程序被处理器执行时实现如权利要求1至8中任一项所述待识别药品名称的识别方法。
