一种信息识别方法、系统及相关设备与流程

    技术2025-11-06  2


    本技术涉及人工智能(artificial intelligence,ai)领域,尤其涉及一种信息识别方法、系统及相关设备。


    背景技术:

    1、信息是对现实世界事物存在方式或运动状态的反映。信息识别指利用计算机技术对信息进行处理、分析和理解,以识别各种不同类型的目标和对像。信息识别一般可以包括图像信息识别、文本信息识别以及说话人辨识(speaker identify,si)等。

    2、信息识别一般会将待处理信息与特征空间中的特征进行匹配,以确定待处理信息的类别,但是特征空间的体量巨大,使得识别过程慢、错误率较高。以说话人辨识为例,声纹库的体量是非常庞大的,覆盖百万、千万、甚至上亿的说话人,根据待识别语音在庞大的声纹库中遍历所有候选人的声纹,搜索复杂度很高,因此,信息识别任务存在精度差、效率低的问题,用户的使用体验差。


    技术实现思路

    1、本技术提供了一种信息识别方法、系统及相关设备,用于解决信息识别任务存在精度差、效率低的问题。

    2、第一方面,本技术提供了一种信息识别方法,该方法包括以下步骤:获取待查询的数字信息,对待查询的数字信息进行编码,获得待查询的数字信息的第一编码,利用第一编码与搜索树进行匹配,确定与数字信息对应的目标对象,其中,搜索树包括多个搜索路径,每个搜索路径对应一个对象的第二编码。

    3、实施第一方面描述的方法,通过对待查询的数字信息进行编码,获得待查询的数字信息的第一编码,然后利用第一编码与搜索树进行匹配,确定待查询的数字信息对应的目标对象,其中,该搜索树包括多个搜索路径,每个搜索路径对应一个对象的第二编码,这样,通过预先对注册信息库中多个对象的数字信息进行编码每个对象的第二编码,基于第二编码进行搜索树的创建,使得信息识别可通过匹配搜索树的方式实现,提高信息识别的精度和效率。

    4、在一可能的实现方式中,第一编码是n位二进制编码,第一编码中的前m个比特位用于表示数字信息的特征,m<n。

    5、需要说明的,编码的第1位是编码的首位,比如编码左侧第一位,编码的第m位指的是从编码首位起依次向右计位的第m个比特位。或者,首位也可以是编码右侧第一位,编码的第m位是从编码右侧第一位依次向左计位的第m个比特位,只要在编码模型的训练和应用阶段下对于编码的首位定义一致即可,本技术不作具体限定。

    6、实施上述实现方式,通过将数字信息的特征由编码的前m个比特位进行表示,使得后续特征匹配时,只需要匹配前几位特征,提高信息识别的效率。

    7、在一可能的实现方式中,数字信息包括下述的一种或多种:声音信息、图像信息、文字信息。

    8、上述实现方式,使得本技术提供的信息识别方法可应用于多个领域,方案普适性强。在说话人辨识场景下,数字信息对应的目标对象可以指的是与查询声音相关的说话人,此时可以将查询声音对应的说话人显示给用户;在人脸识别场景下,数字信息对应的目标对象可以指的是与查询图像相关的人脸,此时可以将查询图像对应的人脸所属的目标显示给用户,应理解,上述举例用于说明,本技术不作具体限定。

    9、在一可能的实现方式中,第一编码中,位置越靠前的比特位所指示的特征越重要,越重要的特征在区分向量之间差异时所提供的信息越多。

    10、需要说明的,能够有效区分向量之间差别的特征是重要特征,特征对于区分向量时所提供的有用信息越多,其重要程度越高。举例来说,在说话人辨识领域中,特征可包括语声音率、语速、音调、语音强度、语音节奏、语音韵律、语音重音、语音音质等。这些特征对于说话人的辨识都有一定的影响,一般来说,语声音率和音调可能是最重要的特征,因为它们能够有效地区分不同的说话人,其次,语音强度和语速等特征可以是次要特征,语音节奏、语音韵律、语音重音可以是重要程度最低的特征,因此代表语声音率和音调的特征可以由靠前位置的比特位来进行表示,语音强度和语速的特征可以由中间位置的比特位来进行表示,语音节奏、韵律等特征可以由靠后位置的比特位来表示。上述举例用于说明,本技术不作具体限定。

    11、实施上述实现方式,待查询的数字信息的特征被压缩至第一编码的前几个比特位,其前m个比特位能够表示n维向量的特征,也就是说,n维向量的特征被提取至第一编码的前m个比特位中,并且比特位的位置越靠前,其表示的特征的重要程度越高,从而实现在不丢失向量特征的前提下,对数字信息的特征实现了压缩,使得后续特征匹配时,前几位一致的两个编码之间已经存在较大的相似度,如果注册向量库不存在与第一编码相同的第二编码,也可以根据前几位与第一编码相同的第二编码,确定数字信息对应的目标对象,该目标对象是与数字信息的相似的对象,从而人提高信息识别的效率,提高方案的适用性,避免注册向量库信息量不足时,无法识别到数字信息对应目标对象这一情况的发生。

    12、在一可能的实现方式中,第一编码与第二编码的前x个比特位相同,其中,x小于或等于m。

    13、实施上述实现方式,由于第一编码和第二编码是将数字信息的特征压缩至前m位,并且越靠前的比特位指示的特征越重要,越易于区分向量之间的差别,因此第一编码和第二编码不需要完全匹配一致即可获得数字信息对应的目标对象,从而进一步提高匹配效率,提高数字信息识别的效率。

    14、在一可能的实现方式中,第一编码是通过编码模型获得的,编码模型在模型训练过程中,通过掩码器对编码模型的输出结果进行掩码,使得训练好的编码模型的输出结果中的前m个比特位用于表示输入数据的特征。

    15、进一步地,编码模型包括编码器、掩码器和解码器,掩码器用于在模型训练过程中将样本输入编码器后,基于编码器的输出结果进行掩码操作获得样本的第一编码,解码器用于对第一编码进行解码,编码模型在训练过程中通过损失值对编码器的模型参数进行调整直至模型收敛,其中,损失值是根据解码器的输出结果与样本之间的差距确定的。

    16、实施上述实现方式,编码模型通过掩码器和解码器进行迭代训练,使得训练好的编码器拥有将特征提取至第一编码的前n个比特位的能力,这样无论是何种应用场景,通过该方式都可以使得编码器拥有上述能力,提高方案的可适应性。

    17、在一可能的实现方式中,编码模型包括采样器,采样器用于基于编码器的输出结果进行采样获得采样结果,掩码器用于基于采样结果进行掩码操作获得样本的第一编码,采样结果近似于n位二进制编码。

    18、应理解,通过对编码器的输出结果进行采样,然后再对采样结果进行有序掩码,可以使得掩码后生成的第一编码接近于二进制码,这样对第一编码进行解码还原,根据解码器输出结果与输入向量之间的差距来确定损失值,然后以此对编码器参数进行调整,可以使得最终训练好的编码器获得的编码结果比较接近于二进制码,对该编码结果二进制化以后可以减少编码损失,提高编码精度。

    19、在一可能的实现方式中,掩码器包括第一掩码器和第二掩码器,第一掩码器用于对编码器的输出结果进行掩码操作获得样本的第二编码,采样器用于对第二编码进行采样获得采样结果,第二掩码器用于对采样结果进行掩码获得样本的第一编码。

    20、需要说明的,掩码器的数量越多,会增加训练复杂度,加重服务器压力和训练成本,因此可以根据应用场景选择合适的掩码器数量,本技术不作具体限定。

    21、实施上述实现方式,通过对此对编码进行多次掩码操作,并且每次掩码的位数m+1是随机采样确定的,使得编码模型在不断迭代训练时,向量的特征会不断向靠前位置的比特位压缩,并且比特位的位置越靠前,其表示的特征的重要程度越高,同时结合解码器计算损失,使得编码模型可以在不丢失向量特征的前提下,对向量实现了压缩,将向量的特征被集中在编码的前几个比特位中,提高后续信息识别的效率,而且多次掩码还可以提高编码模型的鲁棒性和泛化能力,提高方案的普适性。

    22、在一可能的实现方式中,掩码操作包括对输入掩码器的数据中的第m+1个比特位~第n个比特位进行掩码操作,其中,m是从1至n随机采样获得的整数。

    23、实施上述实现方式,通过在模型训练过程中,随机掩盖编码器的输出结果的后几个比特位,使得编码模型在不断迭代训练时,向量的特征会不断向靠前位置的比特位压缩,并且比特位的位置越靠前,这样无论是何种应用场景,通过该方式都可以使得编码器拥有上述能力,提高方案的可适应性。

    24、在一可能的实现方式中,编码模型包括二进制编码器,将数字信息输入编码器,将编码器的输出结果输入二进制编码器,获得第一编码。具体实现中,二进制编码器通过判别函数实现,比如正负判别函数,将大于0的比特位映射为1,小于0的比特位映射为0,从而获得向量的二进制编码。应理解,上述举例用于说明,本技术不作具体限定。

    25、模型训练过程中,输入数据输入编码器,然后将编码器的输出结果输入第一掩码器,获得第二编码,然后将第二编码输入采样器,获得采样结果,然后将采样结果输入第二掩码器,获得第一编码,最后将第一编码输入解码器,根据解码器的输出与输入数据之间的差距确定损失值,根据损失值对编码器的模型参数进行调整,重复上述步骤直至损失值达到阈值,获得训练好的编码器。

    26、在模型推理过程中,数字信息转化为查询向量,然后将查询向量输入编码器,然后将编码器的输出结果输入二进制编码器,获得该数字信息的第一编码。

    27、实施上述实现方式,编码模型通过掩码器、采样器以及解码器进行训练,使得编码模型的输出结果中,向量的特征被集中在输出结果的前几个比特位,并且输出结果与二进制码比较类似,因此将编码模型的输出结果通过二进制编码器生成的二进制编码时,二进制转化的损失很小,避免对向量进行二进制转化产生的精度损失,同时,生成的二进制编码中向量的特征由前几个比特位进行了表示,这样在后续信息识别时,可以专注于匹配前几个比特位,提高后续信息识别的效率。

    28、在一可能的实现方式中,搜索树包括二叉搜索树,在获取待查询的数字信息之前,该方法还包括以下步骤:获取多个注册向量,将多个注册向量输入编码模型,获得多个注册向量中每个注册向量的第二编码,其中,第二编码中的前m个比特位用于描述注册向量的特征,位置越靠前的比特位所指示的特征越重要,根据每个注册向量的第二编码创建搜索树,其中,搜索树中的每个搜索路径对应一个第二编码,搜索树包括多个搜索层,多个搜索层中的每个搜索层包括左子节点和/或右子节点。

    29、实施上述实现方式,由于第二编码是有序的二进制编码,因此可以基于多个第二编码创建二叉搜索树,每个搜索路径对应一个第二编码,使得信息识别可以通过简单地匹配二叉搜索树来实现,不需要与每一个第二编码进行匹配,可以提高信息识别的效率。

    30、在一可能的实现方式中,利用第一编码与搜索树进行匹配时,从第一编码的首个比特位和搜索树的首个搜索层开始,按比特位的顺序以及搜索层的顺序,将第一编码的比特位与搜索层中的左子节点和/或右子节点进行匹配,记录每个搜索层中匹配成功的目标子节点,确定搜索路径,其中,搜索路径包括多个目标子节点按照匹配成功的顺序组成的子节点序列,搜索路径中目标子节点的数量小于或等于第一编码中比特位的数量。

    31、实施上述实现方式,通过训练好的编码模型所输出的第一编码中的前m个比特位用于表示查询向量的特征,越重要的特征所对应的比特位越靠前,因此可以从第一编码首位开始依次与搜索树进行层层匹配,直至当前位置的比特位与当前搜索层中的左右子节点匹配失败,获取包含该目标子节点序列顺序的至少一个搜索路径,这样确保最终获得的第二编码中前x个比特位与第一编码是相同的,参考前述内容可知,重要程度越高的特征,其携带的信息对于区分向量之间区别的贡献越大,因此先从最重要的特征开始依次进行匹配,直至匹配失败,可以检索出与第一编码最近似的第二编码,避免注册的信息库中由于没有与第一编码相同的第二编码时,无法返回信息识别结果的问题出现,提高用户的使用体验。

    32、在一可能的实现方式中,与查询向量相关的注册向量包括第一搜索路径对应的第一注册向量,其中,第一搜索路径中目标子节点的数量等于第一编码中比特位的数量,第一编码与第二编码相同。

    33、可选地,与查询向量相关的注册向量包括第二搜索路径对应的第二注册向量,其中,第二搜索路径中目标子节点的数量小于第一编码中比特位的数量,第一编码与第二编码相似。

    34、实施上述实现方式,由于每一层搜索层包括左右子节点,第一编码在匹配搜索树时,当前搜索层匹配成功获得目标子节点后,可以确定与该目标子节点相连的下一个搜索层,然后继续进行匹配,而与当前搜索层的非目标子节点相连的下一个搜索层则不需要匹配,所以并不是每个第二编码都与第一编码进行了匹配,通过每个搜索层可以不断剔除与第一编码不相关的第二编码,由于越重要的特征所对应的比特位越靠前,所以越靠前的搜索层剔除的第二编码与第一编码的相关性越差,因此本技术提供的方案可以减少资源消耗,提高信息识别的效率。

    35、因此,长度为m的第一编码,在n个第二编码中进行检索的时间复杂度为o(nm),即需要计算nm次第一编码和第二编码之间的相似度,比如余弦距离。本技术通过二叉搜索树的检索方式,其检索时间复杂度为o(m),与第二编码的数量n无关,能够极大地提高信息识别的效率,同时,在二叉树上的搜索只是一连串的比特匹配,搜索速度很快,能够进一步提高信息识别的效率。

    36、第二方面,本技术提供了一种信息识别系统,该系统包括7.一种信息识别系统,其特征在于,系统包括:获取单元,用于获取待查询的数字信息,编码单元,用于对待查询的数字信息进行编码,获得待查询的数字信息的第一编码,匹配单元,用于利用第一编码与搜索树进行匹配,确定与数字信息对应的目标对象,其中,搜索树包括多个搜索路径,多个搜索路径中的每个搜索路径对应一个对象的第二编码。

    37、实施第二方面描述的系统,通过对待查询的数字信息进行编码,获得待查询的数字信息的第一编码,然后利用第一编码与搜索树进行匹配,确定待查询的数字信息对应的目标对象,其中,该搜索树包括多个搜索路径,每个搜索路径对应一个对象的第二编码,这样,通过预先对注册信息库中多个对象的数字信息进行编码每个对象的第二编码,基于第二编码进行搜索树的创建,使得信息识别可通过匹配搜索树的方式实现,提高信息识别的精度和效率。

    38、在一可能的实现方式中,第一编码是n位二进制编码,第一编码中的前m个比特位用于表示数字信息的特征,m<n。

    39、在一可能的实现方式中,数字信息包括下述的一种或多种:声音信息、图像信息、文字信息。

    40、在一可能的实现方式中,第一编码与第二编码的前x个比特位相同,其中,x小于或等于m。

    41、在一可能的实现方式中,第一编码是通过编码模型获得的,编码模型在模型训练过程中,通过掩码器对编码模型的输出结果进行掩码,使得训练好的编码模型的输出结果中的前m个比特位用于表示输入数据的特征。

    42、在一可能的实现方式中,掩码器用于对编码模型的输出结果的第m+1个比特位~第n个比特位进行掩码操作,其中,m是从1至n随机采样获得的整数。

    43、第三方面,提供了一种计算设备,该计算设备包括处理器和存储器,存储器用于存储指令,处理器用于执行指令,以使得计算设备实现如第一方面描述的方法。

    44、第四方面,提供了一种计算设备集群,该计算设备集群包括至少一个计算设备,至少一个计算设备中的每个计算设备包括处理器和存储器,至少一个计算设备的处理器用于执行至少一个计算设备的存储器中存储的指令,以使得计算设备集群实现如第一方面描述的方法。

    45、第五方面,提供了一种计算机可读存储介质,计算机可读存储介质中存储有指令,指令被计算设备或者计算设备集群运行时实现如第一方面描述的方法。


    技术特征:

    1.一种信息识别方法,其特征在于,所述方法应用于信息识别装置,所述方法包括:

    2.根据权利要求1所述的方法,其特征在于,所述第一编码是n位二进制编码,所述第一编码中的前m个比特位用于表示所述数字信息的特征,m<n。

    3.根据权利要求1或2所述的方法,其特征在于,所述数字信息包括下述的一种或多种:声音信息、图像信息、文字信息。

    4.根据权利要求1至3任一权利要求所述的方法,其特征在于,所述第一编码与所述第二编码的前x个比特位相同,其中,x小于或等于m。

    5.根据权利要求2至4任一权利要求所述的方法,其特征在于,所述第一编码是通过编码模型获得的,所述编码模型在模型训练过程中,通过掩码器对所述编码模型的输出结果进行掩码,使得训练好的编码模型的输出结果中的前m个比特位用于表示输入数据的特征。

    6.根据权利要求5所述的方法,其特征在于,所述掩码器用于对编码模型的输出结果的第m+1个比特位~第n个比特位进行掩码操作,其中,所述m是从1至n随机采样获得的整数。

    7.一种信息识别系统,其特征在于,所述系统包括:

    8.根据权利要求7所述的系统,其特征在于,所述第一编码是n位二进制编码,所述第一编码中的前m个比特位用于表示所述数字信息的特征,m<n。

    9.根据权利要求7或8所述的系统,其特征在于,所述数字信息包括下述的一种或多种:声音信息、图像信息、文字信息。

    10.根据权利要求7至9任一权利要求所述的系统,其特征在于,所述第一编码与所述第二编码的前x个比特位相同,其中,x小于或等于m。

    11.根据权利要求8至10任一权利要求所述的系统,其特征在于,所述第一编码是通过编码模型获得的,所述编码模型在模型训练过程中,通过掩码器对所述编码模型的输出结果进行掩码,使得训练好的编码模型的输出结果中的前m个比特位用于表示输入数据的特征。

    12.根据权利要求11所述的系统,其特征在于,所述掩码器用于对编码模型的输出结果的第m+1个比特位~第n个比特位进行掩码操作,其中,所述m是从1至n随机采样获得的整数。

    13.一种计算设备集群,其特征在于,包括至少一个计算设备,所述至少一个计算设备中的每个计算设备包括处理器和存储器,所述至少一个计算设备的处理器用于执行所述至少一个计算设备的存储器中存储的指令,以使得所述计算设备集群实现如权利要求1至6任一权利要求所述的方法。

    14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有指令,所述指令被计算设备或者计算设备集群运行时实现如权利要求1至6任一权利要求所述的方法。

    15.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机程序,当所述计算机程序被计算设备或者计算设备集群运行时实现如权利要求1至6任一权利要求所述的方法。


    技术总结
    本申请提供了一种信息识别方法、系统及相关设备,该方法包括以下步骤:获取待查询的数字信息,对待查询的数字信息进行编码,获得数字信息的第一编码,利用第一编码与搜索树进行匹配,确定与数字信息相关的目标对象,该搜索树包括多个搜索路径,每个搜索路径对应一个对象的第二编码,通过预先对注册信息库中多个对象的数字信息进行编码每个对象的第二编码,基于第二编码进行搜索树的创建,使得信息识别可通过匹配搜索树的方式实现,提高信息识别的精度和效率。

    技术研发人员:王娜敏,刘杰,王东
    受保护的技术使用者:华为云计算技术有限公司
    技术研发日:
    技术公布日:2024/10/24
    转载请注明原文地址:https://symbian.8miu.com/read-36249.html

    最新回复(0)