一种智能音箱控制系统及方法与流程

    技术2024-12-17  9


    本发明涉及音箱控制,更具体地说,本发明涉及一种智能音箱控制系统及方法。


    背景技术:

    1、申请公开号为cn112152890a的专利公开了一种基于智能音箱的控制系统及方法,智能音箱通过识别设备控制指令中是否包含预置语音,来确定待控制设备是第一智能设备还是第二智能设备,对于复杂的第一智能设备,智能音箱直接将接收到的设备控制语音发送至第一目标智能设备,第一目标智能设备通过自身配置的语音助手解析相应设备控制语音,生成相应的控制指令。对于简单的第二智能设备,智能音箱直接将接收到的设备控制语音解析成相应的第二控制指令,并发送第二控制指令至第二目标智能设备,实现智能设备的灵活控制。

    2、在日常生活中,人们越来越多地使用智能音箱等语音交互设备来控制家居设备、播放音乐、查询信息等,然而,现有的方法在语音识别和指令理解方面存在诸多不足,导致用户体验不佳;首先,现有的语音识别技术在复杂环境下表现不佳,比如在嘈杂的家庭环境中,电视机、家人谈话等噪音会严重影响语音识别的准确性,导致音箱无法正确识别用户的指令,此外,不同地区用户的口音也给语音识别带来了挑战,同一个词语可能会被误识别成其他词;其次,现有技术对语音指令的语义理解能力有限,用户在发出指令时,往往会使用比较自然、富有语义关联的表述方式,如“把客厅的灯打开,那个亮一些”,而现有方法主要依赖简单的规则或模板匹配,无法很好地捕捉和建模这种语义关联,导致理解错误;再者,现有方法无法根据具体语境动态调整理解策略,用户可能会使用同一种表述方式发出不同的指令,如“放一点音乐”和“放一点新闻”,但现有方法往往采用固定的理解模型和规则,无法根据语境灵活理解用户的实际意图;最后,智能音箱作为一种新兴的人机交互方式,用户对其的期望值也在不断提高,但是现有的智能音箱语音技术,很难满足用户日益增长的需求。

    3、鉴于此,本发明提出一种智能音箱控制系统及方法以解决上述问题。


    技术实现思路

    1、为了克服现有技术的上述缺陷,为实现上述目的,本发明提供如下技术方案:一种智能音箱控制系统,包括:语音识别模块,用于获取智能音箱的输入音频信号,并对输入音频信号进行语音识别,得到识别文本;

    2、关联度拟合模块,用于将识别文本进行分词处理,得到n个分词构成的分词序列;计算分词序列中每个分词的局部关联度;

    3、综合信息过渡模块,基于分词序列以及每个分词的局部关联度,构建指令语义图;

    4、指令生成模块,用于在指令语义图中利用图理论算法识别出最佳指令路径,基于最佳指令路径识别出的最终指令;根据最终指令控制智能音箱执行操作;各个模块之间通过有线和/或无线的方式进行连接。

    5、进一步地,所述对输入音频信号进行语音识别的方式包括:

    6、将输入音频信号进行预处理,得到m帧语音信号,对每一帧语音信号进行快速傅里叶变换,获得每一帧语音信号对应的频谱;将频谱通过改进三角带通滤波器组获得对应的能量;将能量进行对数运算,将对数运算的结果进行离散余弦变换,得到每一帧语音信号的特征向量;并排列构成特征向量序列;

    7、构建声学模型和语言模型,将特征向量序列输入声学模型,利用维特比算法求解得到状态序列;

    8、将状态序列与语言模型结合,解码出最终的识别文本序列,即为识别文本。

    9、进一步地,将输入音频信号进行预处理的方式包括:

    10、将输入语音信号进行线性预测分析,得到预测系数;将输入语音信号分割成m个短时分析帧;分割的公式为:x_i(n')=x(n'+i×m)×w(n'-i×r);其中,x_i(n')为第i个短时分析帧,m为漂移量,n'是短时分析帧内采样点的索引,一个短时分析帧内共有n2个采样点;r为帧移,x(n'+i×m)为输入语音信号中相应位移m个采样点处的值;

    11、w(n'-i×r)=a0-a1·cos(v1)+a2·cos(v2)-a3·cos(v3);

    12、式中,a0为常数窗系数,a1为一次窗系数,a2为二次窗系数,a3为三次窗系数;b、c和d为可调因子;

    13、将每个短时分析帧长度l划分为k个子段;对每个子段分别进行线性预测分析,得到每个子段对应的预测系数;

    14、将第k个子段x_k(n”)建模为激励源e_k(n”)=x_k(n”)×1-∑j=1→p_ka_k(j)·z(-j),其中,a_k(j)为第j个预测系数,p_k表示第k个子段使用的预测阶数;n”是子段内采样点的索引;z表示z变换的复变量;

    15、利用lev i nson-durbi n递归算法求解得到每个子段对应的预测系数;

    16、对于每个子段k,构造一个反向滤波器a(z),其系数为子段k的预测系数的负值;将子段k对应的语音信号通过对应的反向滤波器a(z),得到预加重子段信号;将所有预加重子段信号拼接,得到对应的短时分析帧的预加重语音信号;全部短时分析帧的预加重语音信号,即为m帧语音信号。

    17、进一步地,所述将频谱通过改进三角带通滤波器组获得对应的能量的方式包括:

    18、初始化改进三角带通滤波器组的基础参数,基础参数包括梅尔尺度上的中心频率集合、低频带宽调整系数α、高频带宽调整系数β、低频增益调整系数γ以及高频增益调整系数δ,其中,中心频率集合中共m4个中心频率;

    19、预设的带宽调整阈值mc,对于每个中心频率fcg,若fcg小于mc,则定义对应三角形滤波器的带宽bwg=α×bwref,其中,bwref为参考带宽,若fcg大于或等于mc,则定义对应三角形滤波器的带宽bwg=β×bwref;其中,g为中心频率的索引;

    20、预设的增益调整阈值ma,若fcg小于ma,则定义对应的三角形滤波器的增益fag=γ;若fcg大于或等于ma,则定义对应的三角形滤波器的增益fag=δ;

    21、基于得到的带宽和增益定义对应的三角形滤波器hg(s)的基础规则;基础规则包括左侧频率右侧频率在[fl,fcg]区间,hg(s)线性增长、在[fcg,fr]区间,hg(s)线性减小以及hg(s)最大值为fag;

    22、对频谱施加对应的三角形滤波器,得到m5个滤波器输出,对每个滤波器输出取对数,即获得对应的能量。

    23、进一步地,所述将识别文本进行分词处理的方式包括:

    24、构建一个规则集合r,包含最大正向匹配分词规则和最小过度原理分词规则;对于识别文本,应用最大正向匹配分词规则进行分词,获得第一候选分词序列y_r;应用最小过度原理分词规则进行分词,获得第二候选分词序列y_p;定义候选分词序列包括第一候选分词序列y_r和第二候选分词序列y_p;

    25、将候选分词序列进行层次分词处理,所述进行层次分词处理的方式包括:

    26、使用最大正向匹配分词规则对候选分词序列进行分词,得到初步分词结果y_0;对于y_0中的每个分词,判断其长度是否大于或等于预设的词长度阈值;若是,则将对应的分词记作需细分词;若否,则将对应的分词,记作保留分词;

    27、将需细分词,使用最小过度原理分词规则进行细分,得到细分结果,用细分结果替换需细分词,得到层次分词结果;层次分词结果和保留分词构成分词结果;层次分词结果由n1个分词组成;分词结果即为n个分词构成的分词序列。

    28、进一步地,所述计算分词序列中每个分词的局部关联度的方式包括:

    29、使用预训练的词向量模型,为分词序列中的每个分词生成对应的词向量;

    30、初始化计算局部关联度的自适应参数,自适应参数包括上下文窗口大小k_init、窗口大小调整步长δ1、语义重要性阈值下限θ_low以及语义重要性阈值上限θ_high;

    31、对于每个词向量wf,其中,f为词向量的索引;

    32、计算其语义重要性得分其中,α1为语义权重系数,β1为丰富度权重系数,p(wf)为预设的词典中wf的义项数,pmax为预设的词典的最大义项数;

    33、其中,yu(wf)为wf在分词序列中出现的次数除以分词序列中的总词数n5;df(wf)=1+log(gf),其中,gf为wf在分词序列中出现的次数;

    34、对于词向量wf,根据其语义重要性得分调整上下文窗口大小,若sf大于或等于θ_high,则调整上下文窗口大小至kf=min(k_init+δ1,k_max);

    35、若sf小于θ_low,则调整上下文窗口大小至kf=max(k_init-δ1,k_min);否则,kf=k_init;其中,k_max和k_min分别为预设的窗口大小的上限和下限;

    36、对于分词序列中的wf,其局部上下文包括前kf个分词和后kf个分词;对于词向量wf,计算其与局部上下文内每个分词的余弦相似度;得到2kf个余弦相似度;对得到的2kf个余弦相似度进行加权平均;得到加权结果,将加权结果进行归一化处理,得到对应的归一化后的加权平均值yf;结合语义重要性得分sf和归一化后的加权平均值yf,计算得到局部关联度rf=β2×sf+(1-β2)×yf,其中β2为平衡参数。

    37、进一步地,所述构建指令语义图的方式包括:

    38、创建一个空的有向图g=(v,e),其中v为顶点集合,e为边集合,将分词序列中的每个分词作为有向图g中的一个顶点加入v;

    39、对于分词序列中的每对相邻的分词dsh'和dsh'+1;其中,h'为分词序列中分词的索引;在有向图g中添加一条从分词dsh'对应的顶点到dsh'+1对应顶点的有向边;并将有向边的权重设为dsh'和dsh'+1的局部关联度的平均值;

    40、设置跳跃窗口及其大小kl;对于分词序列中的每个分词dsh',获取dsh'之后的kl个分词dsh';其中h'处于区间(h,h+kl]内;

    41、计算dsh'和dsh'之间的局部关联度r(h',h'),若r(h',h')大于或等于预设的关联度阈值thp,则在有向图g中添加一条从dsh'对应顶点到dsh'对应顶点的有向边,其权重设为dsh'和dsh'的局部关联度的平均值;

    42、对有向图g的每个顶点分配一个初始的重要值,定义最大迭代次数,并迭代计算每个顶点的重要性得分;

    43、重要性得分的计算公式为:

    44、其中,n4为有向图g中顶点的总数,d'为阻尼因子;pr(v')为顶点v'的新的重要值,pr(u')为指向v'的顶点u'当前的重要值;l(u')为从顶点u'出发的有向边的数量;达到最大迭代次数,停止迭代得到每个顶点的重要性得分;

    45、将顶点的重要性得分与对应分词的局部关联度相乘,得到顶点对应的综合重要性得分;

    46、基于顶点对应的综合重要性得分将有向图g进行聚类,将属于同一聚类的顶点组合成一个语义单元;将每个语义单元添加语义标签,即完成指令语义图的构建。

    47、进一步地,所述将有向图g进行聚类的方式包括:

    48、初始化将每个顶点作为单独的社区进行聚类,进行聚类的方式包括第一阶段和第二阶段;

    49、第一阶段包括:

    50、对于每个顶点v',计算将顶点v'移动到其邻居顶点所在社区的模块度增益;将v'移动到产生最大正向的模块度增益的社区;若没有正向的模块度增益,则v'保持不变,重复直到没有顶点能移动;

    51、第二阶段包括:

    52、将第一阶段形成的社区视为新的超级节点,创建一个网络,网络的节点是这些超级节点;边的权重是原始社区间的边权重的总和;并在这个网络上重复第一阶段;

    53、重复第一阶段和第二阶段,直到网络的模块度的增加程度小于预设的暂定阈值;

    54、模块度的计算公式为:其中,m4是网络中边的总数,aij是节点i和j之间边的权重;ki和kj是节点i和j的度,ci和cj是节点i和j所属的社区,δl是克罗内克函数;获取最终的社区的划分结果,并为每个社区分配一个唯一的标识符;即完成聚类。

    55、进一步地,所述最佳指令路径的获取方式包括:

    56、选择综合重要性得分最高的顶点作为起始节点,选择与执行动作相关的节点作为终止节点;将指令语义图中的边进行权重归一化处理;

    57、初始化一个距离数组dist和前驱节点数组prev,将起始节点到自身的距离设为0,其他节点距离设为无穷大;创建一个优先队列pq,将起始节点加入优先队列pq;当优先队列不为空时,从优先队列pq中取出距离最小的节点yt,对于yt的每个邻接的节点yu,计算从起始节点经过yt到达yu的新的距离newdist,若newdist小于dist[yu],则更新dist[yu]和prev[yu],并将yu加入优先队列;其中,dist[yu]为从起始节点到节点yu的当前最短距离,prev[yu]为在最短路径中到达节点yu之前的那个节点;

    58、结束后,距离数组dist包含起始节点到所有其他节点的最短距离,前驱节点数组prev包含最短路径信息;

    59、从终止节点开始,通过前驱节点数组prev回溯到起始节点,得到初始最佳路径;

    60、对于初始最佳路径中的连续三个节点a1、b1和c1,如果a1到c1有直接连接且权重大于a1至b1和b1至c1的权重乘积,则移除b1;即得到最佳指令路径。

    61、一种智能音箱控制方法,其基于所述的一种智能音箱控制系统实现,包括:s1、获取智能音箱的输入音频信号,并对输入音频信号进行语音识别,得到识别文本;

    62、s2、将识别文本进行分词处理,得到n个分词构成的分词序列;计算分词序列中每个分词的局部关联度;

    63、s3、基于分词序列以及每个分词的局部关联度,构建指令语义图;

    64、s4、在指令语义图中利用图理论算法识别出最佳指令路径,基于最佳指令路径识别出的最终指令;根据最终指令控制智能音箱执行操作。

    65、本发明一种智能音箱控制系统及方法的技术效果和优点:

    66、本发明能够有效滤除输入的语音信号中的背景噪音、嘈杂声等干扰,提取出纯净的语音成分,结合优化的声学模型和语言模型,显著提高了语音识别的准确性和鲁棒性,实现了对指令语义的深度理解,有效解决了传统方法难以处理的歧义性强、表达方式多样的口语化指令问题;并且通过构建指令语义图,能够准确捕捉用户语音指令中的语义关联和结构信息,对于复杂的、带有上下文关系的指令进行精准理解,使系统不再被简单的指令约束,用户可以自由地使用更加自然、富有表现力的语言进行交互,都能正确领会语义,极大提升了交互的自然性和流畅性;同时,拥有高效的指令生成功能,能够将理解到的语义信息转化为精准的可执行指令,确保指令得到准确无误的执行,用户不需要遵循特定的命令格式,只需自然表达即可,使音响的语音交互变得更加直观友好。


    技术特征:

    1.一种智能音箱控制系统,其特征在于,包括:语音识别模块,用于获取智能音箱的输入音频信号,并对输入音频信号进行语音识别,得到识别文本;

    2.根据权利要求1所述的一种智能音箱控制系统,其特征在于,所述对输入音频信号进行语音识别的方式包括:

    3.根据权利要求2所述的一种智能音箱控制系统,其特征在于,将输入音频信号进行预处理的方式包括:

    4.根据权利要求3所述的一种智能音箱控制系统,其特征在于,所述将频谱通过改进三角带通滤波器组获得对应的能量的方式包括:

    5.根据权利要求4所述的一种智能音箱控制系统,其特征在于,所述将识别文本进行分词处理的方式包括:

    6.根据权利要求5所述的一种智能音箱控制系统,其特征在于,所述计算分词序列中每个分词的局部关联度的方式包括:

    7.根据权利要求6所述的一种智能音箱控制系统,其特征在于,所述构建指令语义图的方式包括:

    8.根据权利要求7所述的一种智能音箱控制系统,其特征在于,所述将有向图g进行聚类的方式包括:

    9.根据权利要求8所述的一种智能音箱控制系统,其特征在于,所述最佳指令路径的获取方式包括:

    10.一种智能音箱控制方法,其基于权利要求1至9任一项所述的一种智能音箱控制系统实现,其特征在于,包括:s1、获取智能音箱的输入音频信号,并对输入音频信号进行语音识别,得到识别文本;


    技术总结
    本发明属于音箱控制技术领域,本发明公开了一种智能音箱控制系统及方法;包括:获取智能音箱的输入音频信号,并对输入音频信号进行语音识别,得到识别文本;将识别文本进行分词处理,得到n个分词构成的分词序列;计算分词序列中每个分词的局部关联度;基于分词序列以及每个分词的局部关联度,构建指令语义图;在指令语义图中利用图理论算法识别出最佳指令路径,基于最佳指令路径识别出的最终指令;根据最终指令,控制智能音箱执行操作;使音响的语音交互变得更加直观友好。

    技术研发人员:周保初,吴丽红,黄正彩,王永超,周立平,覃光亚,白培欢
    受保护的技术使用者:深圳市雅轩科技有限公司
    技术研发日:
    技术公布日:2024/10/24
    转载请注明原文地址:https://symbian.8miu.com/read-23785.html

    最新回复(0)