一种智能音箱控制系统及方法与流程

技术2024-12-17 80

本发明涉及音箱控制，更具体地说，本发明涉及一种智能音箱控制系统及方法。

背景技术：

1、申请公开号为cn112152890a的专利公开了一种基于智能音箱的控制系统及方法，智能音箱通过识别设备控制指令中是否包含预置语音，来确定待控制设备是第一智能设备还是第二智能设备，对于复杂的第一智能设备，智能音箱直接将接收到的设备控制语音发送至第一目标智能设备，第一目标智能设备通过自身配置的语音助手解析相应设备控制语音，生成相应的控制指令。对于简单的第二智能设备，智能音箱直接将接收到的设备控制语音解析成相应的第二控制指令，并发送第二控制指令至第二目标智能设备，实现智能设备的灵活控制。

2、在日常生活中,人们越来越多地使用智能音箱等语音交互设备来控制家居设备、播放音乐、查询信息等，然而,现有的方法在语音识别和指令理解方面存在诸多不足,导致用户体验不佳；首先,现有的语音识别技术在复杂环境下表现不佳，比如在嘈杂的家庭环境中,电视机、家人谈话等噪音会严重影响语音识别的准确性,导致音箱无法正确识别用户的指令，此外,不同地区用户的口音也给语音识别带来了挑战,同一个词语可能会被误识别成其他词；其次,现有技术对语音指令的语义理解能力有限，用户在发出指令时,往往会使用比较自然、富有语义关联的表述方式,如“把客厅的灯打开,那个亮一些”，而现有方法主要依赖简单的规则或模板匹配,无法很好地捕捉和建模这种语义关联,导致理解错误；再者,现有方法无法根据具体语境动态调整理解策略，用户可能会使用同一种表述方式发出不同的指令,如“放一点音乐”和“放一点新闻”，但现有方法往往采用固定的理解模型和规则,无法根据语境灵活理解用户的实际意图；最后,智能音箱作为一种新兴的人机交互方式,用户对其的期望值也在不断提高，但是现有的智能音箱语音技术,很难满足用户日益增长的需求。

3、鉴于此，本发明提出一种智能音箱控制系统及方法以解决上述问题。

技术实现思路

1、为了克服现有技术的上述缺陷，为实现上述目的，本发明提供如下技术方案：一种智能音箱控制系统，包括：语音识别模块，用于获取智能音箱的输入音频信号，并对输入音频信号进行语音识别，得到识别文本；

2、关联度拟合模块，用于将识别文本进行分词处理，得到n个分词构成的分词序列；计算分词序列中每个分词的局部关联度；

3、综合信息过渡模块，基于分词序列以及每个分词的局部关联度，构建指令语义图；

4、指令生成模块，用于在指令语义图中利用图理论算法识别出最佳指令路径，基于最佳指令路径识别出的最终指令；根据最终指令控制智能音箱执行操作；各个模块之间通过有线和/或无线的方式进行连接。

5、进一步地，所述对输入音频信号进行语音识别的方式包括：

6、将输入音频信号进行预处理，得到m帧语音信号，对每一帧语音信号进行快速傅里叶变换，获得每一帧语音信号对应的频谱；将频谱通过改进三角带通滤波器组获得对应的能量；将能量进行对数运算，将对数运算的结果进行离散余弦变换，得到每一帧语音信号的特征向量；并排列构成特征向量序列；

7、构建声学模型和语言模型，将特征向量序列输入声学模型，利用维特比算法求解得到状态序列；

8、将状态序列与语言模型结合，解码出最终的识别文本序列，即为识别文本。

9、进一步地，将输入音频信号进行预处理的方式包括：

10、将输入语音信号进行线性预测分析，得到预测系数；将输入语音信号分割成m个短时分析帧；分割的公式为：x_i(n')＝x(n'+i×m)×w(n'-i×r)；其中，x_i(n')为第i个短时分析帧，m为漂移量，n'是短时分析帧内采样点的索引，一个短时分析帧内共有n2个采样点；r为帧移，x(n'+i×m)为输入语音信号中相应位移m个采样点处的值；

11、w(n'-i×r)＝a0-a1·cos(v1)+a2·cos(v2)-a3·cos(v3)；

12、式中，a0为常数窗系数，a1为一次窗系数，a2为二次窗系数，a3为三次窗系数；b、c和d为可调因子；

13、将每个短时分析帧长度l划分为k个子段；对每个子段分别进行线性预测分析，得到每个子段对应的预测系数；

14、将第k个子段x_k(n”)建模为激励源e_k(n”)＝x_k(n”)×1-∑j＝1→p_ka_k(j)·z(-j)，其中，a_k(j)为第j个预测系数，p_k表示第k个子段使用的预测阶数；n”是子段内采样点的索引；z表示z变换的复变量；

15、利用lev i nson-durbi n递归算法求解得到每个子段对应的预测系数；

16、对于每个子段k，构造一个反向滤波器a(z)，其系数为子段k的预测系数的负值；将子段k对应的语音信号通过对应的反向滤波器a(z)，得到预加重子段信号；将所有预加重子段信号拼接，得到对应的短时分析帧的预加重语音信号；全部短时分析帧的预加重语音信号，即为m帧语音信号。

17、进一步地，所述将频谱通过改进三角带通滤波器组获得对应的能量的方式包括：

18、初始化改进三角带通滤波器组的基础参数，基础参数包括梅尔尺度上的中心频率集合、低频带宽调整系数α、高频带宽调整系数β、低频增益调整系数γ以及高频增益调整系数δ，其中，中心频率集合中共m4个中心频率；

19、预设的带宽调整阈值mc，对于每个中心频率fcg，若fcg小于mc，则定义对应三角形滤波器的带宽bwg＝α×bwref，其中，bwref为参考带宽，若fcg大于或等于mc，则定义对应三角形滤波器的带宽bwg＝β×bwref；其中，g为中心频率的索引；

20、预设的增益调整阈值ma，若fcg小于ma，则定义对应的三角形滤波器的增益fag＝γ；若fcg大于或等于ma，则定义对应的三角形滤波器的增益fag＝δ；

21、基于得到的带宽和增益定义对应的三角形滤波器hg(s)的基础规则；基础规则包括左侧频率右侧频率在[fl,fcg]区间，hg(s)线性增长、在[fcg,fr]区间，hg(s)线性减小以及hg(s)最大值为fag；

22、对频谱施加对应的三角形滤波器，得到m5个滤波器输出，对每个滤波器输出取对数，即获得对应的能量。

23、进一步地，所述将识别文本进行分词处理的方式包括：

24、构建一个规则集合r，包含最大正向匹配分词规则和最小过度原理分词规则；对于识别文本，应用最大正向匹配分词规则进行分词，获得第一候选分词序列y_r；应用最小过度原理分词规则进行分词，获得第二候选分词序列y_p；定义候选分词序列包括第一候选分词序列y_r和第二候选分词序列y_p；

25、将候选分词序列进行层次分词处理，所述进行层次分词处理的方式包括：

26、使用最大正向匹配分词规则对候选分词序列进行分词，得到初步分词结果y_0；对于y_0中的每个分词，判断其长度是否大于或等于预设的词长度阈值；若是，则将对应的分词记作需细分词；若否，则将对应的分词，记作保留分词；

27、将需细分词，使用最小过度原理分词规则进行细分，得到细分结果，用细分结果替换需细分词，得到层次分词结果；层次分词结果和保留分词构成分词结果；层次分词结果由n1个分词组成；分词结果即为n个分词构成的分词序列。

28、进一步地，所述计算分词序列中每个分词的局部关联度的方式包括：

29、使用预训练的词向量模型，为分词序列中的每个分词生成对应的词向量；

30、初始化计算局部关联度的自适应参数，自适应参数包括上下文窗口大小k_init、窗口大小调整步长δ1、语义重要性阈值下限θ_low以及语义重要性阈值上限θ_high；

31、对于每个词向量wf，其中，f为词向量的索引；

32、计算其语义重要性得分其中，α1为语义权重系数，β1为丰富度权重系数，p(wf)为预设的词典中wf的义项数，pmax为预设的词典的最大义项数；

33、其中，yu(wf)为wf在分词序列中出现的次数除以分词序列中的总词数n5；df(wf)＝1+log(gf)，其中，gf为wf在分词序列中出现的次数；

34、对于词向量wf，根据其语义重要性得分调整上下文窗口大小，若sf大于或等于θ_high，则调整上下文窗口大小至kf＝min(k_init+δ1,k_max)；

35、若sf小于θ_low，则调整上下文窗口大小至kf＝max(k_init-δ1,k_min)；否则，kf＝k_init；其中，k_max和k_min分别为预设的窗口大小的上限和下限；

36、对于分词序列中的wf，其局部上下文包括前kf个分词和后kf个分词；对于词向量wf，计算其与局部上下文内每个分词的余弦相似度；得到2kf个余弦相似度；对得到的2kf个余弦相似度进行加权平均；得到加权结果，将加权结果进行归一化处理，得到对应的归一化后的加权平均值yf；结合语义重要性得分sf和归一化后的加权平均值yf，计算得到局部关联度rf＝β2×sf+(1-β2)×yf，其中β2为平衡参数。

37、进一步地，所述构建指令语义图的方式包括：

38、创建一个空的有向图g＝(v，e)，其中v为顶点集合，e为边集合，将分词序列中的每个分词作为有向图g中的一个顶点加入v；

39、对于分词序列中的每对相邻的分词dsh'和dsh'+1；其中，h'为分词序列中分词的索引；在有向图g中添加一条从分词dsh'对应的顶点到dsh'+1对应顶点的有向边；并将有向边的权重设为dsh'和dsh'+1的局部关联度的平均值；

40、设置跳跃窗口及其大小kl；对于分词序列中的每个分词dsh'，获取dsh'之后的kl个分词dsh'；其中h'处于区间(h,h+kl]内；

41、计算dsh'和dsh'之间的局部关联度r(h',h')，若r(h',h')大于或等于预设的关联度阈值thp，则在有向图g中添加一条从dsh'对应顶点到dsh'对应顶点的有向边，其权重设为dsh'和dsh'的局部关联度的平均值；

42、对有向图g的每个顶点分配一个初始的重要值，定义最大迭代次数，并迭代计算每个顶点的重要性得分；

43、重要性得分的计算公式为：

44、其中，n4为有向图g中顶点的总数，d'为阻尼因子；pr(v')为顶点v'的新的重要值，pr(u')为指向v'的顶点u'当前的重要值；l(u')为从顶点u'出发的有向边的数量；达到最大迭代次数，停止迭代得到每个顶点的重要性得分；

45、将顶点的重要性得分与对应分词的局部关联度相乘，得到顶点对应的综合重要性得分；

46、基于顶点对应的综合重要性得分将有向图g进行聚类，将属于同一聚类的顶点组合成一个语义单元；将每个语义单元添加语义标签，即完成指令语义图的构建。

47、进一步地，所述将有向图g进行聚类的方式包括：

48、初始化将每个顶点作为单独的社区进行聚类，进行聚类的方式包括第一阶段和第二阶段；

49、第一阶段包括：

50、对于每个顶点v'，计算将顶点v'移动到其邻居顶点所在社区的模块度增益；将v'移动到产生最大正向的模块度增益的社区；若没有正向的模块度增益，则v'保持不变，重复直到没有顶点能移动；

51、第二阶段包括：

52、将第一阶段形成的社区视为新的超级节点，创建一个网络，网络的节点是这些超级节点；边的权重是原始社区间的边权重的总和；并在这个网络上重复第一阶段；

53、重复第一阶段和第二阶段，直到网络的模块度的增加程度小于预设的暂定阈值；

54、模块度的计算公式为：其中，m4是网络中边的总数，aij是节点i和j之间边的权重；ki和kj是节点i和j的度，ci和cj是节点i和j所属的社区，δl是克罗内克函数；获取最终的社区的划分结果，并为每个社区分配一个唯一的标识符；即完成聚类。

55、进一步地，所述最佳指令路径的获取方式包括：

56、选择综合重要性得分最高的顶点作为起始节点，选择与执行动作相关的节点作为终止节点；将指令语义图中的边进行权重归一化处理；

57、初始化一个距离数组dist和前驱节点数组prev，将起始节点到自身的距离设为0，其他节点距离设为无穷大；创建一个优先队列pq，将起始节点加入优先队列pq；当优先队列不为空时，从优先队列pq中取出距离最小的节点yt，对于yt的每个邻接的节点yu，计算从起始节点经过yt到达yu的新的距离newdist，若newdist小于dist[yu]，则更新dist[yu]和prev[yu]，并将yu加入优先队列；其中，dist[yu]为从起始节点到节点yu的当前最短距离，prev[yu]为在最短路径中到达节点yu之前的那个节点；

58、结束后，距离数组dist包含起始节点到所有其他节点的最短距离，前驱节点数组prev包含最短路径信息；

59、从终止节点开始，通过前驱节点数组prev回溯到起始节点，得到初始最佳路径；

60、对于初始最佳路径中的连续三个节点a1、b1和c1，如果a1到c1有直接连接且权重大于a1至b1和b1至c1的权重乘积，则移除b1；即得到最佳指令路径。

61、一种智能音箱控制方法，其基于所述的一种智能音箱控制系统实现，包括：s1、获取智能音箱的输入音频信号，并对输入音频信号进行语音识别，得到识别文本；

62、s2、将识别文本进行分词处理，得到n个分词构成的分词序列；计算分词序列中每个分词的局部关联度；

63、s3、基于分词序列以及每个分词的局部关联度，构建指令语义图；

64、s4、在指令语义图中利用图理论算法识别出最佳指令路径，基于最佳指令路径识别出的最终指令；根据最终指令控制智能音箱执行操作。

65、本发明一种智能音箱控制系统及方法的技术效果和优点：

66、本发明能够有效滤除输入的语音信号中的背景噪音、嘈杂声等干扰，提取出纯净的语音成分，结合优化的声学模型和语言模型，显著提高了语音识别的准确性和鲁棒性，实现了对指令语义的深度理解，有效解决了传统方法难以处理的歧义性强、表达方式多样的口语化指令问题；并且通过构建指令语义图，能够准确捕捉用户语音指令中的语义关联和结构信息，对于复杂的、带有上下文关系的指令进行精准理解，使系统不再被简单的指令约束，用户可以自由地使用更加自然、富有表现力的语言进行交互，都能正确领会语义，极大提升了交互的自然性和流畅性；同时，拥有高效的指令生成功能，能够将理解到的语义信息转化为精准的可执行指令，确保指令得到准确无误的执行，用户不需要遵循特定的命令格式，只需自然表达即可，使音响的语音交互变得更加直观友好。

技术特征：

1.一种智能音箱控制系统，其特征在于，包括：语音识别模块，用于获取智能音箱的输入音频信号，并对输入音频信号进行语音识别，得到识别文本；

2.根据权利要求1所述的一种智能音箱控制系统，其特征在于，所述对输入音频信号进行语音识别的方式包括：

3.根据权利要求2所述的一种智能音箱控制系统，其特征在于，将输入音频信号进行预处理的方式包括：

4.根据权利要求3所述的一种智能音箱控制系统，其特征在于，所述将频谱通过改进三角带通滤波器组获得对应的能量的方式包括：

5.根据权利要求4所述的一种智能音箱控制系统，其特征在于，所述将识别文本进行分词处理的方式包括：

6.根据权利要求5所述的一种智能音箱控制系统，其特征在于，所述计算分词序列中每个分词的局部关联度的方式包括：

7.根据权利要求6所述的一种智能音箱控制系统，其特征在于，所述构建指令语义图的方式包括：

8.根据权利要求7所述的一种智能音箱控制系统，其特征在于，所述将有向图g进行聚类的方式包括：

9.根据权利要求8所述的一种智能音箱控制系统，其特征在于，所述最佳指令路径的获取方式包括：

10.一种智能音箱控制方法，其基于权利要求1至9任一项所述的一种智能音箱控制系统实现，其特征在于，包括：s1、获取智能音箱的输入音频信号，并对输入音频信号进行语音识别，得到识别文本；

技术总结
本发明属于音箱控制技术领域，本发明公开了一种智能音箱控制系统及方法；包括：获取智能音箱的输入音频信号，并对输入音频信号进行语音识别，得到识别文本；将识别文本进行分词处理，得到n个分词构成的分词序列；计算分词序列中每个分词的局部关联度；基于分词序列以及每个分词的局部关联度，构建指令语义图；在指令语义图中利用图理论算法识别出最佳指令路径，基于最佳指令路径识别出的最终指令；根据最终指令，控制智能音箱执行操作；使音响的语音交互变得更加直观友好。

技术研发人员：周保初,吴丽红,黄正彩,王永超,周立平,覃光亚,白培欢
受保护的技术使用者：深圳市雅轩科技有限公司
技术研发日：
技术公布日：2024/10/24

转载请注明原文地址:https://symbian.8miu.com/read-23785.html

专利

最新回复(0)