一种基于AI的文字及声音获取、分析及生成方法

    技术2025-07-21  24


    本发明属于人工智能领域,具体涉及一种基于ai的文字及声音获取、分析及生成方法。


    背景技术:

    1、自然语言处理技术早在上个世纪60年代就有了雏形,但因为计算机硬件和软件技术水平的限制,一直没有得到广泛的应用。直到近年来深度学习等人工智能技术的快速发展,使得自然语言处理的技术水平有了质的飞跃,应用领域也得到了广泛的拓展,包括智能客服、智能机器人、机器翻译、信息抽取等领域。

    2、语音识别技术也是类似的发展历程,早在20世纪50年代就已经开始研究,但由于计算机处理能力和语音信号处理技术的限制,一直没有得到广泛的应用。直到近年来深度学习等技术的发展,使得语音识别的准确率和速度得到了大幅提升,应用领域也得到了广泛的拓展,包括智能音箱、智能客服、语音翻译等领域。

    3、随着自然语言处理和语音识别技术的不断发展,人们开始尝试使用自然语言和语音等方式与计算机进行交互。这种方式可以更加直观、自然地表达用户的需求和意图,从而提高用户的体验和效率。但随着需求的不断增加,简单的人机交互已经无法满足日常需求,训练模型所需的数据集样本的好坏程度直接决定了训练效果,如何提高数据样本精确度是需要解决的问题。


    技术实现思路

    1、本发明要解决的技术问题是:现有的语音识别技术识别精度较差。

    2、为此,本发明提供一种基于ai的文字及声音获取、分析及生成方法。

    3、本发明解决其技术问题所采用的技术方案是:

    4、一种基于ai的文字及声音获取、分析及生成方法,包括以下步骤,

    5、步骤一、获取文字、语音数据集;

    6、步骤二、数据预处理,对于文本数据,使用最大匹配法划分出全部的词语;对于语音数据,使用固定帧长法将语音信号等分成多个长度相等的帧;

    7、步骤三、对预处理后的文本数据进行特征提取,通过tf-idf算法计算某个单词在文本中的出现频率与在整个语料库中的出现频率之比来衡量其重要性;

    8、步骤四、对预处理后的音频数据进行特征提取,采用双频变换提取机制ft-wt,将一个时域信号转换成频域信号的方法,得到信号的频域特征;

    9、步骤五、提取到的特征信息注入循环神经网络进行训练,通过反变换将训练后的模型逆向输出为文本、语音实现人机交互。

    10、进一步的,在步骤三中,通过公式tf(w)=count(w)/len(d)计算词频,并通过公式idf(w)=log(n/df(w))计算逆文档频率,将tf和idf相乘,得到单词w的tf_idf值。

    11、进一步的,在步骤四中,音频数据的特征提取具体包括:

    12、s41对于预处理后的语音数据进行傅里叶变换,将一个信号在时域上的波形分解为不同频率的正弦和余弦波形的和在频域上表示;

    13、s42对音频信号进行傅里叶变换的同时对数据并行处理进行小波变换;

    14、s43将分解出来的低频分量和高频分量组成一组小波系数,在频域上对信号进行分析和处理;

    15、s44对傅里叶及小波变换的数据进行数据整合处理。

    16、进一步的,在步骤s41中,将预处理后的语音数据分解为无限个正弦和余弦函数的叠加形式,并转化为复指数形式,再对时域上的信号f(t)计算其在频域上的傅里叶变换f(ω)。

    17、进一步的,时域上的信号为f(t)=∑c_n·einwt,其中,c_n=(a_n-ib_n)/2,einwt=cos(nwt)+isin(nwt),a_0、a_n、b_n、都是常数,n为整数,ω是角频率,i是虚数单位,f(w)=∫f(t)e-iwtdt。

    18、进一步的,在步骤s42中对于一个时域上的信号f(t),使用小波基函数将其分解为一组低频分量(近似分量)和一组高频分量(细节分量):f(t)=a_0(t)+∑d_j(t),其中,a_0(t)表示低频分量,d_j(t)表示第j层高频分量。

    19、进一步的,在步骤s44中以傅里叶变换为底,计算音频信号的ft_wt值,来增加信号的动态范围,提高信噪比ft_wt=log∫f(t)e-iwtdta_0(t)+∑d_j(t),其中ft_wt值为处理后的音频数据综合广域信号值,∫f(t)e-iwtdt为傅里叶变换下的数据,a_0(t)+∑d_j(t)为小波变换下的数据。

    20、进一步的,在步骤s5中,循环神经网络的训练过程包括:

    21、s51将数据转换为向量输入循环神经网络;

    22、s52基于当前时间步的输入数据和上一个时间步的隐藏状态;

    23、s53基于当前时间步的隐藏状态计算循环神经网络的输出。

    24、进一步的,所述步骤s52中,h_t=f(w_hh*h_{t-1}+w_hx*x_t)其中,h_t表示当前时间步的隐藏状态,h_{t-1}表示上一个时间步的隐藏状态,x_t表示当前时间步的输入数据,w_hh和w_hx表示权重矩阵,f()表示激活函数。

    25、进一步的,在步骤六中,在训练完成的循环神经网络模型基础上通过反傅里叶变换及小波重构实现人机交互,首先对模型输出的数据转化为特征向量通过公式f(t)=(1/2π)∫f(w)eiwtdw进行反傅里叶变换将频域上的信号f(ω)转化为时域上的信号f(t),其中,f(ω)是频域上的信号,f(t)是时域上的信号,i是虚数单位;通过公式进行小波重构,其中,a_j和d_j是小波系数,j表示最后一层分解的层数,和ψ_j分别是小波基函数的近似分量和细节分量,n表示时间。

    26、本发明的有益效果是,本发明提供一种基于ai的文字及声音获取、分析及生成方法,本申请在数据特征提取的过程中,在对音频数据进行傅里叶及小波变换后,对两次变换后的数据进行整合处理,以获得更全面的音频信息。以傅里叶变换为底,计算音频信号的ft_wt值,来增加信号的动态范围,提高信噪比,进而更加准确的描述音频信号。从而实现对数据集的精准要素提取,使模型训练的结果更加贴合实际,大大提高人机交互的准确性及实用性。



    技术特征:

    1.一种基于ai的文字及声音获取、分析及生成方法,其特征在于,包括以下步骤,

    2.根据权利要求1所述的基于ai的文字及声音获取、分析及生成方法,其特征在于,在步骤三中,通过公式tf(w)=count(w)/len(d)计算词频,并通过公式idf(w)=log(n/df(w))计算逆文档频率,将tf和idf相乘,得到单词w的tf_idf值。

    3.根据权利要求1所述的基于ai的文字及声音获取、分析及生成方法,其特征在于,在步骤四中,音频数据的特征提取具体包括:

    4.根据权利要求3所述的基于ai的文字及声音获取、分析及生成方法,其特征在于,在步骤s41中,将预处理后的语音数据分解为无限个正弦和余弦函数的叠加形式,并转化为复指数形式,再对时域上的信号f(t)计算其在频域上的傅里叶变换f(ω)。

    5.根据权利要求4所述的基于ai的文字及声音获取、分析及生成方法,其特征在于,时域上的信号为f(t)=∑c_n·einwt,其中,c_n=(a_n-ib_n)/2,einwt=cos(nwt)+isin(nwt),a_0、a_n、b_n、都是常数,n为整数,ω是角频率,i是虚数单位,f(w)=∫f(t)e-iwtdt。

    6.根据权利要求3所述的基于ai的文字及声音获取、分析及生成方法,其特征在于,在步骤s42中对于一个时域上的信号f(t),使用小波基函数将其分解为一组低频分量(近似分量)和一组高频分量(细节分量):f(t)=a_0(t)+∑d_j(t),其中,a_0(t)表示低频分量,d_j(t)表示第j层高频分量。

    7.根据权利要求3所述的基于ai的文字及声音获取、分析及生成方法,其特征在于,在步骤s44中以傅里叶变换为底,计算音频信号的ft_wt值,来增加信号的动态范围,提高信噪比ft_wt=log∫f(t)e-iwtdta_0(t)+∑d_j(t),其中ft_wt值为处理后的音频数据综合广域信号值,∫f(t)e-iwtdt为傅里叶变换下的数据,a_0(t)+∑d_j(t)为小波变换下的数据。

    8.根据权利要求1所述的基于ai的文字及声音获取、分析及生成方法,其特征在于,在步骤s5中,循环神经网络的训练过程包括:

    9.根据权利要求8所述的基于ai的文字及声音获取、分析及生成方法,其特征在于,所述步骤s52中,h_t=f(w_hh*h_{t-1}+w_hx*x_t)其中,h_t表示当前时间步的隐藏状态,h_{t-1}表示上一个时间步的隐藏状态,x_t表示当前时间步的输入数据,w_hh和w_hx表示权重矩阵,f()表示激活函数。

    10.根据权利要求9所述的基于ai的文字及声音获取、分析及生成方法,其特征在于,在步骤六中,在训练完成的循环神经网络模型基础上通过反傅里叶变换及小波重构实现人机交互,首先对模型输出的数据转化为特征向量通过公式f(t)=(1/2π)∫f(w)eiwtdw进行反傅里叶变换将频域上的信号f(ω)转化为时域上的信号f(t),其中,f(ω)是频域上的信号,f(t)是时域上的信号,i是虚数单位;通过公式进行小波重构,其中,a_j和d_j是小波系数,j表示最后一层分解的层数,和ψ_j分别是小波基函数的近似分量和细节分量,n表示时间。


    技术总结
    本发明属于人工智能领域,具体涉及一种基于AI的文字及声音获取、分析及生成方法,包括以下步骤,获取文字、语音数据集;对预处理后的文本数据通过TF‑IDF算法计算某个单词在文本中的出现频率与在整个语料库中的出现频率之比来衡量其重要性;对预处理后的音频数据采用双频变换提取机制FT‑WT,将一个时域信号转换成频域信号的方法,得到信号的频域特征;提取到的特征信息注入循环神经网络进行训练。本申请在数据特征提取的过程中,利用傅里叶及小波变换对数据进行整合处理,以获得更全面的音频信息;计算音频信号的FT_WT值,来增加信号的动态范围,提高信噪比,进而更加准确的描述音频信号,提高人机交互的准确性及实用性。

    技术研发人员:董鑫,庄卓一,戴炳钦,公静,陈骏洪
    受保护的技术使用者:常州大学
    技术研发日:
    技术公布日:2024/10/24
    转载请注明原文地址:https://symbian.8miu.com/read-34221.html

    最新回复(0)