音视频数据处理方法、装置、电子设备及可读存储介质与流程

技术2025-06-10 53

本申请属于人工智能，具体涉及一种音视频数据处理方法、装置、电子设备及可读存储介质。

背景技术：

1、在智慧家庭、智慧养老、自动驾驶等领域，对于异常行为的识别扮演着重要的角色。例如，在智慧养老应用下，精准识别老年人跌倒、胸痛等异常行为对于保障老年人安全健康有着重要的意义。

2、现有的异常行为识别方案主要基于视频等单模态数据进行异常行为识别，或者直接将语音与视频数据进行融合以实现异常行为检测。对于基于视频等单模态数据进行异常行为识别的方案，其精准度往往十分有限。对于将语音与视频数据进行融合以实现异常行为检测的方案，其单帧输入数据规模量大，往往不利于在端侧进行实时异常行为检测，因此其应用场景有限。

3、此外，现有的端侧技术方案往往会等间隔选取视频帧来进行异常行为检测，从而减少计算量。然而，这种选取方式可能会将异常行为发生时的数据丢弃，因此影响检测精准度。

技术实现思路

1、本申请实施例的目的是提供一种音视频数据处理方法、装置、电子设备及可读存储介质，能够提升异常行为检测的准确率以及运算速度。

2、为了解决上述技术问题，本申请是这样实现的：

3、本申请实施例提供了一种音视频数据处理方法，应用于电子设备，包括：

4、对获取的视频数据进行关键点定位，所述视频数据包括多帧图像数据；

5、获取与每帧图像数据对应的音频数据；

6、利用每帧图像数据对应的音频数据和关键点数据计算每帧图像数据的重要性估计值；

7、选取重要性估计值大于预设阈值的目标视频数据，所述目标视频数据包括至少一帧所述图像数据；

8、根据所述目标视频数据及其对应的音频数据进行异常行为识别。

9、一些实施例中，所述获取与每帧图像数据对应的音频数据包括：

10、根据时间信息将音频数据与所述图像数据对齐；

11、将每帧图像数据对应的时间段内采集的音频数据作为与该帧图像数据对应的音频数据。

12、一些实施例中，所述利用每帧图像数据对应的音频数据和关键点数据计算每帧图像数据的重要性估计值包括：

13、利用所述图像数据对应的原始图像的宽度对所述关键点在视频数据中的行位置信息进行归一化处理，得到第一位置数据；

14、利用所述图像数据对应的原始图像的高度对所述关键点在视频数据中的列位置信息进行归一化处理，得到第二位置数据；

15、将所述第一位置数据、所述第二位置数据和所述音频数据的平均幅值进行加权运算，得到所述重要性估计值。

16、一些实施例中，利用存算一体阵列计算每帧图像数据的重要性估计值。

17、一些实施例中，所述存算一体阵列包括n+m行和3列，其中，n为每帧图像数据中关键点的数量，m为每帧图像数据对应的音频数据的帧数，所述存算一体阵列的第一列用于计算所述第一位置数据的加权值，所述存算一体阵列的第二列用于计算所述第二位置数据的加权值，所述存算一体阵列的第三列用于计算所述音频数据的平均幅值的加权值，所述利用存算一体阵列计算每帧图像数据的重要性估计值包括：

18、将所述关键点在视频数据中的位置信息编码为电压依次输入所述存算一体阵列的前n行，将所述视频数据对应的每帧音频数据的平均幅值编码为电压依次输入所述存算一体阵列的后m行，将所述存算一体阵列每行的输出结果进行拼接，得到所述重要性估计值。

19、一些实施例中，所述选取重要性估计值大于预设阈值的目标视频数据之前，所述方法还包括：

20、对每帧所述视频数据的重要性估计值进行校准。

21、一些实施例中，所述对每帧所述视频数据的重要性估计值进行校准包括：

22、获取每帧图像数据前s帧图像数据和后s帧图像数据的重要性估计值；

23、将所述前s帧图像数据的重要性估计值、所述后s帧图像数据的重要性估计值和该帧图像数据的重要性估计值进行加权运算，得到校准后的该帧图像数据的重要性估计值。

24、本申请实施例提供了一种音视频数据处理装置，应用于电子设备，包括：

25、关键点定位模块，用于对获取的视频数据进行关键点定位；

26、音频数据获取模块，用于获取与每帧图像数据对应的音频数据，所述视频数据包括多帧图像数据；

27、计算模块，用于利用每帧图像数据对应的音频数据和关键点数据计算每帧图像数据的重要性估计值；

28、选取模块，用于选取重要性估计值大于预设阈值的目标视频数据，所述目标视频数据包括至少一帧所述图像数据；

29、行为识别模块，用于根据所述目标视频数据及其对应的音频数据进行异常行为识别。

30、本申请实施例提供了一种电子设备，包括处理器，存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如上所述的音视频数据处理方法的步骤。

31、本申请实施例提供了一种可读存储介质，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如上所述的音视频数据处理方法的步骤。

32、在本申请实施例中，根据每帧图像数据对应的音频数据和关键点数据计算每帧图像数据的重要性估计值，选取重要性估计值大于预设阈值的目标视频数据，根据目标视频数据进行异常行为识别，这样能够过滤相对不重要的视频数据，减少异常行为识别的处理开销，提升异常行为检测的运算速度；另外，本实施例利用重要性估计值选取目标视频数据，通过重要性平滑，能够选取连续的视频数据，并且本实施例选取出的目标视频数据是比较重要的视频数据，利用目标视频数据及其对应的音频数据进行异常行为识别，能够提升异常行为识别的准确率。

技术特征：

1.一种音视频数据处理方法，应用于电子设备，其特征在于，包括：

2.根据权利要求1所述的音视频数据处理方法，其特征在于，所述获取与每帧图像数据对应的音频数据包括：

3.根据权利要求1所述的音视频数据处理方法，其特征在于，所述利用每帧图像数据对应的音频数据和关键点数据计算每帧图像数据的重要性估计值包括：

4.根据权利要求3所述的音视频数据处理方法，其特征在于，利用存算一体阵列计算每帧图像数据的重要性估计值。

5.根据权利要求4所述的音视频数据处理方法，其特征在于，所述存算一体阵列包括n+m行和3列，其中，n为每帧图像数据中关键点的数量，m为每帧图像数据对应的音频数据的帧数，所述存算一体阵列的第一列用于计算所述第一位置数据的加权值，所述存算一体阵列的第二列用于计算所述第二位置数据的加权值，所述存算一体阵列的第三列用于计算所述音频数据的平均幅值的加权值，所述利用存算一体阵列计算每帧图像数据的重要性估计值包括：

6.根据权利要求1所述的音视频数据处理方法，其特征在于，所述选取重要性估计值大于预设阈值的目标视频数据之前，所述方法还包括：

7.根据权利要求6所述的音视频数据处理方法，其特征在于，所述对每帧所述视频数据的重要性估计值进行校准包括：

8.一种音视频数据处理装置，应用于电子设备，其特征在于，包括：

9.一种电子设备，其特征在于，包括处理器，存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如权利要求1至7任一项所述的音视频数据处理方法的步骤。

10.一种可读存储介质，其特征在于，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如权利要求1至7任一项所述的音视频数据处理方法的步骤。

技术总结
本申请公开了一种音视频数据处理方法、装置、电子设备及可读存储介质，属于人工智能技术领域。本申请实施例中的音视频数据处理方法，应用于电子设备，包括：对获取的视频数据进行关键点定位；获取与每帧图像数据对应的音频数据；利用每帧图像数据对应的音频数据和关键点数据计算每帧图像数据的重要性估计值；选取重要性估计值大于预设阈值的目标视频数据；根据所述目标视频数据及其对应的音频数据进行异常行为识别。由此，可以提升异常行为检测的准确率以及运算速度。

技术研发人员：高若飞,祝淑琼,潘卫平,李昊,姚燕玲,张童
受保护的技术使用者：中国移动通信有限公司研究院
技术研发日：
技术公布日：2024/10/24

转载请注明原文地址:https://symbian.8miu.com/read-32195.html

专利

最新回复(0)