本发明涉及互联网及音视频流媒体开发领域,具体的是一种基于视频编码的手势识别系统及方法。
背景技术:
1、动态手势作为一种重要的人机交互方式,近年来受到越来越多的关注。将手部执行的特定动作,利用相应设备捕获与分析,转化为一系列控制指令使智能设备做出响应,使得人机交互方式更加自然和友好。近年来,动态手势识别在体感游戏、手语识别、辅助驾驶、医疗器械以及智能家电控制等领域应用的越来越广泛。
2、目前很多项目对与视频的融合要求越来越高,需要整合的视频资源也越来越丰富,很多手势视频流采用h.265编码格式进行接入,webrtc本身支持的视频编码格式仅包括vp8、vp9、h.264、av1,并不支持h.265编码,导致在进行手势识别时,无法调取视频的问题,从而影响对于视频手势的识别,并且目前对于通过视频进行手势识别的方法识别精度存在一定问题。
技术实现思路
1、为解决上述背景技术中提到的不足,本发明的目的在于提供一种基于视频编码的手势识别系统及方法,能够对各种视频进行编码解码后进行手势识别,且能够提升手势识别精度。
2、第一方面,本发明的目的可以通过以下技术方案实现:一种基于视频编码的手势识别系统,包括:
3、视频采集模块:用于采集手势视频数据,并且将采集到的手势视频数据发送至视频处理分析模块进行处理;
4、视频处理分析模块:用于对手势视频数据进行视频特征提取,得到视频特征相关数据,其中,所述视频特征相关数据包括:分辨率特征数据、帧率特征数据以及分割特征数据,利用视频特征相关数据进行编码判定计算,得到视频编码判定系数,设定视频编码判定阈值,将视频编码判定系数与视频编码判定阈值进行比较,根据比较结果对视频是否符合编码要求进行判定,如不符合,则删除对应视频,若符合,则发送编码信号至编码模块;
5、编码模块:用于获取视频采集模块内的手势视频数据对应的视频流,再进行编码,得到编码后的视频流,将编码后的视频流发送至解码模块;
6、解码模块:用于对编码后的视频流进行解码,得到原始的视频数据;
7、视频提取分析模块:用于对原始的视频数据进行视频截取,得到多个视频帧数据,对视频截取后多个视频帧数据内的每个视频帧进行特征提取,得到视频内部特征,其中,所述视频内部特征包括位置特征数据、运动特征数据和形状特征数据,利用标记的视频内部特征进行质量计算,得到视频帧质量系数,设定视频帧质量系数阈值,利用视频帧质量系数与视频帧质量系数阈值作差值,得到差值,设定差值阈值,将差值与差值阈值进行比例判定,根据判定结果对视频帧质量进行评级,其中,评级视频级别包括:低级视频帧、中级视频帧和高级视频帧;
8、统计低级视频帧数量,若低级视频帧数量少于视频帧总数量的三分之一,则将中级视频帧和高级视频帧标记为关键帧,将关键帧发送至手势识别模块,若或超过视频帧总数量的三分之一,则将视频帧删除,重新采集视频;
9、手势识别模块:用于建立xy平面直角坐标系,利用手势识别模块的坐标采集单元在平面直角坐标系内获取每个关键帧内手势关键点,获取手势关键点坐标,根据手势关键点坐标计算手指间距,并提取手指方向信息,利用手指间距和手指方向信息进行手部位置综合计算,得出手部位置综合系数,将手部位置综合系数输入至预先建立的手势识别模型内,输出得到手势识别结果;
10、服务器:用于整合获取预先建立的手势识别模型训练所需的标准手部相关数据。
11、结合第一方面,在第一方面的某些实现方式中,该系统还包括:所述视频处理分析模块的计算过程:
12、对视频特征相关数据进行标记,其中,将分辨率特征数据标记为bi,将帧率特征数据标记为zi,将分割特征数据标记为gi;
13、利用标记后的视频特征相关数据进行编码判定计算,编码判定计算公式如下:
14、
15、式中,pmi为视频编码判定系数,b0为标准分辨率特征系数,z0为标准帧率特征系数,g0为标准分割特征系数,k1为分辨率相关系数,k2为帧率相关系数,k3为分割相关系数,r为预设相关系数。
16、结合第一方面,在第一方面的某些实现方式中,该系统还包括:所述视频处理分析模块的分析过程:
17、设定视频编码判定阈值pm0,将视频编码判定系数pmi与视频编码判定阈值pm0进行比较判定:
18、若pmi≥pm0,判定此时视频符合编码要求,发送编码信号至编码模块;
19、若pmi<pm0,判定此时视频不符合编码要求,则将此视频编码判定系数所对应的视频删除。
20、结合第一方面,在第一方面的某些实现方式中,该系统还包括:所述视频提取分析模块的计算过程:
21、对视频内部特征进行标记,其中,将位置特征数据标记为wj,将运动特征数据标记为yj,将形状特征数据标记为xj,其中,j为视频内部特征个数标号,且j=1、2、3、...、m,m为视频内部特征个数总数;
22、利用标记后的视频内部特征进行质量计算,得到视频帧质量系数,具体的,计算视频帧质量系数的计算过程如下:
23、
24、式中,szj为视频帧质量系数,t1为位置特征影响系数,t2为运动特征影响系数,t3为形状特征影响系数,x0为预设标注形状特征系数,α为预设形状比例系数。
25、结合第一方面,在第一方面的某些实现方式中,该系统还包括:所述视频提取分析模块的分析过程:
26、设定视频帧质量系数阈值sz0,利用视频帧质量系数szj与视频帧质量系数阈值sz0作差值,得到差值cj,设定差值阈值c0,将差值cj与差值阈值c0进行比例判定:
27、若判定视频帧质量为低级视频帧;
28、若判定视频帧质量为中级视频帧;
29、若判定视频帧质量为高级视频帧;
30、统计低级视频帧数量,记为q,若此时提取的视频帧符合识别标准数量,将中级视频帧和高级视频帧标记为关键帧,并将关键帧发送至手势识别模块内进行手势识别;
31、若此时提取的视频帧不符合识别标准数量,则将提取的视频帧删除,并发送重新采集信号至视频采集模块,至为止。
32、结合第一方面,在第一方面的某些实现方式中,该系统还包括:所述手势识别模块内的手势关键点包括第一关键点、第二关键点和第三关键点、第四关键点和第五关键点;
33、其中,第一关键点标记为a1(x1u,y1u),第二关键点标记为a2(x2u,y2u),第三关键点标记为a3(x3u,y3u),第四关键点标记为a4(x4u,y4u);第五关键点标记为a5(x5u,y5u);其中,u为每个关键帧数量标号,且u=1、2、3、...、v;v为关键帧数量总数。
34、结合第一方面,在第一方面的某些实现方式中,该系统还包括:所述手势识别模块利用第一关键点、第二关键点和第三关键点、第四关键点和第五关键点坐标计算手指间距,其中,一二指间距标记为a12u,二三指间距标记为a23u,三四指间距标记为a34u,四五指间距标记为a45u;
35、提取各个手指的方向信息;
36、利用手指间距和手指方向信息进行手部位置综合计算,得出手部位置综合系数:
37、
38、式中,sub为手部位置综合系数,l1、l2、l3、l4均为预设方向相关系数,β为预设位置比例系数。
39、结合第一方面,在第一方面的某些实现方式中,该系统还包括:所述手势识别模块预先建立的手势识别模型基于人工智能模型训练;
40、通过服务器进行整合并获取标准手部相关数据,其中,所述标准手部相关数据包括标准手指间距数据、标准手指位置坐标数据以及标准手指方向数据;
41、通过标准手部相关数据对人工智能模型进行训练,获取并存储手势识别模型。
42、结合第一方面,在第一方面的某些实现方式中,该系统还包括:所述解码模块能够对编码模块编码的h.265格式的视频流进行直接解码
43、结合第二方面,在第二方面的某些实现方式中,该方法还包括:一种基于视频编码的手势识别方法,方法包括以下步骤:
44、获取手势视频数据,对手势视频数据进行视频特征提取,得到视频特征相关数据,利用视频特征相关数据进行编码判定计算,得到视频编码判定系数,其中,所述视频特征相关数据包括:分辨率特征数据、帧率特征数据以及分割特征数据;
45、设定视频编码判定阈值,将视频编码判定系数与视频编码判定阈值进行比较,根据比较结果对视频是否符合编码要求进行判定,如不符合,则删除对应视频,若符合,则对视频进行编码解码流程,解码后得到原始的视频数据;
46、对原始的视频数据进行视频截取,得到多个视频帧数据,对视频截取后多个视频帧数据内的每个视频帧进行特征提取,得到视频内部特征,利用视频内部特征进行质量计算,得到视频帧质量系数,其中,所述视频内部特征包括位置特征数据、运动特征数据和形状特征数据;
47、设定视频帧质量系数阈值,利用视频帧质量系数与视频帧质量系数阈值作差值,得到差值,设定差值阈值,将差值与差值阈值进行比例判定,根据判定结果对视频帧质量进行评级,其中,评级视频级别包括:低级视频帧、中级视频帧和高级视频帧;
48、统计低级视频帧数量,若低级视频帧数量少于视频帧总数量的三分之一,则将中级视频帧和高级视频帧标记为关键帧进行手势识别,若或超过视频帧总数量的三分之一,则将视频帧删除,重新采集视频;
49、在预设的xy平面直角坐标系内获取每个关键帧内手势关键点,并获取手势关键点坐标,根据手势关键点坐标计算手指间距,并提取手指方向信息,利用手指间距和手指方向信息进行手部位置综合计算,得出手部位置综合系数,将手部位置综合系数输入至预先建立的手势识别模型内,输出得到手势识别结果。
50、本发明的有益效果:
51、本发明通过视频采集模块采集手势视频数据,然后利用视频处理分析模块计算得出视频编码判定系数,并且通过设定阈值比较的方法分析视频是否符合编码要求,然后对于符合要求的视频通过编码模块和解码模块进行编码解码过程,得到原始的视频数据,然后视频提取分析模块对原始的视频数据进行提取计算得到视频内部特征,并进行质量计算得到视频帧质量系数,通过设定阈值做差值比较方法对视频帧质量进行评级,筛选得到关键帧,然后手势识别模块对于关键帧进行处理并手部位置综合计算得到手部位置综合系数,然后通过手势识别模型进行识别得到手势识别结果,实现了能够对各种视频进行编码解码后进行手势识别,且能够提升手势识别精度。
1.一种基于视频编码的手势识别系统,其特征在于,包括:
2.根据权利要求1所述的一种基于视频编码的手势识别系统,其特征在于,所述视频处理分析模块的计算过程:
3.根据权利要求2所述的一种基于视频编码的手势识别系统,其特征在于,所述视频处理分析模块的分析过程:
4.根据权利要求1所述的一种基于视频编码的手势识别系统,其特征在于,所述视频提取分析模块的计算过程:
5.根据权利要求4所述的一种基于视频编码的手势识别系统,其特征在于,所述视频提取分析模块的分析过程:
6.根据权利要求1所述的一种基于视频编码的手势识别系统,其特征在于,所述手势识别模块内的手势关键点包括第一关键点、第二关键点和第三关键点、第四关键点和第五关键点;
7.根据权利要求6所述的一种基于视频编码的手势识别系统,其特征在于,所述手势识别模块利用第一关键点、第二关键点和第三关键点、第四关键点和第五关键点坐标计算手指间距,其中,一二指间距标记为a12u,二三指间距标记为a23u,三四指间距标记为a34u,四五指间距标记为a45u;
8.根据权利要求7所述的一种基于视频编码的手势识别系统,其特征在于,所述手势识别模块预先建立的手势识别模型基于人工智能模型训练;
9.根据权利要求1所述的一种基于视频编码的手势识别系统,其特征在于,所述解码模块能够对编码模块编码的h.265格式的视频流进行直接解码。
10.一种基于视频编码的手势识别方法,其特征在于,方法包括以下步骤: