一种基于transformer的安全帽检测系统及方法与流程

技术2026-01-19 5

本发明涉及计算机数据处理，特别涉及一种基于transformer的安全帽检测系统及方法。

背景技术：

1、在基于视觉的目标检测领域，主要采用卷积神经网络进行特征提取，如vgg通过加深网络提取更丰富特征，resnet设计残差网络解决梯度消失的问题，ppm提供了多尺度的上下文信息，尽管这些网络取得了较好的效果，但是由于卷积神经网络的感受野有限，只能提取局部特征，目标检测模型中，使用卷积神经网络作为主干网络仍存在一定的缺陷，降低了安全帽检测的精准性。transformer结构中的自注意力模块能够有效提取全局特征，相对卷积神经网络具备明显优势。本发明提出了一种基于transformer的网络模型，并将其作为目标检测网络的主干网络提取特征，应用在施工场景下的安全帽检测。

技术实现思路

1、本发明目的之一在于提供了一种基于transformer的安全帽检测系统，提升了安全帽检测的精准性。

2、本发明实施例提供的一种基于transformer的安全帽检测系统，包括：

3、模型训练模块，用于基于迁移学习，利用安全帽检测数据集，训练transformer模型，获得安全帽检测模型；

4、图像获取模块，用于获取施工场景的待检测图像；

5、安全帽检测模块，用于基于所述安全帽检测模型，对所述待检测图像进行安全帽检测。

6、优选的，transformer模型包括：

7、像素块嵌入模块：

8、定义输入为w、h和c表示输入的宽度、高度和通道数；

9、使用卷积核wk×k，其中k表示卷积核大小，对输入i进行卷积操作，得到输出为c1表示使用卷积核的数量；

10、将o11前两维展平，得到输出其中

11、将o12进行归一化得到o1；

12、多尺度通道注意力结构，用于处理o1：

13、将o1划分成m个通道，得到o1＝{o1_1,o1_2,…,o1_m}；

14、对o1_i使用深度可分卷积得到q,k和v，输出o1_i′＝wp(v·softmax(k·q))+o1_i，wp表示卷积操作；

15、输出o2＝o1_1′+o1_2′+…+o1_m′；

16、双路门控注意力结构，用于处理o2：

17、使用1×1卷积将o2通道维度提高一倍，得到o31；

18、对o31使用深度可分卷积，并在通道维度将结果切分为o32_0和o32_1；

19、计算o33＝g(o32_0)·o32_1,其中g表示gelu激活函数；

20、使用1×1卷积将o33通道维度恢复成与o2一致，得到o33，输出o3＝o33+o2；

21、主干网络：

22、假设输入为x，

23、构建transformer基础模块m，m由像素块嵌入模块、多尺度通道注意力结构、双路门控注意力结构串联而成，即输入分别经过像素块嵌入模块、多尺度通道注意力结构、双路门控注意力结构处理，主干网络由5个基础模块{m1,m2,m3,m4,m5}；

24、x经过m1处理得到out1；

25、out1首先进行降采样，将特征宽度和高度分别降至一半，然后经过m2处理得到out2；

26、out2首先进行降采样，将特征宽度和高度分别降至一半，然后经过m3处理得到out3；

27、out3首先进行上采样，将特征宽度和高度分别提高一倍得到out31，然后将out31+out2作为输入，经过m4处理得到out4；

28、out4首先进行上采样，将特征宽度和高度分别提高一倍得到out41,然后将out41+out1作为输入，然后经过m5处理得到输出out5。

29、优选的，所述图像获取模块获取施工场景的待检测图像，包括：

30、在所述施工场景的场景地图内规划出安全帽佩戴必要路径；所述安全帽佩戴必要路径由所述施工场景内出于安全考虑需要施工人员佩戴安全帽的多个目标场景位置依次连接形成；

31、基于路径分段条件，将所述安全帽佩戴必要路径分成多个路径段；

32、获取所述施工场景内多个施工人员的多模态信息；

33、基于所述多模态信息，预测所述路径段中未来即将有施工人员途经的目标路径段以及施工人员未来途经所述目标路径段时的移动位置序列；

34、基于拍摄参数确定条件，根据所述移动位置序列，确定所述目标路径段的拍摄参数；

35、基于所述拍摄参数，控制调度施工场景内的移动拍摄设备拍摄所述目标路径段以获取所述待检测图像。

36、优选的，所述路径分段条件包括以下一种或多种组合：

37、每一路径段的路径长度均落入标准长度区间内；

38、连续相邻的n个路径段的移动拍摄设备跟拍转移总成本小于等于成本阈值；其中，2≤n≤k，k为第一数量阈值；

39、所述施工场景内同一子场景内的路径段的总数量小于等于第二数量阈值。

40、优选的，所述拍摄参数确定条件包括：

41、所述目标路径段完整落入移动拍摄设备基于所述拍摄参数拍摄时的拍摄视角；

42、所述目标路径段中至少存在t组目标场景位置的移动向量与移动拍摄设备基于所述拍摄参数拍摄时的拍摄向量之间的效率夹角落入夹角区间内；其中，每组目标场景位置由所述目标路径段中的相邻两个目标场景位置组成，每组目标场景位置的移动向量是基于该组目标场景位置中的前一个目标场景位置以及该组目标场景位置中前一个目标场景位置向后一个目标场景位置的方向构建而成；移动拍摄设备基于所述拍摄参数拍摄时的拍摄向量是基于移动拍摄设备基于所述拍摄参数拍摄时的拍摄位置以及移动拍摄设备基于所述拍摄参数拍摄时的拍摄方向构建而成；l≤t/x-1≤1，l为比值阈值，x为所述目标路径段中的目标场景位置的总数量；

43、移动拍摄设备基于所述拍摄参数拍摄时的拍摄视角拍摄所述目标路径段无遮挡。

44、本发明实施例提供的一种基于transformer的安全帽检测方法，包括：

45、基于迁移学习，利用安全帽检测数据集，训练transformer模型，获得安全帽检测模型；

46、获取施工场景的待检测图像；

47、基于所述安全帽检测模型，对所述待检测图像进行安全帽检测。

48、优选的，transformer模型包括：

49、像素块嵌入模块：

50、定义输入为w、h和c表示输入的宽度、高度和通道数；

51、使用卷积核wk×k，其中k表示卷积核大小，对输入i进行卷积操作，得到输出为c1表示使用卷积核的数量；

52、将o11前两维展平，得到输出其中

53、将o12进行归一化得到o1；

54、多尺度通道注意力结构，用于处理o1：

55、将o1划分成m个通道，得到o1＝{o1_1,o1_2,…,o1_m}；

56、对o1_i使用深度可分卷积得到q,k和v，输出o1_i′＝wp(v·sfotmax(k·q))+o1_i，wp表示卷积操作；

57、输出o2＝o1_1′+o1_2′+…+o1_m′；

58、双路门控注意力结构，用于处理o2：

59、使用1×1卷积将o2通道维度提高一倍，得到o31；

60、对o31使用深度可分卷积，并在通道维度将结果切分为o32_0和o32_1；

61、计算o33＝g(o32_0)·o32_1,其中g表示gelu激活函数；

62、使用1×1卷积将o33通道维度恢复成与o2一致，得到o33，输出o3＝o33+o2；

63、主干网络：

64、假设输入为x，

65、构建transformer基础模块m，m由像素块嵌入模块、多尺度通道注意力结构、双路门控注意力结构串联而成，即输入分别经过像素块嵌入模块、多尺度通道注意力结构、双路门控注意力结构处理，主干网络由5个基础模块{m1,m2,m3,m4,m5}；

66、x经过m1处理得到out1；

67、out1首先进行降采样，将特征宽度和高度分别降至一半，然后经过m2处理得到out2；

68、out2首先进行降采样，将特征宽度和高度分别降至一半，然后经过m3处理得到out3；

69、out3首先进行上采样，将特征宽度和高度分别提高一倍得到out31，然后将out31+out2作为输入，经过m4处理得到out4；

70、out4首先进行上采样，将特征宽度和高度分别提高一倍得到out41,然后将out41+out1作为输入，然后经过m5处理得到输出out5。

71、优选的，所述获取施工场景的待检测图像，包括：

72、在所述施工场景的场景地图内规划出安全帽佩戴必要路径；所述安全帽佩戴必要路径由所述施工场景内出于安全考虑需要施工人员佩戴安全帽的多个目标场景位置依次连接形成；

73、基于路径分段条件，将所述安全帽佩戴必要路径分成多个路径段；

74、获取所述施工场景内多个施工人员的多模态信息；

75、基于所述多模态信息，预测所述路径段中未来即将有施工人员途经的目标路径段以及施工人员未来途经所述目标路径段时的移动位置序列；

76、基于拍摄参数确定条件，根据所述移动位置序列，确定所述目标路径段的拍摄参数；

77、基于所述拍摄参数，控制调度施工场景内的移动拍摄设备拍摄所述目标路径段以获取所述待检测图像。

78、优选的，所述路径分段条件包括以下一种或多种组合：

79、每一路径段的路径长度均落入标准长度区间内；

80、连续相邻的n个路径段的移动拍摄设备跟拍转移总成本小于等于成本阈值；其中，2≤n≤k，k为第一数量阈值；

81、所述施工场景内同一子场景内的路径段的总数量小于等于第二数量阈值。

82、优选的，所述拍摄参数确定条件包括：

83、所述目标路径段完整落入移动拍摄设备基于所述拍摄参数拍摄时的拍摄视角；

84、所述目标路径段中至少存在t组目标场景位置的移动向量与移动拍摄设备基于所述拍摄参数拍摄时的拍摄向量之间的效率夹角落入夹角区间内；其中，每组目标场景位置由所述目标路径段中的相邻两个目标场景位置组成，每组目标场景位置的移动向量是基于该组目标场景位置中的前一个目标场景位置以及该组目标场景位置中前一个目标场景位置向后一个目标场景位置的方向构建而成；移动拍摄设备基于所述拍摄参数拍摄时的拍摄向量是基于移动拍摄设备基于所述拍摄参数拍摄时的拍摄位置以及移动拍摄设备基于所述拍摄参数拍摄时的拍摄方向构建而成；l≤t/x-1≤1，l为比值阈值，x为所述目标路径段中的目标场景位置的总数量；

85、移动拍摄设备基于所述拍摄参数拍摄时的拍摄视角拍摄所述目标路径段无遮挡。

86、本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

87、下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

技术特征：

1.一种基于transformer的安全帽检测系统，其特征在于，包括：

2.如权利要求1所述的基于transformer的安全帽检测系统，其特征在于，transformer模型包括：

3.如权利要求1所述的基于transformer的安全帽检测系统，其特征在于，所述图像获取模块获取施工场景的待检测图像，包括：

4.如权利要求3所述的基于transformer的安全帽检测系统，其特征在于，所述路径分段条件包括以下一种或多种组合：

5.如权利要求3所述的基于transformer的安全帽检测系统，其特征在于，所述拍摄参数确定条件包括：

6.一种基于transformer的安全帽检测方法，其特征在于，包括：

7.如权利要求6所述的基于transformer的安全帽检测方法，其特征在于，transformer模型包括：

8.如权利要求6所述的基于transformer的安全帽检测方法，其特征在于，所述获取施工场景的待检测图像，包括：

9.如权利要求8所述的基于transformer的安全帽检测方法，其特征在于，所述路径分段条件包括以下一种或多种组合：

10.如权利要求8所述的基于transformer的安全帽检测方法，其特征在于，所述拍摄参数确定条件包括：

技术总结
本发明提供一种基于transformer的安全帽检测系统及方法，其中系统包括：模型训练模块，用于基于迁移学习，利用安全帽检测数据集，训练transformer模型，获得安全帽检测模型；图像获取模块，用于获取施工场景的待检测图像；安全帽检测模块，用于基于所述安全帽检测模型，对所述待检测图像进行安全帽检测。本发明的基于transformer的安全帽检测系统及方法，极大程度上提升了安全帽检测的精准性。

技术研发人员：李学钧,戴相龙,王晓鹏,蒋勇,何成虎
受保护的技术使用者：江苏濠汉信息技术有限公司
技术研发日：
技术公布日：2024/10/24

转载请注明原文地址:https://symbian.8miu.com/read-39169.html

专利

最新回复(0)