本公开的实施例总体上涉及机器学习系统。更具体来说,本公开的实施例涉及具有自适应加权输入的注视确定机器学习系统。
背景技术:
1、本公开的实施例总体上涉及机器学习系统。更具体来说,本公开的实施例涉及具有自适应加权输入的注视确定机器学习系统。
技术实现思路
1、最近开发的卷积神经网络(cnn)用来估计主体的注视方向。例如,这种cnn可以从所述主体的输入图像中确定主体正在观看的所述方向。这使得使用此类cnn的系统能够跟踪主体的注视,以及相应地实时做出反应。
2、然而,传统的注视确定系统并非没有缺点。这些系统的整体性能和鲁棒性仍然有限,特别是在边界情况或极端情况下(例如,在头部姿势变化较大,或者面部或眼睛部分遮挡的情况下)。
3、因此,本文描述的系统和方法提供更健壮的注视确定系统,所述更健壮的注视确定系统与面部特征点信息相对应,作为自适应地重新加权系统输入。典型的注视确定系统可以利用摄像机或其他图像确定装置,以及处理器(例如,诸如cnn之类的能够执行机器学习网络推断操作的并行处理器)。在本公开的某些实施例中,所述系统可以接收与相机拍摄主体的图像相对应的图像数据。一个或更多个机器学习网络构建为将与主体的至少一只眼睛相对应的所述图像的一个或更多个部分作为输入,并输出相关联特征,其中这些特征与所述至少一只主体眼睛的注视方向相对应。然后,使用所述主体的面部姿势信息来修改这些与眼睛相关特征。通过一个或更多个机器学习模型可以确定这个面部姿势信息,所述机器学习模型被配置成接收所述主体的所述图像以及生成所述面部姿势信息作为输出。然后,可以使用面部姿势信息来确定与主体面部姿势相对应的上下文特征,以及确定注视方向的估计。也就是说,一个或更多个机器学习模型可以根据输入的面部姿势信息来确定上下文向量和注视方向估计二者。
4、然后,可以根据所述上下文向量来修改所述眼睛相关特征,并且可以根据这些修改的特征来确定注视。更具体地说,修改的所述眼睛相关特征可以与所述估计的注视方向相结合,并且可以根据该组合可以确定注视。以这种方式,根据经过面部姿势信息修改的眼睛图像信息和注视方向的初始估计来确定注视方向,其中这个初始估计可以根据面部特征点(landmark)来确定。
5、然后,所述确定的注视方向可以任何方式使用,例如启动系统的任何操作。例如,确定的所述注视方向可以用于启动车辆的任何操作(例如,自动驾驶车辆)。
6、如上所述,面部姿势信息用于确定上下文向量和注视方向估计。所述面部姿势信息可以是指示主体面部空间朝向的任何信息,例如由所述输入图像确定的一组面部特征点。一个或更多个机器学习模型可以处理所述面部姿势信息(例如,面部特征点),来生成上下文向量和注视方向估计,其中所述上下文向量具有的元素是与所述主体的面部姿势相对应的特征,即所述主体面部的所述位置和朝向。
7、可以通过任何方式完成眼睛相关特征的修改。例如,可以使用上下文向量来确定权重值,所述权重值可以与所述眼睛相关特征相乘。也就是说,可以通过将所述眼睛相关特征初始值乘以相应的权重值来确定所述修改后的眼睛相关特征。
8、因此,本公开的实施例使用所述输入图像的一些部分来确定这些眼睛方向特征,以及使用面部朝向信息来修改这些眼睛方向特征。然后根据所述修改后的眼睛方向特征来确定注视方向。可以使用各种机器学习模型来确定眼睛方向特征,并且可以通过诸如并行处理电路之类的计算电路来执行在该处理中使用的所述各种操作。通过这种方式,注视方向不仅仅根据所述输入图像的一些部分(例如,眼部裁剪)来确定的,而且根据这些眼部裁剪输出的信息可以根据所述主体面部朝向来修改,然后根据这个修改后的输出来确定注视方向。
9、如上所述,使用输入面部方向来确定面部朝向特征的上下文向量。在本公开的实施例中,相应地可以根据机器学习模型来确定主体的所述注视方向,所述机器学习模型具有面部朝向特征作为输入,所述面部朝向特征与所述主体面部朝向、所述注视方向的估计和所述主体的至少一只眼睛的所述图像的一部分相对应。
1.一种方法,包括:
2.如权利要求1所述的方法,还包括:
3.如权利要求2所述的方法,其中确定与所述主体相关联的所述一个或更多个更新的眼睛特征包括:至少通过将与所述一个或更多个面部特征相关联的一个或更多个权重值应用到所述一个或更多个眼睛特征来确定与所述主体相关联的所述一个或更多个更新的眼睛特征。
4.如权利要求1所述的方法,还包括:
5.如权利要求1所述的方法,其中至少基于一个或更多个第二神经网络确定所述一个或更多个眼睛特征、所述注视方向,以及所述一个或更多个面部特征。
6.如权利要求1所述的方法,其中:
7.如权利要求1所述的方法,其中所述一个或更多个眼睛特征至少包括与所述主体的第一眼睛相关联的第一眼睛特征和与所述主体的第二眼睛相关联的第二眼睛特征。
8.如权利要求1所述的方法,还包括:
9.一种系统,包括:
10.如权利要求9所述的系统,其中所述一个或更多个处理单元还用于:
11.如权利要求10所述的系统,其中确定与所述主体相关联的所述更新的眼睛信息包括:至少通过将与所述面部姿势信息相关联的一个或更多个权重值应用到所述眼睛信息来确定与所述主体相关联的所述更新的眼睛信息。
12.如权利要求9所述的系统,其中所述一个或更多个处理单元还用于:
13.如权利要求9所述的系统,其中至少基于一个或更多个第二神经网络确定所述眼睛信息、所述注视信息,以及所述面部姿势信息。
14.如权利要求9所述的系统,其中:
15.如权利要求9所述的系统,其中:
16.如权利要求9所述的系统,其中所述一个或更多个处理单元还用于:
17.如权利要求9所述的系统,其中所述系统被包括在以下项中的至少一者中:
18.一种处理器,包括:
19.如权利要求18所述的处理器,其中所述一个或更多个处理单元还用于:使用一个或更多个第二神经网络并且至少基于表示一个或更多个图像的图像数据,确定与所述主体相关联的所述一个或更多个眼睛特征、与所述主体相关联的所述注视方向,以及与所述主体相关联的所述一个或更多个面部特征。
20.如权利要求18所述的处理器,其中所述处理器被包括在以下项中的至少一者中: