针对视线追踪的隐式校准方法和装置

未命名 07-19 阅读：112 评论：0

1.本发明涉及信息技术领域，尤其涉及一种针对视线追踪的隐式校准方法和装置。

背景技术：

2.随着计算机科学技术与产业的飞速发展，人机交互方式取得了长足的发展。注视跟踪是一种人机交互方式，由于响应速度快、操作方便的特点，被广泛应用于各个领域，在一系列移动应用中扮演着越来越重要的角色。注视跟踪背后的基本概念是捕捉用户的眼球运动，并将其映射到注视平面上的点。由于估计的注视位置会偏离真实位置，校准过程即被设计用来补偿估计的注视位置与真实位置的偏移。因而，视线校准是注视跟踪的重要组成部分，它将人眼坐标转换为屏幕坐标。
3.现有的视线追踪的校准多为显式校准。在典型的校准过程中，用户被要求将目光固定在屏幕上的某些刺激上，他们的眼睛的运动被相机捕捉。在这个过程中，刺激作为注视位置的基本事实，根据估计的注视位置和真实位置之间的偏移捕获变换向量。假设眼睛和屏幕之间的相对位置在短时间内保持不变，可以直接将变换向量应用于估计的注视位置进行注视校正。然而此类方法会损害用户体验，特别是在移动场景中，会导致由于更新变换向量而频繁触发重新校准过程。
4.综上，现有的针对视线追踪的校准方法需要用户配合校准，过程复杂，用户体验性差。

技术实现要素：

5.本发明提供一种针对视线追踪的隐式校准方法和装置，用以解决现有技术中用户配合校准，过程复杂，用户体验性差的缺陷，实现不需要用户配合的、更为简单的、用户体验更好的视线追踪的校准。
6.本发明提供一种针对视线追踪的隐式校准方法，包括：
7.获取校准窗口内的n个待校准视线跟踪结果和m个设备当前显示内容帧；其中，n小于m；
8.将所述设备当前显示内容帧的像素调整到预设分辨率，以得到待检测内容帧；
9.将所述待检测内容帧输入至视觉显著检测模块，以得到视觉显著检测结果；所述视觉显著检测模块用于检测所述待检测内容帧中每个像素的显著性；
10.将所述视觉显著检测结果输入至视觉显著度量模块，以得到待校准内容帧；所述视觉显著度量模块用于度量所述视觉显著检测结果中每个像素的显著的有效性；
11.将所述待校准内容帧输入至显著信息提取模块，以得到待输入显著信息；所述显著信息提取模块用于从所述待校准内容帧中提取显著信息；
12.将所述待输入显著信息和所述待校准视线跟踪结果输入至视线追踪校准模块，以得到视线跟踪校准结果；所述视线追踪校准模块用于对所述待校准视线跟踪结果进行校准。
13.根据本发明提供的一种针对视线追踪的隐式校准方法，将所述待输入显著信息和所述待校准视线跟踪结果输入至视线追踪校准模块，以得到视线跟踪校准结果，之前还包括：
14.对所述待校准视线跟踪结果进行第一去噪和第二去噪；
15.所述第一去噪具体包括：
16.利用第一预设公式对所述待校准视线跟踪结果进行第一去噪；
17.所述第一预设公式包括：
[0018][0019]
其中，z表示第一去噪分数值，x表示原始值，μ表示整数值的平均值，σ表示标准差；
[0020]
所述第二去噪具体包括：
[0021]
根据所述待校准视线跟踪结果获得注视位置；
[0022]
计算所述待输入显著信息对应的所述注视位置的平均值，以得到平均注视位置；
[0023]
将所述待输入显著信息和所述平均注视位置聚类，以得到聚类结果；
[0024]
根据所述聚类结果确定最频繁显著区域和粗略注视区域；
[0025]
计算所述最频繁显著区域和所述粗略注视区域质心之间的偏移量，根据所述偏移量进行第二去噪。
[0026]
根据本发明提供的一种针对视线追踪的隐式校准方法，所述视觉显著检测模块用于检测所述待检测内容帧中每个像素的显著性，具体包括：
[0027]
将所述待检测内容帧输入至视觉显著检测模块，生成视觉显著热图；
[0028]
将所述视觉显著热图归一化至预设范围，得到视觉显著检测结果。
[0029]
根据本发明提供的一种针对视线追踪的隐式校准方法，所述视觉显著度量模块用于度量所述视觉显著检测结果中每个像素的显著的有效性，具体包括：
[0030]
根据第一预设阈值对所述视觉显著检测结果进行二值化，以得到显著像素；
[0031]
通过连通分量分析计算得到帧中显著像素所在显著区域/对象的数量；
[0032]
根据第二预设公式计算得到所述视觉显著检测结果对应的所述设备当前显示内容帧的显著性集中度；
[0033]
滤除显著性集中度低于第二预设阈值的视觉显著检测结果，得到待校准内容帧；
[0034]
所述第二预设公式包括：
[0035][0036]
其中，s表示显著性集中度；n表示显著区域/对象的数量；as表示显著区域/对象像素，a
t
表示整个框架的区域像素。
[0037]
根据本发明提供的一种针对视线追踪的隐式校准方法，所述显著信息提取模块用于从所述待校准内容帧中提取显著信息，具体包括：
[0038]
提取所述待校准内容帧在每个连通分量域中的具有最高显著值的像素所在显著区域/对象的坐标和编号；
[0039]
根据第三预设公式，将所述待校准内容帧上的显著性集中度、所有所述显著区域/
对象的坐标和编号共同压缩为特征向量vi，得到待输入显著信息；
[0040]
所述第三预设公式包括：
[0041][0042]
其中，vi表示特征向量，ni表示显著区域/对象的编号，scsi表示待校准内容帧上的显著性集中度，表示显著区域/对象的横坐标，表示显著区域/对象的纵坐标。
[0043]
根据本发明提供的一种针对视线追踪的隐式校准方法，所述视线追踪校准模块用于对所述待校准视线跟踪结果进行校准，具体包括：
[0044]
将所述待输入显著信息和所述待校准视线跟踪结果输入至视线追踪校准模块，将所述偏移量包含的变换向量补偿到所述待校准视线跟踪结果上进行隐式校准，得到视线跟踪校准结果。
[0045]
根据本发明提供的一种针对视线追踪的隐式校准方法，将所述待输入显著信息和所述待校准视线跟踪结果输入至视线追踪校准模块，将所述偏移量包含的变换向量补偿到所述待校准视线跟踪结果上进行隐式校准，得到视线跟踪校准结果，之前还包括：
[0046]
获取用户与设备的相对位置；
[0047]
若所述相对位置的变化小于或等于第三预设阈值，变换向量不变；
[0048]
若所述相对位置的变化大于第三预设阈值或场景切换时，更新所述变换向量。
[0049]
本发明还提供一种针对视线追踪的隐式校准装置，包括：
[0050]
获取单元，用于获取校准窗口内的n个待校准视线跟踪结果和m个设备当前显示内容帧；其中，n小于m；
[0051]
调整单元，用于将所述设备当前显示内容帧的像素调整到预设分辨率，以得到待检测内容帧；
[0052]
视觉显著检测单元，用于将所述待检测内容帧输入至视觉显著检测模块，以得到视觉显著检测结果；所述视觉显著检测模块用于检测所述待检测内容帧中每个像素的显著性；
[0053]
视觉显著度量单元，用于将所述视觉显著检测结果输入至视觉显著度量模块，以得到待校准内容帧；所述视觉显著度量模块用于度量所述视觉显著检测结果中每个像素的显著的有效性；
[0054]
显著信息提取单元，用于将所述待校准内容帧输入至显著信息提取模块，以得到待输入显著信息；所述显著信息提取模块用于从所述待校准内容帧中提取显著信息；
[0055]
视线追踪校准单元，用于将所述待输入显著信息和所述待校准视线跟踪结果输入至视线追踪校准模块，以得到视线跟踪校准结果；所述视线追踪校准模块用于对所述待校准视线跟踪结果进行校准。
[0056]
本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述针对视线追踪的隐式校准方法。
[0057]
本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述针对视线追踪的隐式校准方法。
[0058]
本发明提供的一种针对视线追踪的隐式校准方法和装置，通过获取校准窗口内的n个待校准视线跟踪结果和m个设备当前显示内容帧；其中，n小于m；将所述设备当前显示内
容帧的像素调整到预设分辨率，以得到待检测内容帧；将所述待检测内容帧输入至视觉显著检测模块，以得到视觉显著检测结果；所述视觉显著检测模块用于检测所述待检测内容帧中每个像素的显著性；将所述视觉显著检测结果输入至视觉显著度量模块，以得到待校准内容帧；所述视觉显著度量模块用于度量所述视觉显著检测结果中每个像素的显著的有效性；将所述待校准内容帧输入至显著信息提取模块，以得到待输入显著信息；所述显著信息提取模块用于从所述待校准内容帧中提取显著信息；将所述待输入显著信息和所述待校准视线跟踪结果输入至视线追踪校准模块，以得到视线跟踪校准结果；所述视线追踪校准模块用于对所述待校准视线跟踪结果进行校准。本发明利用显著性信息识别视频帧，并仅使用这些“有用的”帧执行校准，实现不需要用户配合的、更为简单的、用户体验更好的视线追踪的校准。
附图说明
[0059]
为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
[0060]
图1是本发明提供的针对视线追踪的隐式校准方法一个实施例的用户眼睛和屏幕的光学反射模型示意图；
[0061]
图2是本发明提供的针对视线追踪的隐式校准方法的针对视线追踪的隐式校准方法的流程示意图之一；
[0062]
图3是本发明提供的针对视线追踪的隐式校准方法的针对视线追踪的隐式校准方法的流程示意图之二；
[0063]
图4是本发明提供的针对视线追踪的隐式校准方法一个实施例的画面和相对应的注视点与视觉显著性热图；
[0064]
图5是本发明提供的针对视线追踪的隐式校准方法一个实施例的用户注意力迁移图示；
[0065]
图6是本发明提供的针对视线追踪的隐式校准装置的结构示意图；
[0066]
图7是本发明提供的电子设备的结构示意图。
[0067]
附图标记：
[0068]
610：获取单元；620：调整单元；630：视觉显著检测单元；640：视觉显著度量单元；650：显著信息提取单元；660：视线追踪校准单元；
[0069]
710：处理器；720：通信接口；730：存储器；740：通信总线。
具体实施方式
[0070]
为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
[0071]
注视跟踪背后的基本概念是捕捉用户的眼球运动，并将其映射到注视平面(即屏
幕)上的点，如图1所示。在这个过程中需要两个重要的信息：
[0072]
第一个是眼睛的3d模型，根据它可以估计视觉轴，即注视方向。然后，通过视觉轴和注视平面的交点确定注视点。其中，眼睛的3d模型可以通过rgb-d相机拍摄，rgb-d相机广泛应用于当今的智能手机，如iphonex、华为mate20、oppofindx等，一个推测的投影仪将一束结构红外光投射到用户的脸上，特别是眼睛区域，rgb-d摄像头捕捉到眼睛的反射。反射的结构光包含了深度信息，在此基础上可以构建眼睛的三维运动模型。使用红外光的优点是人眼不易察觉，并且不受环境光的影响。此外，它可以保护用户的隐私。
[0073]
第二个是用户眼睛和视线平面之间的相对位置。如果没有这个信息，估计的注视位置会偏离真实位置。因此，需要一个视线校准过程来补偿这个偏移。在典型的校准过程中，用户被要求将目光固定在屏幕上的某些刺激上，他们的眼睛的运动被相机捕捉。在这个过程中，刺激作为注视位置的基本事实，根据估计的注视位置和真实位置之间的偏移捕获变换向量。假设眼睛和屏幕之间的相对位置在短时间内保持不变，可以直接将变换向量应用于估计的注视位置进行注视校正。
[0074]
然而，正如背景技术所指出的，此类显式校准过程将损害用户体验，特别是在移动场景中，其中需要频繁触发重新校准过程以更新变换向量。
[0075]
基于此，本发明提出一种针对视线追踪的隐式校准方法。本发明的设计源于对视觉显著性和用户注视之间的时空依赖关系的理解。
[0076]
下面结合图1-图5描述本发明的针对视线追踪的隐式校准方法，图2和图3是本发明提供的针对视线追踪的隐式校准方法的流程示意图，如图2所示，本发明提供一种针对视线追踪的隐式校准方法，包括：
[0077]
步骤110：获取校准窗口内的n个待校准视线跟踪结果和m个设备当前显示内容帧；其中，n小于m。
[0078]
如图3所示，本发明利用视觉显著进行校准。校准的输入是来自当前设备播放的视频或ar内容的帧以及相应的待校准视线跟踪结果。在一些实施例中，本发明使用校准窗口来分割设备当前显示内容帧和用于校准的待校准视线跟踪结果。每个校准窗口包括n个帧{f1，f2，...，fn}和m个待校准视线跟踪结果{e1，e2，...，em}。为了消除眼睛定位误差，在一帧中使用多个待校准视线跟踪结果。也就是说，待校准视线跟踪结果的采样率高于的帧速率(即m》n)。
[0079]
需要注意的是，待校准视线跟踪结果可以是将用户的眼球运动大致投影到屏幕坐标上得到粗略的注视位置估计。
[0080]
步骤120：将所述设备当前显示内容帧的像素调整到预设分辨率，以得到待检测内容帧。
[0081]
视觉显著热图可以作为注视位置的概率分布，这为隐式注视校正提供了机会。本发明利用两种显著程度来表示用户的注意力，还根据不同的时序动态选择合适的检测算法。
[0082]
在此之前，需要将帧的大小调整到预设分辨率，得到待检测内容帧。在一些实施例中，预设分辨率可以是68
×
68。
[0083]
进行这一步骤的原因是：首先，处理高复用率的帧，例如4k(3840
×
2160)会产生高cpu、gpu和能源开销，这对于资源有限的移动设备来说是负担不起的。其次，由于视频的分
辨率不同，不可能提前预测每一个视频的分辨率。因此，将所有帧的大小调整到固定的分辨率是解决此问题的有效和高效的方法。需要强调的是，在这一步骤中，降低帧的分辨率不会影响显著检测精度。这是因为用于显著检测的帧的特征(即，颜色、强度、方向、对象的形状等)不会在较低分辨率下更改。
[0084]
步骤130：将所述待检测内容帧输入至视觉显著检测模块，以得到视觉显著检测结果；所述视觉显著检测模块用于检测所述待检测内容帧中每个像素的显著性。
[0085]
待检测内容帧输入至视觉显著检测模块后，将被馈送到视觉显著检测组件以生成视觉显著热图，然后，将每个热图归一化到预设范围，以保持一致性，得到视觉显著检测结果。
[0086]
基于显著性的校准背后的基本观点是，用户在观看视频时，通常会被屏幕上的几个显著区域/对象吸引。这样的显著区域/对象被统称为显著性，它从它的邻域中脱颖而出并能立即引起用户的注意。因此，这些显著区域/对象的位置可以被视为用户注视位置的基本事实，这有助于估计用户的注视。如今，随着计算机视觉的发展，人们提出了许多有效的方法来检测视频或帧中的显著区域/目标。这些方法通常输出一个视觉显著热图，该热图显示了一帧中每个像素的显著性，可视为注视的概率分布。
[0087]
在一些实施例中，本发明利用apple的算法来检测显著性，提取出区分颜色、强度、方向的显著区域。这种显著性称为自下而上的显著性。在一个具体实施例中，从eyetrackuav数据集选用一个视频素材，由两名志愿者观看，同时tobii眼动跟踪器记录他们的注视位置，提取这两个帧对应的注视位置，如图4所示，图4显示了两个视频帧和相应的显著性热图。可以看到，显著热图基本上捕获了帧上的显著区域/对象和用户的视线。
[0088]
在另一些实施例中，利用apple算法进行自下而上的显著性检测。对于自上而下的显著性，选择u2-net来检测显著性目标。
[0089]
在时间上，自下而上的注意力和自上而下的注意力在100毫秒的水平上传递，更具体地说是150毫秒。在后期设计的显著性检测过程中，为了匹配注意力的变化，在最初的150毫秒内利用自下而上的显著性(大约是30fps视频中5帧的长度)，然后转向自上而下的显著性，以便更好地匹配注意机制。对于场景分割的识别，主要依靠关键帧的检测。因为在视频编码过程中，一旦发生场景剪切，它将被编码为关键帧。因此，关键帧覆盖了所有场景剪辑。通过比较关键帧和前一帧，可以检测出是否有场景剪切。在另一些实施例中，使用phash散列帧并计算检测距离。通过这种方法，可以在时间上选择适当的显著性来表示用户的视觉注意。
[0090]
步骤140：将所述视觉显著检测结果输入至视觉显著度量模块，以得到待校准内容帧；所述视觉显著度量模块用于度量所述视觉显著检测结果中每个像素的显著的有效性。
[0091]
显著热图基本上可以展示出注视的概率分布。然而，这种情况在某些场景中可能会失败，也就是说，无法从显著性中获得用户的注视。例如，当框架包含多个显著区域/对象时，使用显著性进行校准的效果很差，因为根本无法判断用户在看哪个区域。相反，该帧甚至可以不包含显著性，例如全黑帧。此外，如果显著性相对较大(例如特写帧)，则无法确定用户注视的子区域。总之，利用空间维度的显著性来推断用户的注视并不总是可能的，一般称之为显著性的空间有效性。
[0092]
另外，忽略显著性的时间有效性也是现有基于显著性的校准方法受到影响的另一
个原因。视觉显著性在时间上与用户的注意力有关。人类的视觉注意力有两种途径，自下而上和自上而下。在自下而上的视觉注意中，呈现在大脑中的信息是外部刺激通过视觉通路传递的原始物理特征，包括颜色、强度、方向等。总之，自下而上的视觉注意是由外部环境信息驱动的。至于自上而下的注意，是指大脑的高级关节皮层，包括前额叶皮层(pfc)和后顶叶皮层(ppc)，根据当前任务的目标和过去的知识，在视觉通路中执行信息。这是由大脑内部信息驱动的注意力。
[0093]
特别是观看视频或帧时，一旦出现新场景，用户首先会被自下而上的注意力所驱使，关注帧中的不同区域，然后会被自上而下的注意力所支配，关注基于过去知识的语义对象。如图4所示。在本发明的一些实施过程中，使用这张图片进行了一次用户调查，以验证上述神经理论。具体来说，要求志愿者观看屏幕上的一幅或另一幅图片，然后用图5替换该图片，以模拟视频中的场景。用户被要求报告他/她的第一眼，即潜意识中观察到的区域；和第二眼，即他们后来在潜意识行动后观察到的区域。共有6名志愿者参与。根据他们的反馈，所有志愿者首先观看最亮的区域(月亮)，然后将注意力转移到正确的区域(超级英雄)，这与理论是一致的。
[0094]
为了解决上述空间维度上的问题，本发明设计了一种度量方法来量化显著热图的集中度，只有高集中度的显著热图才可以作为很好的校准机会。
[0095]
显著热图的集中度由两个特征决定。一是热图上显著区域/对象的数量，另一个是显著区域/对象的面积。基于此，本发明提出一种显著性度量，称为显著性集中度(scs)，其计算公式表示为第二预设公式，如下：
[0096][0097]
其中，s表示显著性集中度；n表示显著区域/对象的数量；as表示显著区域/对象像素，a
t
表示整个框架的区域像素。scs的值在0和1之间变化。n和as与a
t
的比值越小，scs值越接近1，反之亦然。
[0098]
为计算显著性集中度，需要从每一帧中提取特征n和as。为此，首先对每一帧的热图进行二值化，以过滤出显著性值低于第一预设阈值的背景像素，得到显著像素。在一些实施例中，用于二值化的第一预设阈值可以是170。
[0099]
滤除后剩下的像素记为显著像素，反映了显著的区域/对象。显著像素集合的区域就是显著区域/对象。显然，剩余像素的比率给出了比率显著区域/对象的数量n可以通过在二值化热图上形成连通分量分析来计算。
[0100]
计算得到显著区域/对象的数量n后，结合比率通过第二预设公式计算得到显著性热图对应的显著性集中度。所述显著性集中度也是视觉显著检测结果对应的设备当前显示内容帧的显著性集中度，同时也是待校准内容帧的显著性集中度。
[0101]
利用显著性集中度即可在空间上选择显著性，使用此度量来选择可用于校准的帧。在进行显著性检测之前，已经进行了一次选择，以确定每一帧的显著类型。经过这种时间选择和显著性检测后，仍然存在一个问题，即并不是所有的帧都能为隐式校准提供良好的机会，故而还需要将scs值较低的值滤除。具体来说，将scs值低于第二预设阈值的帧滤
除，得到待校准内容帧，即经过滤除的待校准的内容帧都能更好的进行隐式校准。在一些实施例中，第二预设阈值可以为0.6。
[0102]
步骤150：将所述待校准内容帧输入至显著信息提取模块，以得到待输入显著信息；所述显著信息提取模块用于从所述待校准内容帧中提取显著信息。
[0103]
之后，从剩余的、能更好的进行隐式校准的帧(即待校准的内容帧)中提取显著信息。具体地说，对于每个帧fi，在其中的每个连通分量域中找到具有最高显著值的像素，其坐标表示相应显著区域/对象的位置。然后，将fi上所有ni个显著区域/对象的坐标与显著区域/对象编号ni和scs值scsi一起压缩为特征向量vi，如下所示，即第三预设公式：
[0104][0105]
其中，vi表示特征向量，ni表示显著区域/对象的编号，scsi表示待校准内容帧上的显著性集中度，表示显著区域/对象的横坐标，表示显著区域/对象的纵坐标。
[0106]
每一帧的特征向量vi记为待输入显著信息，待输入显著信息被馈送到视线追踪校准模块中的校准组件以进行隐式注视误差补偿。
[0107]
步骤160：将所述待输入显著信息和所述待校准视线跟踪结果输入至视线追踪校准模块，以得到视线跟踪校准结果；所述视线追踪校准模块用于对所述待校准视线跟踪结果进行校准。
[0108]
利用一个帧中的所有特征向量组成的视觉显著向量({v1，v2，...，vn})可以校正待校准视线跟踪结果中注视位置{g1，g2，...，gm}中的误差。
[0109]
但在这之前，需要首先对待校准视线跟踪结果进行预处理，以滤除结果中的两个噪声源。
[0110]
第一个噪声源被闪烁事件擦除。具体地说，人类的眼睛通常在一分钟内眨眼15-20次。当用户眨眼时，注视位置将迅速改变。类似的现象也可以在扫视事件中观察到。然而，在这两个事件中，注视模式是不同的。对于眨眼事件，注视位置变化很快，但很快就会回到原来的位置。因此，在这种情况下，可以使用z-score来消除异常值。在这里，z-score的计算公式可以表示为第一预设公式：
[0111][0112]
其中，z表示第一去噪分数值，x表示原始值，μ表示整数值的平均值，σ表示标准差。
[0113]
在实际操作过程中，计算校准窗口中待校准视线跟踪结果即每个粗略注视位置的z分数，如果其z分数的绝对值大于z分数阈值，则将其识别为异常值。在一些实施例中，z分数阈值可以设置为3。
[0114]
除了眨眼事件外，眼睛定位的误差也会给注视跟踪结果带来噪声，称为第二噪声。具体地说，它会在粗略的注视位置引起轻微的抖动。为了滤除这种抖动，对每一帧的多个眼睛位置进行采样。待校准视线跟踪结果包含注视位置，根据所述待校准视线跟踪结果获得注视位置，计算对应于一个特征向量vi的ni个粗略注视位置{g1，g2，...，gm}的平均值。平均注视位置表示为由于在一个校准窗口中使用n个帧，因此将获得n个平均注视位置之后，从待输入显著信息获取显著向量，使用n个平均注视位置和n个显著向量{v}来进行注视校准。在一些实施例中，可以将显著向量{v}的数量n设置为10。虽然
可以使用单个显著向量来预测真实的注视位置，但是由于单个帧可能包含多个显著区域/对象，因此精度仍然不足以确定注视点的准确位置。此外，用户行为的不确定性也会导致单帧的波动。例如，用户的注意力有时会被背景中不明显的区域吸引。因此，利用n个帧的序列来消除这种误差。具体地说，分别对{v}和进行聚类。然后，对于{v}和的聚类结果，选择样本最多的聚类来分别表示最频繁的显著区域和对应的粗略注视区域。通过计算两个区域的质心之间的偏移量，得到一个称为校准变换向量vc的矢量。利用该向量可以补偿粗跟踪结果中的误差。
[0115]
在实际操作过程中，可以使用rgb-d相机跟踪用户的眼球运动，并将其大致投影到屏幕坐标上，由此得到粗略的注视位置估计，即待校准视线跟踪结果。之后，粗估计被用作校准的输入。校准是一个机会主义的过程，可以通过监测头部运动和场景切割来调用。在校准过程中，对校准窗口中的帧提取显著性信息。基于对显著性的时空维度的认识，利用自下而上的显著性和自上而下的显著性来匹配用户注意力在时间维度上的变化。然后，通过测量显著性的空间特征来过滤低质量的显著性地图。选择合适的帧进行显著性校正，并与跟踪过程中获得的粗略注视估计进行比较，生成变换向量。然后利用变换向量对粗估计进行补偿，得到校准过程中获得的视线跟踪校准结果。
[0116]
也就是说，在第二去噪过程中，通过计算两个区域的质心之间的偏移量，得到一个称为校准变换向量vc的矢量。利用该向量可以补偿粗跟踪结果中的误差。将偏移量包含的变换向量补偿到所述待校准视线跟踪结果上进行隐式校准，得到视线跟踪校准结果。
[0117]
上述步骤结束后就能够基本执行完整的注视跟踪。
[0118]
在实际跟踪的操作过程中，首先使用前置rgbd摄像头捕捉用户的3d眼睛信息{e1，e2，...，em}，将3d眼睛信息处理后获得注视位置。注视位置和注视平面(屏幕)的交集决定了注视点{g1，g2，...，gm}。然而，在这里面临的一个问题是，注视平面相对于用户眼睛的位置是不知道的。在本发明的前述步骤中，综合了来自惯性测量单元(imu)的手机的惯性信息和来自相机视角的深度信息来估计屏幕的相对位置。
[0119]
然而，当用户以横向姿势握住手机时，上述相对位置的估计将会出现一些问题。在这种情况下，相机将向用户面部的左侧或右侧旋转90度。因此，当被相机捕捉到时，用户的脸会稍微旋转一下。估计的注视方向也是扭曲的，特别是对于相机相反方向的眼睛。
[0120]
在不失去一般性的情况下，本发明首先考虑相机旋转到用户左侧的情况。在屏幕坐标系中，假设原点位于屏幕的左下角。可以产生两个关键的观察：i)视线沿x轴距离原点越远，当眼球旋转一定程度时，其位移越大；ii)视线沿y轴距离原点越近，当眼球旋转一定程度时，其位移越小。第一次观察是由相机捕捉到的用户面部的旋转引起的。第二个观察是由眼睛的椭圆形结构引起的。在椭圆形结构中，眼球从左到右的旋转比从上到下的旋转更明显，即使眼球旋转的程度相同。此外，与向下看相比，当用户向上看时，眼睛睁得更大。因此，当用户向下看时，相机更难捕捉到他/她的眼睛。
[0121]
故而，为了补偿x轴上的失真，用移动设备的前置摄像头捕捉到的用户面部的旋转来补偿注视位置(即待校准视线跟踪结果)的x值。对于y轴上的失真，当y小于y轴失真阈值时，用一个恒定值来补偿视点位置(即待校准视线跟踪结果)的y值。y轴失真阈值可以是300。有了这个补偿，本发明就可以在肖像和风景两种姿势下进行注视跟踪。最后，将待输入显著信息包含的特征向量补偿到待校准视线跟踪结果上，得到标定后的视线跟踪校准结
果。
[0122]
在一些实施例中，本发明还包括校准过程的触发条件。本发明提出了基于用户注意力时空模型的隐式校准方案，从根本上解决了显式校准对用户体验质量的降低。
[0123]
本发明提供的校准机制是机会主义的，参考选择在两个方面：
[0124]
首先，校准是建立在用户和设备之间稳定的相对位置上的。因此，当检测到相对位置的变化时，需要重新校准。否则，可以直接使用预先计算的变换向量来执行校准跟踪。在一些实施例中，通过使用前置rgb-d摄像头跟踪用户的人脸运动来实现这样的检测。具体地说，当用户和设备之间的相对位置发生变化时，摄像头捕捉到的用户的面部姿势不可避免地会发生变化。因此，在视线跟踪过程中，不断地捕捉到用户面部的3d信息。一旦两个连续脸部姿势之间的距离大于第三预设阈值，在一些实施例中，所述第三预设阈值可以是0.005，则检测到相对位置的变化。然后触发新的校准过程以更新变换向量。这种重新校准也可以在现有的校准过程中进行，以保持校准的质量。
[0125]
此外，当场景切换出现时，执行校准。正如在步骤130中提到的，场景切换后，自下而上的注意力将立即主导用户的注视。这种潜意识行为具有很强的自信程度，将用户的注视与自下而上的显着性联系在一起。因此，需要触发对检测到的场景切换的校准，以保持剪切结果的质量。对于这种校准，为了保持与注意持续时间的一致性，校准窗口的长度可以定义为5帧。
[0126]
本发明提出了一种针对视线追踪的隐式校准方法，利用对用户注意力机制时间和空间维度的洞察，通过跟踪用户的头部及眼部运动，结合对画面内容的分析，利用用户注意力和画面内容之间的时空关系，使用动态低质的画面对用户眼动进行隐式、被动的校准，利用“有用的”显著性信息识别视频帧，并仅使用这些“有用的”帧执行机会校准。解决了扩展现实注视跟踪中校准过程对于用户体验质量严重降低的问题，即使在移动场景中也能实现高度可靠和精确的注视跟踪，最终实现适用于扩展现实的连续注视跟踪。
[0127]
基于上述实施例，该方法中，将所述待输入显著信息和所述待校准视线跟踪结果输入至视线追踪校准模块，以得到视线跟踪校准结果，之前还包括：
[0128]
对所述待校准视线跟踪结果进行第一去噪和第二去噪；
[0129]
所述第一去噪具体包括：
[0130]
利用第一预设公式对所述待校准视线跟踪结果进行第一去噪；
[0131]
所述第一预设公式包括：
[0132][0133]
其中，z表示第一去噪分数值，x表示原始值，μ表示整数值的平均值，σ表示标准差；
[0134]
所述第二去噪具体包括：
[0135]
根据所述待校准视线跟踪结果获得注视位置；
[0136]
计算所述待输入显著信息对应的所述注视位置的平均值，以得到平均注视位置；
[0137]
将所述待输入显著信息和所述平均注视位置聚类，以得到聚类结果；
[0138]
根据所述聚类结果确定最频繁显著区域和粗略注视区域；
[0139]
计算所述最频繁显著区域和所述粗略注视区域质心之间的偏移量，根据所述偏移量进行第二去噪。
[0140]
具体地，将所述待输入显著信息和所述待校准视线跟踪结果输入至视线追踪校准模块之前，需要首先对待校准视线跟踪结果进行预处理，以滤除结果中的两个噪声源。
[0141]
第一个噪声源被闪烁事件擦除。具体地说，人类的眼睛通常在一分钟内眨眼15-20次。当用户眨眼时，注视位置将迅速改变。类似的现象也可以在扫视事件中观察到。然而，在这两个事件中，注视模式是不同的。对于眨眼事件，注视位置变化很快，但很快就会回到原来的位置。因此，在这种情况下，可以使用z-score来消除异常值。在这里，z-score的计算公式可以表示为第一预设公式：
[0142][0143]
其中，z表示第一去噪分数值，x表示原始值，μ表示整数值的平均值，σ表示标准差。
[0144]
在实际操作过程中，计算校准窗口中待校准视线跟踪结果即每个粗略注视位置的z分数，如果其z分数的绝对值大于z分数阈值，则将其识别为异常值。在一些实施例中，z分数阈值可以设置为3。
[0145]
除了眨眼事件外，眼睛定位的误差也会给注视跟踪结果带来噪声，称为第二噪声。具体地说，它会在粗略的注视位置引起轻微的抖动。为了滤除这种抖动，对每一帧的多个眼睛位置进行采样。计算对应于一个特征向量vi的ni个粗略注视位置{g1，g2，...，gm}的平均值。平均注视位置表示为由于在一个校准窗口中使用n个帧，因此将获得n个平均注视位置之后，使用n个平均注视位置和n个显著向量{v}来进行注视校准。在一些实施例中，可以将显著向量{v}的数量n设置为10。虽然可以使用单个显著向量来预测真实的注视位置，但是由于单个帧可能包含多个显著区域/对象，因此精度仍然不足以确定注视点的准确位置。此外，用户行为的不确定性也会导致单帧的波动。例如，用户的注意力有时会被背景中不明显的区域吸引。因此，利用n个帧的序列来消除这种误差。具体地说，分别对{v}和进行聚类。然后，对于{v}和的聚类结果，选择样本最多的聚类来分别表示最频繁的显著区域和对应的粗略注视区域。通过计算两个区域的质心之间的偏移量，得到一个称为校准变换向量vc的矢量。利用该向量可以补偿粗跟踪结果中的误差。
[0146]
基于上述实施例，该方法中，所述视觉显著检测模块用于检测所述待检测内容帧中每个像素的显著性，具体包括：
[0147]
将所述待检测内容帧输入至视觉显著检测模块，生成视觉显著热图；
[0148]
将所述视觉显著热图归一化至预设范围，得到视觉显著检测结果。
[0149]
具体地，待检测内容帧输入至视觉显著检测模块后，将被馈送到视觉显著检测组件以生成视觉显著热图，然后，将每个热图归一化到预设范围，以保持一致性，得到视觉显著检测结果。
[0150]
基于上述实施例，该方法中，所述视觉显著度量模块用于度量所述视觉显著检测结果中每个像素的显著的有效性，具体包括：
[0151]
根据第一预设阈值对所述视觉显著检测结果进行二值化，以得到显著像素；
[0152]
通过连通分量分析计算得到帧中显著像素所在显著区域/对象的数量；
[0153]
根据第二预设公式计算得到所述视觉显著检测结果对应的所述设备当前显示内容帧的显著性集中度；
[0154]
滤除显著性集中度低于第二预设阈值的视觉显著检测结果，得到待校准内容帧；
[0155]
所述第二预设公式包括：
[0156][0157]
其中，s表示显著性集中度；n表示显著区域/对象的数量；as表示显著区域/对象像素，a
t
表示整个框架的区域像素。
[0158]
具体地，显著热图的集中度由两个特征决定。一是热图上显著区域/对象的数量，另一个是显著区域/对象的面积。基于此，本发明提出一种显著性度量，称为显著性集中度(scs)，其计算公式表示为第二预设公式，如下：
[0159][0160]
其中，s表示显著性集中度；n表示显著区域/对象的数量；as表示显著区域/对象像素，a
t
表示整个框架的区域像素。scs的值在0和1之间变化。n和as与a
t
的比值越小，scs值越接近1，反之亦然。
[0161]
为计算显著性集中度，需要从每一帧中提取特征n和as。为此，首先对每一帧的热图进行二值化，以过滤出显著性值低于第一预设阈值的背景像素，得到显著像素。在一些实施例中，用于二值化的第一预设阈值可以是170。
[0162]
滤除后剩下的像素记为显著像素，反映了显著的区域/对象。显著像素集合的区域就是显著区域/对象。显然，剩余像素的比率给出了比率显著区域/对象的数量n可以通过在二值化热图上形成连通分量分析来计算。
[0163]
计算得到显著区域/对象的数量n后，结合比率通过第二预设公式计算得到显著性热图对应的显著性集中度。所述显著性集中度也是视觉显著检测结果对应的设备当前显示内容帧的显著性集中度，同时也是待校准内容帧的显著性集中度。
[0164]
利用显著性集中度即可在空间上选择显著性，使用此度量来选择可用于校准的帧。在进行显著性检测之前，已经进行了一次选择，以确定每一帧的显著类型。经过这种时间选择和显著性检测后，仍然存在一个问题，即并不是所有的帧都能为隐式校准提供良好的机会，故而还需要将scs值较低的值滤除。具体来说，将scs值低于第二预设阈值的帧滤除，得到待校准内容帧，即经过滤除的待校准的内容帧都能更好的进行隐式校准。在一些实施例中，第二预设阈值可以为0.6。
[0165]
基于上述实施例，该方法中，所述显著信息提取模块用于从所述待校准内容帧中提取显著信息，具体包括：
[0166]
提取所述待校准内容帧在每个连通分量域中的具有最高显著值的像素所在显著区域/对象的坐标和编号；
[0167]
根据第三预设公式，将所述待校准内容帧上的显著性集中度、所有所述显著区域/对象的坐标和编号共同压缩为特征向量vi，得到待输入显著信息；
[0168]
所述第三预设公式包括：
[0169][0170]
其中，vi表示特征向量，ni表示显著区域/对象的编号，scsi表示待校准内容帧上的显著性集中度，表示显著区域/对象的横坐标，表示显著区域/对象的纵坐标。
[0171]
具体地，之后，从剩余的能更好的进行隐式校准的帧(即待校准的内容帧)中提取显著信息。具体地说，对于每个帧fi，在其中的每个连通分量域中找到具有最高显著值的像素，其坐标表示相应显著区域/对象的位置。然后，将fi上所有ni个显著区域/对象的坐标与显著区域/对象编号ni和scs值scsi一起压缩为特征向量vi，如下所示，即第三预设公式：
[0172][0173]
其中，vi表示特征向量，ni表示显著区域/对象的编号，scsi表示待校准内容帧上的显著性集中度，表示显著区域/对象的横坐标，表示显著区域/对象的纵坐标。
[0174]
每一帧的特征向量vi记为待输入显著信息，待输入显著信息被馈送到视线追踪校准模块照中的校准组件以进行隐式注视误差补偿。
[0175]
基于上述实施例，该方法中，所述视线追踪校准模块用于对所述待校准视线跟踪结果进行校准，具体包括：
[0176]
将所述待输入显著信息和所述待校准视线跟踪结果输入至视线追踪校准模块，将所述偏移量包含的变换向量补偿到所述待校准视线跟踪结果上进行隐式校准，得到视线跟踪校准结果。
[0177]
具体地，利用一个帧中的所有特征向量组成的视觉显著向量({v1，v2，...，vn})可以校正待校准视线跟踪结果中注视位置{g1，g2，...，gm}中的误差。
[0178]
在实际操作过程中，可以使用rgb-d相机跟踪用户的眼球运动，并将其大致投影到屏幕坐标上，由此得到粗略的注视位置估计，即待校准视线跟踪结果。之后，粗估计被用作校准的输入。校准是一个机会主义的过程，可以通过监测头部运动和场景切割来调用。在校准过程中，对校准窗口中的帧提取显著性信息。基于对显著性的时空维度的认识，利用自下而上的显著性和自上而下的显著性来匹配用户注意力在时间维度上的变化。然后，通过测量显著性的空间特征来过滤低质量的显著性地图。选择合适的帧进行显著性校正，并与跟踪过程中获得的粗略注视估计进行比较，生成变换向量。然后利用变换向量对粗估计进行补偿，得到校准过程中获得的视线跟踪校准结果。
[0179]
也就是说，在第二去噪过程中，通过计算两个区域的质心之间的偏移量，得到一个称为校准变换向量vc的矢量。利用该向量可以补偿粗跟踪结果中的误差。将偏移量包含的变换向量补偿到所述待校准视线跟踪结果上进行隐式校准，得到视线跟踪校准结果。
[0180]
基于上述实施例，该方法中，将所述待输入显著信息和所述待校准视线跟踪结果输入至视线追踪校准模块，将所述偏移量包含的变换向量补偿到所述待校准视线跟踪结果上进行隐式校准，得到视线跟踪校准结果，之前还包括：
[0181]
获取用户与设备的相对位置；
[0182]
若所述相对位置的变化小于或等于第三预设阈值，变换向量不变；
[0183]
若所述相对位置的变化大于第三预设阈值或场景切换时，更新所述变换向量。
[0184]
具体地，当用户以横向姿势握住手机时，上述相对位置的估计将会出现一些问题。
在这种情况下，相机将向用户面部的左侧或右侧旋转90度。因此，当被相机捕捉到时，用户的脸会稍微旋转一下。估计的注视方向也是扭曲的，特别是对于相机相反方向的眼睛。
[0185]
在不失去一般性的情况下，本发明首先考虑相机旋转到用户左侧的情况。在屏幕坐标系中，假设原点位于屏幕的左下角。可以产生两个关键的观察：i)视线沿x轴距离原点越远，当眼球旋转一定程度时，其位移越大；ii)视线沿y轴距离原点越近，当眼球旋转一定程度时，其位移越小。第一次观察是由相机捕捉到的用户面部的旋转引起的。第二个观察是由眼睛的椭圆形结构引起的。在椭圆形结构中，眼球从左到右的旋转比从上到下的旋转更明显，即使眼球旋转的程度相同。此外，与向下看相比，当用户向上看时，眼睛睁得更大。因此，当用户向下看时，相机更难捕捉到他/她的眼睛。
[0186]
故而，为了补偿x轴上的失真，用移动设备的前置摄像头捕捉到的用户面部的旋转来补偿注视位置(即待校准视线跟踪结果)的x值。对于y轴上的失真，当y小于y轴失真阈值时，用一个恒定值来补偿视点位置(即待校准视线跟踪结果)的y值。y轴失真阈值可以是300。有了这个补偿，本发明就可以在肖像和风景两种姿势下进行注视跟踪。最后，将待输入显著信息包含的特征向量补偿到待校准视线跟踪结果上，得到标定后的视线跟踪校准结果。
[0187]
在一些实施例中，本发明还包括校准过程的触发条件。本发明提出了基于用户注意力时空模型的隐式校准方案，从根本上解决了显式校准对用户体验质量的降低。
[0188]
本发明提供的校准机制是机会主义的，参考选择在两个方面：
[0189]
首先，校准是建立在用户和设备之间稳定的相对位置上的。因此，当检测到相对位置的变化时，需要重新校准。否则，可以直接使用预先计算的变换向量来执行校准跟踪。在一些实施例中，通过使用前置rgb-d摄像头跟踪用户的人脸运动来实现这样的检测。具体地说，当用户和设备之间的相对位置发生变化时，摄像头捕捉到的用户的面部姿势不可避免地会发生变化。因此，在视线跟踪过程中，不断地捕捉到用户面部的3d信息。一旦两个连续脸部姿势之间的距离大于第三预设阈值，在一些实施例中，所述第三预设阈值可以是0.005，则检测到相对位置的变化。然后触发新的校准过程以更新变换向量。这种重新校准也可以在现有的校准过程中进行，以保持校准的质量。
[0190]
此外，当场景切换出现时，执行校准。正如在步骤130中提到的，场景切换后，自下而上的注意力将立即主导用户的注视。这种潜意识行为具有很强的自信程度，将用户的注视与自下而上的显着性联系在一起。因此，需要触发对检测到的场景切换的校准，以保持剪切结果的质量。对于这种校准，为了保持与注意持续时间的一致性，校准窗口的长度可以定义为5帧。
[0191]
在一个具体实施例中，选择iphone xs max作为当前设备，它集成了2.49ghz的apple a12 bionic，4gb ram，6.5英寸屏幕，truedepth摄像头，运行ios 13.6操作系统。truedepth相机提供了一种rgb-d相机。本发明提供的针对视线追踪的隐式校准方法的实现可以应用于任何配备truedepth摄像头的ios设备，如iphone 11、ipad pro等。此外，本发明可以在任何配备rgb-d摄像头的android设备上实现，如华为mate 20、oppo find x、荣誉魔术2等。本发明提供的针对视线追踪的隐式校准方法的算法采用swift和objective-c++编写。为了保证评估帧在不同用户之间的重复性，在实现中使用了视频作为可视输入。这种实现可以通过简单的设置轻松转换为ar场景。为了获取rgb-d相机数据，使用arkit框架用于
ios的opencv以提供多个帧处理功能。
[0192]
本发明提供的一种针对视线追踪的隐式校准方法，通过获取校准窗口内的n个待校准视线跟踪结果和m个设备当前显示内容帧；其中，n小于m；将所述设备当前显示内容帧的像素调整到预设分辨率，以得到待检测内容帧；将所述待检测内容帧输入至视觉显著检测模块，以得到视觉显著检测结果；所述视觉显著检测模块用于检测所述待检测内容帧中每个像素的显著性；将所述视觉显著检测结果输入至视觉显著度量模块，以得到待校准内容帧；所述视觉显著度量模块用于度量所述视觉显著检测结果中每个像素的显著的有效性；将所述待校准内容帧输入至显著信息提取模块，以得到待输入显著信息；所述显著信息提取模块用于从所述待校准内容帧中提取显著信息；将所述待输入显著信息和所述待校准视线跟踪结果输入至视线追踪校准模块，以得到视线跟踪校准结果；所述视线追踪校准模块用于对所述待校准视线跟踪结果进行校准。本发明利用显著性信息识别视频帧，并仅使用这些“有用的”帧执行校准，实现不需要用户配合的、更为简单的、用户体验更好的视线追踪的校准。
[0193]
下面对本发明提供的针对视线追踪的隐式校准装置进行描述，下文描述的针对视线追踪的隐式校准装置与上文描述的针对视线追踪的隐式校准方法可相互对应参照。
[0194]
图6是本发明实施例提供的针对视线追踪的隐式校准装置的结构示意图，如图6所示，本发明实施例提供一种针对视线追踪的隐式校准装置，包括：获取单元610；调整单元620；视觉显著检测单元630；视觉显著度量单元640；显著信息提取单元650；视线追踪校准单元660；
[0195]
其中，
[0196]
获取单元610，用于获取校准窗口内的n个待校准视线跟踪结果和m个设备当前显示内容帧；其中，n小于m；
[0197]
调整单元620，用于将所述设备当前显示内容帧的像素调整到预设分辨率，以得到待检测内容帧；
[0198]
视觉显著检测单元630，用于将所述待检测内容帧输入至视觉显著检测模块，以得到视觉显著检测结果；所述视觉显著检测模块用于检测所述待检测内容帧中每个像素的显著性；
[0199]
视觉显著度量单元640，用于将所述视觉显著检测结果输入至视觉显著度量模块，以得到待校准内容帧；所述视觉显著度量模块用于度量所述视觉显著检测结果中每个像素的显著的有效性；
[0200]
显著信息提取单元650，用于将所述待校准内容帧输入至显著信息提取模块，以得到待输入显著信息；所述显著信息提取模块用于从所述待校准内容帧中提取显著信息；
[0201]
视线追踪校准单元660，用于将所述待输入显著信息和所述待校准视线跟踪结果输入至视线追踪校准模块，以得到视线跟踪校准结果；所述视线追踪校准模块用于对所述待校准视线跟踪结果进行校准。
[0202]
基于上述实施例，该装置中，将所述待输入显著信息和所述待校准视线跟踪结果输入至视线追踪校准模块，以得到视线跟踪校准结果，之前还包括：
[0203]
对所述待校准视线跟踪结果进行第一去噪和第二去噪；
[0204]
所述第一去噪具体包括：
[0205]
利用第一预设公式对所述待校准视线跟踪结果进行第一去噪；
[0206]
所述第一预设公式包括：
[0207][0208]
其中，z表示第一去噪分数值，x表示原始值，μ表示整数值的平均值，σ表示标准差；
[0209]
所述第二去噪具体包括：
[0210]
根据所述待校准视线跟踪结果获得注视位置；
[0211]
计算所述待输入显著信息对应的所述注视位置的平均值，以得到平均注视位置；
[0212]
将所述待输入显著信息和所述平均注视位置聚类，以得到聚类结果；
[0213]
根据所述聚类结果确定最频繁显著区域和粗略注视区域；
[0214]
计算所述最频繁显著区域和所述粗略注视区域质心之间的偏移量，根据所述偏移量进行第二去噪。
[0215]
基于上述实施例，该装置中，所述视觉显著检测模块用于检测所述待检测内容帧中每个像素的显著性，具体包括：
[0216]
将所述待检测内容帧输入至视觉显著检测模块，生成视觉显著热图；
[0217]
将所述视觉显著热图归一化至预设范围，得到视觉显著检测结果。
[0218]
基于上述实施例，该装置中，所述视觉显著度量模块用于度量所述视觉显著检测结果中每个像素的显著的有效性，具体包括：
[0219]
根据第一预设阈值对所述视觉显著检测结果进行二值化，以得到显著像素；
[0220]
通过连通分量分析计算得到帧中显著像素所在显著区域/对象的数量；
[0221]
根据第二预设公式计算得到所述视觉显著检测结果对应的所述设备当前显示内容帧的显著性集中度；
[0222]
滤除显著性集中度低于第二预设阈值的视觉显著检测结果，得到待校准内容帧；
[0223]
所述第二预设公式包括：
[0224][0225]
其中，s表示显著性集中度；n表示显著区域/对象的数量；as表示显著区域/对象像素，a
t
表示整个框架的区域像素。
[0226]
基于上述实施例，该装置中，所述显著信息提取模块用于从所述待校准内容帧中提取显著信息，具体包括：
[0227]
提取所述待校准内容帧在每个连通分量域中的具有最高显著值的像素所在显著区域/对象的坐标和编号；
[0228]
根据第三预设公式，将所述待校准内容帧上的显著性集中度、所有所述显著区域/对象的坐标和编号共同压缩为特征向量vi，得到待输入显著信息；
[0229]
所述第三预设公式包括：
[0230][0231]
其中，vi表示特征向量，ni表示显著区域/对象的编号，scsi表示待校准内容帧上的显著性集中度，表示显著区域/对象的横坐标，表示显著区域/对象的纵坐标。
[0232]
基于上述实施例，该装置中，所述视线追踪校准模块用于对所述待校准视线跟踪结果进行校准，具体包括：
[0233]
将所述待输入显著信息和所述待校准视线跟踪结果输入至视线追踪校准模块，将所述偏移量包含的变换向量补偿到所述待校准视线跟踪结果上进行隐式校准，得到视线跟踪校准结果。
[0234]
基于上述实施例，该装置中，将所述待输入显著信息和所述待校准视线跟踪结果输入至视线追踪校准模块，将所述偏移量包含的变换向量补偿到所述待校准视线跟踪结果上进行隐式校准，得到视线跟踪校准结果，之前还包括：
[0235]
获取用户与设备的相对位置；
[0236]
若所述相对位置的变化小于或等于第三预设阈值，变换向量不变；
[0237]
若所述相对位置的变化大于第三预设阈值或场景切换时，更新所述变换向量。
[0238]
本发明提供的一种针对视线追踪的隐式校准装置，通过获取校准窗口内的n个待校准视线跟踪结果和m个设备当前显示内容帧；其中，n小于m；将所述设备当前显示内容帧的像素调整到预设分辨率，以得到待检测内容帧；将所述待检测内容帧输入至视觉显著检测模块，以得到视觉显著检测结果；所述视觉显著检测模块用于检测所述待检测内容帧中每个像素的显著性；将所述视觉显著检测结果输入至视觉显著度量模块，以得到待校准内容帧；所述视觉显著度量模块用于度量所述视觉显著检测结果中每个像素的显著的有效性；将所述待校准内容帧输入至显著信息提取模块，以得到待输入显著信息；所述显著信息提取模块用于从所述待校准内容帧中提取显著信息；将所述待输入显著信息和所述待校准视线跟踪结果输入至视线追踪校准模块，以得到视线跟踪校准结果；所述视线追踪校准模块用于对所述待校准视线跟踪结果进行校准。本发明利用显著性信息识别视频帧，并仅使用这些“有用的”帧执行校准，实现不需要用户配合的、更为简单的、用户体验更好的视线追踪的校准。
[0239]
图7示例了一种电子设备的实体结构示意图，如图7所示，该电子设备可以包括：处理器(processor)710、通信接口(communications interface)720、存储器(memory)730和通信总线740，其中，处理器710，通信接口720，存储器730通过通信总线740完成相互间的通信。处理器710可以调用存储器730中的逻辑指令，以执行针对视线追踪的隐式校准方法，该方法包括：获取校准窗口内的n个待校准视线跟踪结果和m个设备当前显示内容帧；其中，n小于m；将所述设备当前显示内容帧的像素调整到预设分辨率，以得到待检测内容帧；将所述待检测内容帧输入至视觉显著检测模块，以得到视觉显著检测结果；所述视觉显著检测模块用于检测所述待检测内容帧中每个像素的显著性；将所述视觉显著检测结果输入至视觉显著度量模块，以得到待校准内容帧；所述视觉显著度量模块用于度量所述视觉显著检测结果中每个像素的显著的有效性；将所述待校准内容帧输入至显著信息提取模块，以得到待输入显著信息；所述显著信息提取模块用于从所述待校准内容帧中提取显著信息；将所述待输入显著信息和所述待校准视线跟踪结果输入至视线追踪校准模块，以得到视线跟踪校准结果；所述视线追踪校准模块用于对所述待校准视线跟踪结果进行校准。
[0240]
此外，上述的存储器730中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以
软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0241]
又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的针对视线追踪的隐式校准方法，该方法包括：获取校准窗口内的n个待校准视线跟踪结果和m个设备当前显示内容帧；其中，n小于m；将所述设备当前显示内容帧的像素调整到预设分辨率，以得到待检测内容帧；将所述待检测内容帧输入至视觉显著检测模块，以得到视觉显著检测结果；所述视觉显著检测模块用于检测所述待检测内容帧中每个像素的显著性；将所述视觉显著检测结果输入至视觉显著度量模块，以得到待校准内容帧；所述视觉显著度量模块用于度量所述视觉显著检测结果中每个像素的显著的有效性；将所述待校准内容帧输入至显著信息提取模块，以得到待输入显著信息；所述显著信息提取模块用于从所述待校准内容帧中提取显著信息；将所述待输入显著信息和所述待校准视线跟踪结果输入至视线追踪校准模块，以得到视线跟踪校准结果；所述视线追踪校准模块用于对所述待校准视线跟踪结果进行校准。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。
[0242]
通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如rom/ram、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
[0243]
最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

技术特征：
1.一种针对视线追踪的隐式校准方法，其特征在于，包括：获取校准窗口内的n个待校准视线跟踪结果和m个设备当前显示内容帧；其中，n小于m；将所述设备当前显示内容帧的像素调整到预设分辨率，以得到待检测内容帧；将所述待检测内容帧输入至视觉显著检测模块，以得到视觉显著检测结果；所述视觉显著检测模块用于检测所述待检测内容帧中每个像素的显著性；将所述视觉显著检测结果输入至视觉显著度量模块，以得到待校准内容帧；所述视觉显著度量模块用于度量所述视觉显著检测结果中每个像素的显著的有效性；将所述待校准内容帧输入至显著信息提取模块，以得到待输入显著信息；所述显著信息提取模块用于从所述待校准内容帧中提取显著信息；将所述待输入显著信息和所述待校准视线跟踪结果输入至视线追踪校准模块，以得到视线跟踪校准结果；所述视线追踪校准模块用于对所述待校准视线跟踪结果进行校准。2.根据权利要求1所述的针对视线追踪的隐式校准方法，其特征在于，将所述待输入显著信息和所述待校准视线跟踪结果输入至视线追踪校准模块，以得到视线跟踪校准结果，之前还包括：对所述待校准视线跟踪结果进行第一去噪和第二去噪；所述第一去噪具体包括：利用第一预设公式对所述待校准视线跟踪结果进行第一去噪；所述第一预设公式包括：其中，z表示第一去噪分数值，x表示原始值，μ表示整数值的平均值，σ表示标准差；所述第二去噪具体包括：根据所述待校准视线跟踪结果获得注视位置；计算所述待输入显著信息对应的所述注视位置的平均值，以得到平均注视位置；将所述待输入显著信息和所述平均注视位置聚类，以得到聚类结果；根据所述聚类结果确定最频繁显著区域和粗略注视区域；计算所述最频繁显著区域和所述粗略注视区域质心之间的偏移量，根据所述偏移量进行第二去噪。3.根据权利要求1所述的针对视线追踪的隐式校准方法，其特征在于，所述视觉显著检测模块用于检测所述待检测内容帧中每个像素的显著性，具体包括：将所述待检测内容帧输入至视觉显著检测模块，生成视觉显著热图；将所述视觉显著热图归一化至预设范围，得到视觉显著检测结果。4.根据权利要求3所述的针对视线追踪的隐式校准方法，其特征在于，所述视觉显著度量模块用于度量所述视觉显著检测结果中每个像素的显著的有效性，具体包括：根据第一预设阈值对所述视觉显著检测结果进行二值化，以得到显著像素；通过连通分量分析计算得到帧中显著像素所在显著区域/对象的数量；根据第二预设公式计算得到所述视觉显著检测结果对应的所述设备当前显示内容帧的显著性集中度；滤除显著性集中度低于第二预设阈值的视觉显著检测结果，得到待校准内容帧；
所述第二预设公式包括：其中，s表示显著性集中度；n表示显著区域/对象的数量；a
s
表示显著区域/对象像素，a
t
表示整个框架的区域像素。5.根据权利要求4所述的针对视线追踪的隐式校准方法，其特征在于，所述显著信息提取模块用于从所述待校准内容帧中提取显著信息，具体包括：提取所述待校准内容帧在每个连通分量域中的具有最高显著值的像素所在显著区域/对象的坐标和编号；根据第三预设公式，将所述待校准内容帧上的显著性集中度、所有所述显著区域/对象的坐标和编号共同压缩为特征向量v
i
，得到待输入显著信息；所述第三预设公式包括：其中，v
i
表示特征向量，n
i
表示显著区域/对象的编号，scs
i
表示待校准内容帧上的显著性集中度，表示显著区域/对象的横坐标，表示显著区域/对象的纵坐标。6.根据权利要求2所述的针对视线追踪的隐式校准方法，其特征在于，所述视线追踪校准模块用于对所述待校准视线跟踪结果进行校准，具体包括：将所述待输入显著信息和所述待校准视线跟踪结果输入至视线追踪校准模块，将所述偏移量包含的变换向量补偿到所述待校准视线跟踪结果上进行隐式校准，得到视线跟踪校准结果。7.根据权利要求6所述的针对视线追踪的隐式校准方法，其特征在于，将所述待输入显著信息和所述待校准视线跟踪结果输入至视线追踪校准模块，将所述偏移量包含的变换向量补偿到所述待校准视线跟踪结果上进行隐式校准，得到视线跟踪校准结果，之前还包括：获取用户与设备的相对位置；若所述相对位置的变化小于或等于第三预设阈值，变换向量不变；若所述相对位置的变化大于第三预设阈值或场景切换时，更新所述变换向量。8.一种针对视线追踪的隐式校准装置，其特征在于，包括：获取单元，用于获取校准窗口内的n个待校准视线跟踪结果和m个设备当前显示内容帧；其中，n小于m；调整单元，用于将所述设备当前显示内容帧的像素调整到预设分辨率，以得到待检测内容帧；视觉显著检测单元，用于将所述待检测内容帧输入至视觉显著检测模块，以得到视觉显著检测结果；所述视觉显著检测模块用于检测所述待检测内容帧中每个像素的显著性；视觉显著度量单元，用于将所述视觉显著检测结果输入至视觉显著度量模块，以得到待校准内容帧；所述视觉显著度量模块用于度量所述视觉显著检测结果中每个像素的显著的有效性；显著信息提取单元，用于将所述待校准内容帧输入至显著信息提取模块，以得到待输
入显著信息；所述显著信息提取模块用于从所述待校准内容帧中提取显著信息；视线追踪校准单元，用于将所述待输入显著信息和所述待校准视线跟踪结果输入至视线追踪校准模块，以得到视线跟踪校准结果；所述视线追踪校准模块用于对所述待校准视线跟踪结果进行校准。9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述针对视线追踪的隐式校准方法。10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述针对视线追踪的隐式校准方法。

技术总结
本发明提供一种针对视线追踪的隐式校准方法和装置，包括：获取校准窗口内的N个待校准视线跟踪结果和M个设备当前显示内容帧；其中，N小于M；将设备当前显示内容帧的像素调整到预设分辨率，以得到待检测内容帧；将待检测内容帧输入至视觉显著检测模块，以得到视觉显著检测结果；将视觉显著检测结果输入至视觉显著度量模块，以得到待校准内容帧；将待校准内容帧输入至显著信息提取模块，以得到待输入显著信息；将待输入显著信息和待校准视线跟踪结果输入至视线追踪校准模块，以得到视线跟踪校准结果。本发明利用显著性信息识别视频帧，并仅使用这些“有用的”帧执行校准，实现不需要用户配合的、更为简单的、用户体验更好的视线追踪的校准。校准。校准。

技术研发人员：何源杨松洲
受保护的技术使用者：清华大学
技术研发日：2023.03.10
技术公布日：2023/7/18

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

上一篇：一种NGSO星座系统地面终端用空中平台监测方法及系统与流程 下一篇：动画合成方法及装置、动画合成模型的训练方法及装置与流程

针对视线追踪的隐式校准方法和装置

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

针对视线追踪的隐式校准方法和装置

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表