合成图像训练DNN网络的方法、装置、设备及介质

未命名 09-12 阅读：163 评论：0

合成图像训练dnn网络的方法、装置、设备及介质
技术领域
1.本发明涉及图像合成技术领域，尤其涉及一种合成图像训练dnn网络的方法、装置、设备及介质。

背景技术：

2.施工业正逐步准备向机器人自动化和数字化转型，期望从机器人解决方案中获得重大价值。机器人自动化和数字化有望提高各种施工项目的生产力和盈利能力，同时缓解日益严重的劳动力短缺，极大地惠及项目业主和承包商。
3.现有技术中，非结构化和动态工作场所的视觉场景理解是机器人自动化和数字化的关键因素，不同于典型的工业机器人在结构化工作场所（例如，制造装配线）重复一些预先编程的任务，施工机器人必须将自己定位在指定的工作地点，导航非结构化现场，检测和分类要接近或避开的对象，并适应不断变化的现场条件。这种情况需要机器人具有准确和可扩展的视觉场景理解能力，就像人类视觉系统一样。
4.然而，视觉场景理解离施工领域的实际实现还很远。尽管dnn（deep neural networks，深度神经网络）网络已成为视觉场景理解的核心引擎，但施工训练图像的短缺阻碍了dnn实现最大性能潜力。由于人工数据收集和标记耗时且成本高昂，施工研究中使用的dnn训练图像在数量和多样性方面受到限制。由于缺乏多样的训练图像，用于施工场景理解的dnn模型过度拟合，且具有较低的准确性和可扩展性。

技术实现要素：

5.为克服相关技术中存在的问题，本公开提供一种合成图像训练dnn网络的方法、装置、设备及介质。
6.本说明书一个或多个实施例提供了一种合成图像训练dnn网络的方法，包括以下步骤：通过合成人像工具构建多样性的施工人员的3d虚拟化身的图像；通过3d到2d投影算法，将各3d虚拟化身和多种真实施工环境图像合成创建不同类型的施工项目场景的训练数据集；使用训练数据集训练dnn模型，并评估dnn模型在不同施工现场条件下的性能。
7.本说明书一个或多个实施例提供了一种合成图像训练dnn网络的装置，包括：虚拟化身构建模块：用于通过合成人像工具构建多样性的施工人员的3d虚拟化身的图像；训练数据构建模块：用于通过3d到2d投影算法，将各3d虚拟化身和多种真实施工环境图像合成创建不同类型的施工项目场景的训练数据集；训练模块：用于使用训练数据集训练dnn模型，并评估dnn模型在不同施工现场条件下的性能。
8.本说明书一个或多个实施例提供了一种计算机设备，包括存储器、处理器以及存
储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述所述合成图像训练dnn网络的方法。
9.本说明书一个或多个实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上述所述合成图像训练dnn网络的方法的步骤。
10.本公开提供的合成图像训练dnn网络的方法、装置、设备及介质，通过在虚拟环境中自动模拟不同的场景上并合成全新的带有施工人员的施工图像。能够在无需现场访问和人工输入的情况下合成和标记各种施工场景；使用大量的合成图像训练dnn模型，并在真实施工图像上测试其性能，评估了合成图像和真实图像对dnn性能的混合影响。
附图说明
11.为了更清楚地说明本说明书一个或多个实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。
12.图1为本说明书一个或多个实施例提供的一种合成图像训练dnn网络的方法流程图。
13.图2为本说明书一个或多个实施例提供的合成图像训练dnn网络的方法框架流程图。
14.图3为本说明书一个或多个实施例提供的3d到2d投影边界标注过程的流程框图。
15.图4为本说明书一个或多个实施例提供的合成的多样性的虚拟施工场景图；图5为本说明书一个或多个实施例提供的一种合成图像训练dnn网络的装置结构图；图6为本说明书一个或多个实施例提供的一种计算机的结构示意图。
具体实施方式
16.为了使本技术领域的人员更好地理解本说明书一个或多个实施例中的技术方案，下面将结合本说明书一个或多个实施例中的附图，对本说明书一个或多个实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本说明书的一部分实施例，而不是全部的实施例。基于本说明书一个或多个实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明件的保护范围。
17.下面结合具体实施方式和说明书附图对本发明做出详细的说明。
18.方法实施例根据本发明实施例，提供了一种合成图像训练dnn网络的方法，如图1所示，为本实施例提供的合成图像训练dnn网络的方法流程图，根据本发明实施例的合成图像训练dnn网络的方法，包括：步骤s1、通过合成人像工具构建多样性的施工人员的3d虚拟化身的图像；步骤s2、通过3d到2d投影算法，将各3d虚拟化身和多种真实施工环境图像合成创建不同类型的施工项目场景的训练数据集；
步骤s3、使用训练数据集训练dnn模型，并评估dnn模型在不同施工现场条件下的性能。
19.在一些实施例中，参考图2，为本实施例提供的合成图像训练dnn网络的方法框架流程图，步骤s1中通过合成人像工具构建多样性的施工人员的3d虚拟化身的图像包括以下步骤：步骤s11、通过smpl（skinned multi-person linear，皮肤多人线性）模型建立施工工人的第一人体模型；在一具体实施例中，合成人像工具可使用真实任务合成人（surreal）施工了一个合成施工图像数据集，并进行了dnn训练实验，以彻底调查合成图像的有效性，本实施例旨在创建施工工人的3d虚拟化身，并在虚拟环境中模拟他们的物理行为。为了实现这一点，首先建立了一个流行的、众所周知的人类化身模型：皮肤多人线性（smpl）模型。smpl是从1786个真实世界人类受试者的高分辨率3d扫描数据中学习到的真实人类化身。早期的研究还验证了该模型在人类图像合成和各种计算机视觉应用中的有效性，包括人类检测和姿态估计。
20.步骤s12、为第一人体模型添加服装uv图，并进行第一人体模型皮肤纹理处理，获得各种安全帽和安全背心颜色组合的第二人体模型；本实施例，在人体模型上进行服装的添加可通过surreal框架实现。
21.在一具体实施例中，smpl被定制为看起来像施工工人，因为它以前被开发为代表我们日常生活中的人类（例如，行人）。为第一人体模型服装设计uv图，进行了人体皮肤纹理处理，涉及关于3d对象化身的顶点的纹理信息的2d图像。更具体地说，为第一人体模型内置了各种颜色组合（如白色、黄色和橙色）的安全帽和安全背心。此外，在[25,35]范围内随机选择了一组体重指数（bmi），采用高斯概率函数，其分布与真实世界人口bmi相同；还可应用女性和男性smpl化身以获得合成图像数据集中的性别多样性（例如1:1比例）。
[0022]
步骤s13、再通过卡内基梅隆大学（cmu）图形实验室人体运动捕捉数据集基于第二人体模型模拟不同活动姿态的第三人体模型。
[0023]
在本实施例中使用卡内基梅隆大学（cmu）图形实验室运动捕捉数据集模拟了不同类型的工人行为。该数据集包含约23种不同类型的人类活动（如跑步、站立、弯腰和行走）的2000多个视频序列——超过10小时的3d人类行为视频。因此，可以在创建大量合成图像的同时，使我们的施工工人化身的视觉外观多样化。这个关于日常活动的人体运动数据集是有效的，因为这项研究的目标任务是物体检测，这对人体运动类型的依赖性较小。
[0024]
在一些实施例中，步骤s2中将各3d虚拟化身和多种真实施工环境图像合成创建不同类型的施工项目场景的训练数据集具体包括以下步骤：步骤s21、将各3d虚拟化身或第三人体模型与多种真实施工环境图像合成创建不同施工项目场景的第一合成图像；本实施例中，例如将3d虚拟化身放置在真实世界的施工图像上，如图2所示。通过使用真实的施工图像作为虚拟环境的背景，可以生成更逼真的数据，并将正面（例如工人）和负面（例如周围环境）示例都教给 dnn 模型，本实施例共使用了从在线资源（如谷歌）收集的529张施工图像，它们是从不同类型的施工项目中捕获的，包括土方工程、混凝土、模板和钢结构放置。
[0025]
步骤s22、将各第一合成图像中的3d虚拟化身或第三人体模型使用球谐波函数获得不同亮度水平的第一3d虚拟化身的第二合成图像；本实施例中，使用3d工人头像，在虚拟环境中生成和增强一组2d合成图像，首先使用具有球谐波函数更改了步骤s1中的3d虚拟化身或步骤s13中第三人体模型的亮度，函数系数设置为从
−
0.7和0.7之间的基于均匀分布的概率函数中随机选择。这个范围能够产生在户外施工场景中经常观察到的不同亮度水平，主要目的为了模拟不同光照条件或人体肤色不同条件下的场景图，丰富训练数据，提高模型的识别精度。
[0026]
步骤s23、在各第二合成图像中设置一个虚拟摄像机，虚拟摄像机的设置位置与第二合成图像中的3d虚拟化身的头像呈正态分布式选取，通过虚拟摄像机获得大量的2d的第三合成图像。
[0027]
本实施例，在控制良好的环境中放置了一个虚拟摄像机，并拍摄了2d工人图像。由于相机可以放置在虚拟环境中的任何距离和视点，因此能够在不同的成像条件下（例如，不同的场景比例和视点）生成无限数量的训练图像。在这项研究中，虚拟摄像机距离（即虚拟摄像机镜头和3d虚拟化身头像之间的长度）是从正态分布（μ=30m，σ=5m）中随机采样的，虚拟摄像机视点设置为从0到π之间的范围内随机选择。此设置能够为dnn训练准备均衡的数据集。
[0028]
在一些实施例中，参考3所示，为本实施例提供的3d到2d投影边界标注过程的流程框图，为基于上述各第三合成图像，通过3d到2d投影算法，将第三合成图像中3d虚拟化身坐标转换为2d图像像素坐标，在合成图像中自动标记目标对象，包括具体步骤：步骤s24、获取各第三合成图像中跟踪成像参数，包括虚拟摄像机距离和视点；步骤s25、使用虚拟摄像机的固有参数（即焦距和主点）和外在参数（即旋转角度和平移），分别确定3d虚拟化身在x轴和y轴的最大坐标值和最小坐标值，以标记边界框的2d坐标 [x
min
,y
min
,x
max
,y
max
]，获得图中虚拟化身的边界框；步骤s26、根据获得虚拟化身的边界框及对应的2d坐标，与真实施工环境图像合成获得训练数据。
[0029]
本实施例中，通过应用3d到2d投影算法，将3d空间坐标转换为2d图像像素坐标，在合成图像中自动标记目标头像（即3d虚拟化身头像）。跟踪成像参数，如摄像机距离和视点，可以在3d虚拟环境中自动获取目标头像的位置。下述公式1解释了如何通过反式编队矩阵t将3d坐标投影到2d图像平面上。从概念上讲，具有已知[x,y,z]坐标的3d点可以使用虚拟摄像机的固有参数（即焦距和主点）和外在参数（即旋转角度和平移）,这在计算机环境中已经为人所知。从3d到2d投影坐标中，选择x轴和y轴坐标的最大值和最小值，以标记虚拟化身边界框的2d坐标[x
min
,y
min
,x
max
,y
max
]。通过这种3d到2d的投影和选择，精细化的框架标记了图中虚拟化身的边界框，同时合成了虚拟图像，而无需手动输入。
[0030]
公式1；其中，s是比例因子；t表示变换矩阵；[x，y]表示图像像素坐标；[x，y，z]表示3d空
间坐标；f
x
和fy是每个方向的焦距；c
x
和cy是每个方向的主要点；r
ij
是i-j方向上的旋转角度；t
x
、ty和tz是每个方向的平移。
[0031]
本实施例通过上述图像合成的方法共创建了20386 张合成图像，同时在工人大小、姿势、照明、相机视点、场景比例和背景方面获得了视觉多样性，如图4所示。例如，共有8374张小尺寸、6006张中型和6006张大尺寸工作人员图像。此处小尺寸意味着图像中虚拟化身的像素面积等于或96
×
96。中等尺寸介于小尺寸和大尺寸之间：32
ꢀ×ꢀ
32 像素《中型 ≤96
ꢀ×ꢀ
96 像素。各种类型的施工作业，如土方工程、钢结构放置和混凝土浇筑，也包括在合成数据集中。
[0032]
本实施例提出的方法，可以在虚拟环境中自动模拟不同的场景上并合成全新的带有施工人员的施工图像。与人类视觉不同，计算机视觉将图像解释为三个通道中的一组数字，这意味着dnn训练图像不需要是真实的，只要它们能够直观地表征和显示真实场景背景。能够在无需现场访问和人工输入的情况下合成和标记各种施工场景（例如，物体姿态、活动和成像条件）将是开创性的。
[0033]
本实施例使用大量的合成图像训练dnn模型，并在真实施工图像上测试其性能。评估了合成图像和真实图像对dnn性能的混合影响。使用合成图像和真实图像训练dnn模型，并评估其在真实世界施工场景中的性能。
[0034]
本实施例方法侧重于检测现场图像中的工人，因为他们是施工项目和未来合作机器人环境中的主要参与者，这种能力还将使施工机器人能够识别工人的存在，并与他们进行相应的互动。本方法主要贡献是表明图像合成可以是dnn训练数据集开发的有效方法，由于这种方法可以在不需要人工的情况下操纵不同的现场情况并创建大量虚拟施工图像，因此可以确保施工训练图像的数量和多样性。反过来，这将有助于dnn实现其对施工现场理解的最大潜力。
[0035]
装置实施例根据本发明实施例，提供了一种合成图像训练dnn网络的装置，如图5所示，根据本发明实施例的合成图像训练dnn网络的装置结构框图，包括：虚拟化身构建模块：用于通过合成人像工具构建多样性的施工人员的3d虚拟化身的图像；训练数据构建模块：用于通过3d到2d投影算法，将各3d虚拟化身和多种真实施工环境图像合成创建不同类型的施工项目场景的训练数据集；训练模块：用于使用训练数据集训练dnn模型，并评估dnn模型在不同施工现场条件下的性能。
[0036]
在一些实施例中，所述虚拟化身构建模块包括第一人体模型建立子模块。
[0037]
第一人体模型建立子模块，用于通过smpl（skinned multi-person linear，皮肤多人线性）模型建立施工工人的第一人体模型；在一具体实施例中，合成人像工具可使用真实任务合成人（surreal）施工了一个合成施工图像数据集，并进行了dnn训练实验，以彻底调查合成图像的有效性，本实施例旨在创建施工工人的3d虚拟化身，并在虚拟环境中模拟他们的物理行为。为了实现这一点，首先建立了一个流行的、众所周知的人类化身模型：皮肤多人线性（smpl）模型。smpl是从1786个真实世界人类受试者的高分辨率3d扫描数据中学习到的真实人类化身。早期的研究还验
证了该模型在人类图像合成和各种计算机视觉应用中的有效性，包括人类检测和姿态估计。
[0038]
第二人体模型建立子模块：用于对第一人体模型添加服装uv图，并进行第一人体模型人体皮肤纹理处理，获得各种安全帽和安全背心颜色组合的第二人体模型；在一具体实施例中，smpl模型被定制为看起来像施工工人，因为它以前被开发为代表我们日常生活中的人类（例如，行人）。为第一人体模型服装设计uv图，进行了人体皮肤纹理处理，涉及关于3d对象化身的顶点的纹理信息的2d图像。更具体地说，为第一人体模型内置了各种颜色组合（如白色、黄色和橙色）的安全帽和安全背心。此外，在[25,35]范围内随机选择了一组体重指数（bmi），采用高斯概率函数，其分布与真实世界人口bmi相同；还可应用女性和男性smpl化身以获得合成图像数据集中的性别多样性（例如1:1比例）。
[0039]
第三人体模型建立子模块：用于通过卡内基梅隆大学（cmu）图形实验室人体运动捕捉数据集基于第二人体模型模拟不同活动姿态的第三人体模型。
[0040]
在本实施例中使用卡内基梅隆大学（cmu）图形实验室运动捕捉数据集模拟了不同类型的工人行为。该数据集包含约23种不同类型的人类活动（如跑步、站立、弯腰和行走）的2000多个视频序列——超过10小时的3d人类行为视频。因此，可以在创建大量合成图像的同时，使我们的施工工人化身的视觉外观多样化。这个关于日常活动的人体运动数据集是有效的，因为这项研究的目标任务是物体检测，这对人体运动类型的依赖性较小。
[0041]
在一些实施例中，训练数据构建模块包括第一处理子模块、第一合成子模块和第二处理子模块；第一合成子模块：用于将各3d虚拟化身或第三人体模型与多种真实施工环境图像合成创建不同施工项目场景的第一合成图像；本实施例中，例如将3d虚拟化身放置在真实世界的施工图像上，通过使用真实的施工图像作为虚拟环境的背景，可以生成更逼真的数据，并将正面（例如工人）和负面（例如周围环境）示例都教给 dnn 模型，本实施例共使用了从在线资源（如谷歌）收集的529张施工图像，它们是从不同类型的施工项目中捕获的，包括土方工程、混凝土、模板和钢结构放置。第一处理模块：用于将各第一合成图像中的各3d虚拟化身或第三人体模型使用球谐波函数获得不同亮度水平的第一3d虚拟化身的第二合成图像；本实施例中，使用3d工人头像，在虚拟环境中生成和增强一组2d合成图像，首先使用具有球谐波函数更改了步骤s1中的3d虚拟化身或步骤s11中第一人体模型的亮度，函数系数设置为从
−
0.7和0.7之间的基于均匀分布的概率函数中随机选择。这个范围能够产生在户外施工场景中经常观察到的不同亮度水平。
[0042]
第二处理子模块：在各第二合成图像中设置一个虚拟摄像机，虚拟摄像机的设置位置与第二合成图像中的3d虚拟化身的头像呈正态分布式选取，通过虚拟摄像机获得大量的2d的第三合成图像。
[0043]
在一些实施例中，所述训练数据构建模块还包括参数获取子模块、标记子模块和训练数据合成子模块；参数获取子模块：用于获取各第三合成图像中跟踪成像参数，包括虚拟摄像机距离和视点；标记子模块：用于使用虚拟摄像机的固有参数（即焦距和主点）和外在参数（即旋
转角度和平移），分别确定3d虚拟化身在x轴和y轴的最大坐标值和最小坐标值，以标记边界框的2d坐标 [x
min
,y
min
,x
max
,y
max
]，获得图中虚拟化身的边界框；训练数据合成子模块：用于根据获得虚拟化身的边界框及对应的2d坐标，与真实施工环境图像合成获得训练数据。
[0044]
本实施例中，通过应用3d到2d投影算法，将3d空间坐标转换为2d图像像素坐标，在合成图像中自动标记目标头像（即3d虚拟化身头像）。跟踪成像参数，如摄像机距离和视点，可以在3d虚拟环境中自动获取目标头像的位置。下述公式1解释了如何通过反式编队矩阵t将3d坐标投影到2d图像平面上。从概念上讲，具有已知[x,y,z]坐标的3d点可以使用虚拟摄像机的固有参数（即焦距和主点）和外在参数（即旋转角度和平移）,这在计算机环境中已经为人所知。从3d到2d投影坐标中，选择x轴和y轴坐标的最大值和最小值，以标记虚拟化身边界框的2d坐标[x
min
,y
min
,x
max
,y
max
]。通过这种3d到2d的投影和选择，精细化的框架标记了图中虚拟化身的边界框，同时合成了虚拟图像，而无需手动输入。
[0045]
公式1；其中，s是比例因子；t表示变换矩阵；[x，y]表示图像像素坐标；[x，y，z]表示3d空间坐标；f
x
和fy是每个方向的焦距；c
x
和cy是每个方向的主要点；r
ij
是i-j方向上的旋转角度；t
x
、ty和tz是每个方向的平移。
[0046]
本发明实施例是与上述方法实施例对应的装置实施例，各个模块处理步骤的具体操作可以参照方法实施例的描述进行理解，在此不再赘述。
[0047]
如图6所示，本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述实施例中合成图像训练dnn网络的方法，或者计算机程序被处理器执行时实现上述实施例中合成图像训练dnn网络的方法，所述计算机程序被所述处理器执行时实现如下方法步骤：步骤s1、通过合成人像工具构建多样性的施工人员的3d虚拟化身的图像；步骤s2、通过3d到2d投影算法，将各3d虚拟化身和多种真实施工环境图像合成创建不同类型的施工项目场景的训练数据集；步骤s3、使用训练数据集训练dnn模型，并评估dnn模型在不同施工现场条件下的性能。
[0048]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限，ram以多种形式可得，诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强
型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
[0049]
本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。
[0050]
最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围，且本发明说明书中未作详细描述的内容属本领域技术人员的公知技术。

技术特征：
1.合成图像训练dnn网络的方法，其特征在于，包括以下步骤：通过合成人像工具构建多样性的施工人员的3d虚拟化身的图像；通过3d到2d投影算法，将各3d虚拟化身和多种真实施工环境图像合成创建不同类型的施工项目场景的训练数据集；使用训练数据集训练dnn模型，并评估dnn模型在不同施工现场条件下的性能。2.如权利要求1所述的合成图像训练dnn网络的方法，其特征在于，所述通过合成人像工具构建多样性的施工人员的3d虚拟化身的图像具体为：步骤s11、通过smpl模型建立施工工人的第一人体模型；步骤s12、为第一人体模型添加服装uv图，并进行第一人体模型皮肤纹理处理，获得各种安全帽和安全背心颜色组合的第二人体模型；步骤s13、通过卡内基梅隆大学图形实验室人体运动捕捉数据集基于第二人体模型模拟不同活动姿态的第三人体模型。3.如权利要求1所述的合成图像训练dnn网络的方法，其特征在于，所述各3d虚拟化身和多种真实施工环境图像合成创建不同类型的施工项目场景的训练数据集具体为：步骤s21、将各3d虚拟化身或第三人体模型与多种真实施工环境图像合成创建不同施工项目场景的第一合成图像；步骤s22、将各第一合成图像中的3d虚拟化身或第三人体模型使用球谐波函数获得不同亮度水平的第一3d虚拟化身的第二合成图像；步骤s23、在各第二合成图像中设置一个虚拟摄像机，所述虚拟摄像机的设置位置与第二合成图像中的3d虚拟化身的头像呈正态分布式选取，并摄像机获得大量的2d的第三合成图像。4.如权利要求3所述的合成图像训练dnn网络的方法，其特征在于，还包括：步骤s24、获取各第三合成图像中跟踪成像参数，包括虚拟摄像机距离和视点；步骤s25、使用虚拟摄像机的固有参数和外在参数，分别确定3d虚拟化身在x轴和y轴的最大坐标值和最小坐标值，以标记边界框的2d坐标 [x
min
,y
min
,x
max
,y
max
]，获得图中虚拟化身的边界框；步骤s26、根据获得虚拟化身的边界框及对应的2d坐标，与真实施工环境图像合成获得训练数据。5.合成图像训练dnn网络的装置，其特征在于，包括：虚拟化身构建模块：用于通过合成人像工具构建多样性的施工人员的3d虚拟化身的图像；训练数据构建模块：用于通过3d到2d投影算法，将各3d虚拟化身和多种真实施工环境图像合成创建不同类型的施工项目场景的训练数据集；训练模块：用于使用训练数据集训练dnn模型，并评估dnn模型在不同施工现场条件下的性能。6.如权利要求5所述的合成图像训练dnn网络的装置，其特征在于，所述虚拟化身构建模块包括：第一人体模型建立子模块，用于通过smpl模型建立施工工人的第一人体模型；第二人体模型建立子模块：用于对第一人体模型添加服装uv图，并进行第一人体模型
皮肤纹理处理，获得各种安全帽和安全背心颜色组合的第二人体模型；第三人体模型建立子模块：用于通过卡内基梅隆大学图形实验室人体运动捕捉数据集基于第二人体模型模拟不同活动姿态的第三人体模型。7.如权利要求6所述的合成图像训练dnn网络的装置，其特征在于，所述训练数据构建模块包括第一处理模块、第一合成模块和第二处理模块；第一合成子模块：将各3d虚拟化身或第三人体模型与多种真实施工环境图像合成创建不同施工项目场景的第一合成图像；第一处理子模块：用于将各3d虚拟化身或第三人体模型使用球谐波函数获得不同亮度水平的第一3d虚拟化身的第二合成图像；第二处理子模块：在各第二合成图像中设置一个虚拟摄像机，虚拟摄像机的设置位置与第二合成图像中的3d虚拟化身的头像呈正态分布式选取，通过虚拟摄像机获得大量的2d的第三合成图像。8.如权利要求5所述的合成图像训练dnn网络的装置，其特征在于，所述训练数据构建模块还包括参数获取子模块、标记子模块和训练数据合成子模块；其中，参数获取子模块：用于获取各第三合成图像中跟踪成像参数，包括虚拟摄像机距离和视点；标记子模块：用于使用虚拟摄像机的固有参数和外在参数，分别确定3d虚拟化身在x轴和y轴的最大坐标值和最小坐标值，以标记边界框的2d坐标 [x
min
,y
min
,x
max
,y
max
]，获得图中虚拟化身的边界框；训练数据合成子模块：用于根据获得虚拟化身的边界框及对应的2d坐标，与真实施工环境图像合成获得训练数据。9.计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至4任一项所述合成图像训练dnn网络的方法。10.计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至4任一项所述合成图像训练dnn网络的方法的步骤。

技术总结
本说明书实施例提供了一种合成图像训练DNN网络的方法、装置、设备及介质，其中，该方法包括通过合成人像工具构建多样性的施工人员的3D虚拟化身的图像；通过3D到2D投影算法，将各3D虚拟化身和多种真实施工环境图像合成创建不同类型的施工项目场景的训练数据集；使用训练数据集训练DNN模型，并评估DNN模型在不同施工现场条件下的性能。本公开通过在虚拟环境中自动模拟不同的场景上并合成全新的带有施工人员的施工图像。能够在无需现场访问和人工输入的情况下合成和标记各种施工场景；使用大量的合成图像训练DNN模型，并在真实施工图像上测试其性能，评估了合成图像和真实图像对DNN性能的混合影响。DNN性能的混合影响。DNN性能的混合影响。

技术研发人员：蔡长青周倚均钱秋男高梦恬徐昊雯蔡宝星焦冠润华东俊谭杰
受保护的技术使用者：广州大学
技术研发日：2023.07.03
技术公布日：2023/9/9

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

合成图像训练DNN网络的方法、装置、设备及介质

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

合成图像训练DNN网络的方法、装置、设备及介质

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表