AR导览领域的图像数据的风格转换方法、数据采集装置和服务器与流程

未命名 08-27 阅读:123 评论:0

ar导览领域的图像数据的风格转换方法、数据采集装置和服务器
技术领域
1.本发明涉及图像领域,尤其涉及一种应用于ar文旅领域的图像数据的风格转换方法、数据采集装置和服务器。


背景技术:

2.针对数文场景中的博物馆沉浸式体验,游客可以佩戴ar眼镜观看文物,ar眼镜端识别算法识别对应文物,并触发ar视频内容。视频内容可以呈现通过技术手段进行动态修复、还原文物原貌的场景,同时结合讲解给游客带来视听新体验。
3.由于ar眼镜采集图像数据效率较低,这类识别算法背后的数据收集是运营人员通过手机采集指定文物图像,然后提取特征并建模,部署在ar眼镜终端,由于手机的isp模块和眼镜isp存在不一致,特别是目前市面大部分手机自带ai算法进行图像美化、增亮等,最终导致手机和ar眼镜拍摄的图像成像差异大,特别是博物馆场景为突出主题,通过明暗度突出文物本身,特意调暗了灯光,最终导致一些弱纹理、低光照场景识别召回率(recall)低。
4.目前已有的一些技术方案是通过在难识别的场景增加标签,即增加特征点检出或者指定ar识别区域,游客只能站在目标区域内才能识别出文物,不能从任意方向上识别,影响体验效果。


技术实现要素:

5.本发明的目的在于提供一种新的图像数据的风格转换方法和数据采集装置,可以实现将由不同设备拍摄的图像数据的风格转换。
6.根据本发明的一个方面,本发明的一个或多个实施例公开了一种图像数据的风格转换方法,应用于ar导览领域,包括,s1、获取ar眼镜设备和手机设备对于同一目标物体进行拍摄的图像数据,所述图像数据包括:ar眼镜设备图像和手机设备图像;s2、对所述图像数据进行预处理,以得到标准化图像数据,所述标准化图像数据包括:标准化ar眼镜设备图像和标准化手机设备图像,其中所述标准化ar眼镜设备图像和所述标准化手机设备图像相互匹配;s3、重复步骤s1和步骤s2,对不同目标物体进行拍摄,以获得标准化图像数据集;s4、将标准化图像数据集中的标准化ar眼镜设备图像作为真值,标准化手机设备图像作为输入值,对风格转换神经网络模型进行训练;s5、基于所述训练好的风格转换神经网络模型,对由所述手机设备拍摄的其他图像进行风格转换,以获得和所述ar眼镜设备拍摄风格一致的图像。
7.根据本发明的另一个方面,本发明的一个或多个实施例公开了一种数据采集装置,所述数据采集装置包括:刚性支架,所述刚性支架上设置有ar眼镜设备和手机设备,所述ar眼镜设备和手机设备被配置为分别采集目标物体的图像数据;处理单元,所述处理单元被配置为对所述图像数据执行如上述图像数据的风格转换方法。
8.根据本发明的又一个方面,本发明的一个或多个实施例公开了一种服务器,包括存储器和处理器,所述存储器存储有计算机软件指令;当所述计算机软件指令在被所述处理器运行时,使得所述处理器执行如上述的图像数据的风格转换方法。
9.本发明的一个或多个实施例通过设计一套简易的方法和装置用于收集ar眼镜和手机拍摄的数据集,并通过预处理步骤对齐两个设备拍摄的图像,确保图像的形态一致,然后设计一个神经网络做手机端到ar眼镜端的图像重建以解决手机采集到眼镜应用的数据一致性问题。业务上为方便流程,可统一使用一台固定型号的手机,降低不同手机成像风格的影响。整体上统一了数据采集的流程、简化了算法端的调优流程,对于ar导览领域有较强的实用价值。
附图说明
10.图1示出了根据本发明公开的一个或多个实施例的图像数据的风格转换方法的流程框图;
11.图2示出了根据本发明公开的一个或多个实施例的系统架构示意图;
12.图3示出了根据本发明公开的一个或多个实施例的ar眼镜设备的示意图;
13.图4示出了根据本发明公开的一个或多个实施例的图像与处理的步骤的流程图;
14.图5示出了根据本发明公开的一个或多个实施例的风格转换神经网络模型的示意图;
15.图6示出了根据本发明公开的一个或多个实施例的数据采集装置的原理框图。
具体实施方式
16.为更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的不同设备拍摄的图像数据的风格转换方法和数据采集装置的具体实施方式、结构、特征及其功效,详细说明如后。
17.如图1所示,示出了根据本发明一个或多个实施例的图像数据的风格转换方法的流程框图,该方法具体包括:
18.s1、获取ar眼镜设备和手机设备对于同一目标物体进行拍摄的图像数据,所述图像数据包括:ar眼镜设备图像和手机设备图像;
19.s2、对所述图像数据进行预处理,以得到标准化图像数据,所述标准化图像数据包括:标准化ar眼镜设备图像和标准化手机设备图像,其中所述标准化ar眼镜设备图像和所述标准化手机设备图像相互匹配;
20.s3、重复步骤s1和步骤s2,对不同目标物体进行拍摄,以获得标准化图像数据集;
21.s4、将标准化图像数据集中的标准化ar眼镜设备图像作为真值,标准化手机设备图像作为输入值,对风格转换神经网络模型进行训练;
22.s5、基于所述训练好的风格转换神经网络模型,对由所述手机设备拍摄的其他图像进行风格转换,以获得和所述ar眼镜设备拍摄风格一致的图像。
23.具体的,在步骤s1中,如图2所示,ar眼镜设备101和手机设备102可以设置于同一刚性的支架100。由于ar眼镜设备101和手机设备102设置于同一刚性支架上,由此ar眼镜设备101和手机设备102的摄像头具有固定的位置关系,从而使得拍摄的图片可以针对同一目
标物体进行成像,且针对该目标物体的成像的相对位置保持固定,以方便后续的预处理步骤。
24.如图3所示,ar眼镜设备101可以包括ar眼镜主体11和计算单元12。ar眼镜主体11可以包括一个或两个显示屏幕111、以及摄像头113。上述显示屏幕用于显示虚拟界面。此外,ar眼镜主体11还包括镜架112。在一些实施例中,可以将ar眼镜主体11的传感器、处理单元、存储器和电池放到镜架112内部。在一些实施的一些可选的实现方式中,也可以将传感器、处理单元、存储器和电池的一个或多个部件集成在另一个独立的配件(未示出),通过数据线和镜架112进行连接。在一些实施的一些可选的实现方式中,ar眼镜设备主体11可以仅具有显示功能和部分传感器,而通过计算单元12提供数据处理、数据存储、供电能力等能力。计算单元12可以包括显示屏幕121,在一些实施例中,ar眼镜主体11和计算单元12可以通过无线连接方式进行通信。在一些实施例的一些可选的实现方式中,ar眼镜主体11和计算单元12也可以通过数据线(未示出)进行连接。
25.手机设备102可以为市面上常规销售的智能手机,其可以运行andro id或ios等操作系统,且具有一个或多个前置或后置的摄像头。通常情况下,由于手机设备102和ar眼镜设备101对于摄像头的要求不同,因此其摄像头的选型、感光元件、isp会有较大区别,导致其成像图像的质量和风格有明显区别。例如,通常受限于体积和重量的要求,ar眼镜设备101的摄像头一般为800万或1300万像素,而手机设备102的摄像头可以为3000万或5000万像素。另一方面,由于是目前市面大部分手机自带ai算法进行图像美化,增亮等,最终可能导致手机设备102和ar眼镜设备101成像差异大。在其中一个实施例中,可以在支架100上设置蓝牙模块,以同时连接ar眼镜设备101和手机设备102,并使用控制按钮同时控制ar眼镜设备101和手机设备102进行拍摄,以获得对应的图像数据组,由此可以使得得到的ar眼镜设备图像和手机设备图像对目标物体的拍摄时间和位置保持固定,以便后续进行图像预处理的时候,不会因为拍摄时间的差异而对图像产生偏差。
26.在步骤s2中,可以对步骤s1中获得的图像数据进行预处理,以得到标准化图像数据,其中所述标准化图像数据包括:标准化ar眼镜设备图像和标准化手机设备图像。其中,所得到的所述标准化ar眼镜设备图像和所述标准化手机设备图像相互匹配。在一个或多个实施例中,步骤s2中,图像的预处理包括对于图像的特征点匹配、仿射变换、透射变换、裁剪、旋转等一个或多个步骤,该图像预处理步骤的目的是使得ar眼镜设备图像和手机设备图像相互匹配。在一个或多个实施例中,对于同一个目标物体的拍摄,虽然ar眼镜设备101和手机设备102处于支架100的不同位置,图像相互匹配意味着通过预处理的步骤,可以将ar眼镜设备拍摄的图像和手机设备拍摄的图像处理为实质上从一个位置拍摄的效果,即ar眼镜设备101拍摄的图像和手机设备102拍摄的图像具有相同的分辨率、并且两个图像中的目标物体可以实质性重合。
27.在一个或多个实施例中,步骤s2的预处理方法可以使用如下所述的具体步骤:
28.s21、使用特征点提取算法获取所述ar眼镜设备图像和所述手机设备图像的特征点,
29.s22、使用特征点匹配算法对所述ar眼镜设备图像和所述手机设备图像的特征点进行匹配,
30.s23、根据匹配的结果,使用透射变换方法对所述手机设备图像进行透射变换,
31.s24、将所述透射变换后的手机设备图像和所述ar眼镜设备图像进行裁剪,以得到标准化ar眼镜设备图像和标准化手机设备图像。
32.在步骤s21和s22中,可以首先使用特征点提取算法获取图像中的特征点,然后使用特征点匹配算法对图像数据进行匹配。特征点提取的算法可以使用si ft、surf、orb描述子作为特征点,并使用knn(k最邻近)等算法进行特征点的匹配。其中orb描述子的提取因为计算速度较快,可以作为优选的实施例进行使用。
33.在步骤s23和s24中,可以根据s21和s22的匹配结果,对手机设备图像进行透射变换,经过透射变换后的手机设备图像可以认为是和ar眼镜设备图像是从同一个位置对目标物体进行拍摄。透视变换(perspective transformation)是指利用透视中心、像点、目标点三点共线的条件,按透视旋转定律使承影面(透视面)绕迹线(透视轴)旋转某一角度,破坏原有的投影光线束,仍能保持承影面上投影几何图形不变的变换。在一个等同的实施例中,也可以对ar眼镜设备图像进行透射变换,以和手机设备图像进行匹配。通常情况下,由于ar眼镜设备图像是我们在后续的算法流程中作为真值进行保留,为了使得风格转换结果更加准确,因此一般对于手机设备图像进行透射变换会更加合适。
34.在一个具体的实施例中,如图4所示,示出了根据本公开的一种图像预处理流程的示意图。其中ar眼镜设备图像和手机设备图像分别由ar眼镜设备101和手机设备102拍摄。在本实施例中,目标物体为“陶罐文物”,因为ar眼镜设备101和手机设备102对于目标物体拍摄的位置有一定的偏差,因此初始得到的图像中目标物体陶罐文物的位置、形态具有一定的差别;另外由于两个设备的摄像头硬件和isp的差异,两张原始图像中的分辨率、色彩、风格也有显著差异。因此,首先使用orb特征检测的方法检测两张图像的orb描述子,并使用knn算法对orb描述子进行匹配。基于匹配结果,可以使用透射变换或仿射变换对于手机设备图像进行变换,因为变换之后可能会有图像的一定的旋转,部分区域会有留白,因此可以对图像进行旋转、拉伸等图像形变(warp)操作,并对空白的区域进行黑色填充,以得到长方形的图片。最后根据预设的裁剪区域,对ar眼镜设备图像和图像形变之后的手机设备图像进行裁剪,以得到标准化手机设备图像、标准化ar眼镜设备图像。从图4中可以看出,目标物体陶罐文物在标准化手机设备图像、标准化ar眼镜设备图像中的位置、以及拍摄角度已经实质上匹配,仅在图像风格上具有一定的差异。
35.在步骤s3中,由于步骤s4中需要对于风格转换神经网络模型进行训练,需要一定的数据量,因此我们需要重复步骤s1和步骤s2,对不同目标物体进行拍摄,以获得标准化图像数据集。具体的,根据风格转换神经网络模型的大小以及最终输出数据精度的要求,标准化图像数据集可以包括1000张、5000张或10000张以上的标准化图像数据。
36.在步骤s4中,将步骤s3中准备的标准化图像数据集中的标准化ar眼镜设备图像作为真值,标准化手机设备图像作为输入值,对风格转换神经网络模型进行训练。在一个或多个实施例中,风格转换神经网络模型为基于卷积神经网络网络的模块而构建的神经网络,其具有输入层、输出层和隐藏层。在模型设计上,输入层可以为四阶张量,例如为[n,3,x,y]来表示,其中n代表模型的批大小,3代表图像的三个通道,x和y代表图像的分辨率。因为我们期望得到的输出结果也是图像数据,因此输出层可以用三阶张量来表示,例如为[3,x,y]。隐藏层可以使用卷积层(convolution layer),池化层(pooling layer)、激活函数层和全连接层(full-connection layer)的组合构成。具体的,在其中一个或多个实施例中,所
述风格转换神经网络模型包括:输入层,用于输入图像;特征提取主干模块,被配置为获取图像数据的特征图,根据特征图获取y通道并做拉普拉斯变换;图像重建模块,所述图像重建模块包括第一重建模块,第一重建模块使用y通道经拉普拉斯变换后的纹理重建,第二重建模块使用特征图进行颜色恢复;输出层,用于输出风格转换后的图像。
[0037]
如图5所示,示出了可以应用于本发明公开的一个或多个实施例的风格转换神经网络模型的示意图。在一个或多个实施例中,该神经网络模型可以由输入层、特征提取主干网络(backbone)、图像重建模块(reconstruction)、输出层组成。其中输入层,用于输入图像,输入的图像包手机图像数据(phone input)和ar眼镜图像数据(glass input ground truth)。
[0038]
特征提取主干模块,其包括特征提取主干网络,被配置为获取图像数据的特征图(feature map),根据特征图获取y通道并做拉普拉斯变换。特征提取主干模块可以选择计算量比较大的网络,因为重建网络是-个离线处理服务,不占用眼镜端侧的计算量,例如选择使用resnet34,使用大网络的重建效果更佳。除了特征图之外,在本发明的一个或多个实施例中,还可以在卷积层继续从特征图中提取y通道做laplacian变化,因为肉眼对y通道亮度感知比较敏感,因此y通道可以弥补特征图对于图像特征的缺失信息,以获得更好的风格转换效果。
[0039]
图像重建(reconstruction)模块,所述图像重建模块包括第一重建模块,第一重建模块使用y通道经拉普拉斯变换后的纹理重建,第二重建模块使用特征图进行颜色恢复。图像重建模块可以采用上采样的方式,基于特征图和y通道做laplacian变化后的特征恢复图像结构。
[0040]
在对模型的损失函数的选择上,在一个或多个实施例中,可以对手机和ar眼镜图像的y通道的laplacian特征对上做ssim loss,计算图像中局部区域的相似结构性。对特征图构建color loss和reconstruction loss,对输出的风格转换后的图像构建l1平滑loss。由于手机设备和ar眼镜采集图像分辨率不一致,即使根据图4的实施例做了预处理,也会存在一些目标区域拉伸形变。图像边缘信息对于图像重建任务非常重要,通过采用laplacian滤波器提取二阶梯度,对噪声更鲁棒,再隐式的集成到第一重建模块。第一重建模块更侧重于提取纹理和边缘信息,重建在梯度信息的引导下,能避免过度边缘模糊或者锐化,从而生成更细节的重建图像。手机设备和ar眼镜设备的成像差异主要在颜色上,针对颜色恢复设计了reconstruction loss,主要是计算手机和ar眼镜图像的差异,不会让增强图像黑的地方更黑、针对亮的区域会反向提亮。color loss主要是计算两者rgb三通道之间的余弦距离,reconstruction loss中只是数值上计算色差,不能保证颜色向量的方向是一致的,可能导致颜色不协调。color loss增强图像,使重建更一致,颜色更自然。l1平滑loss主要是根据先验知识,自然图像中的光照通常是局部平滑的,平滑loss可以增强网络的泛化能力,提供图像对比度。l1 loss使光照在具有小梯度的像素上是平滑的,而在具有大梯度的像素上是不连续的,对于曝光不足的图像,内容和细节往往较弱,光照不一致会导致大的梯度。在一个实施例中,可以对手机和ar眼镜图像的y通道的laplacian特征对上做ssim loss,计算图像中局部区域的相似结构性,可以通过grad loss尽可能保持-些边缘细节特征相似,降低在重建后图像的边缘细节丢失;整体上联合训练,对所有的loss做加权平均,最终输出重建后的效果图。
[0041]
输出层,用于输出风格转换后的图像。如图5所示,原始输入的手机设备图像相比于ar眼镜设备具有更高的亮度和对比度,而通过本发明的一个或多个实施例的风格转换神经网络模型后,输出后的目标物体的图像的风格和ar眼镜设备图像更加接近。即可以实现使用手机拍摄的图像模拟用ar眼镜设备拍摄的图像的效果,从而保持数据采集和实际ar导览应用中的图像数据的一致性。
[0042]
根据本发明的一个或多个实施例,可以解决在ar导览过程中的手机采集数据和ar眼镜采集数据的数据一致性的问题。在本发明先前的方案解决难度比较大。对于弱纹理的区域特征点检出,可以尝试使用图像锐化的方式,但是锐化后过多的特征点检出使得匹配模块计算量增加。对于低光照场景也可以尝试了低光增强深度学习算法,但是ar眼镜终端的算力有限、算法普适性不好,原本检出高的点位场景因为增加了光照增强算法导致检出下降,无法做到什么场景自适应的开启低光增强。ar眼镜终端的算力有限,无法使用深度学习算法做检索匹配,因为耗时会相应增加,实际需要佩戴眼镜观看文物停留更长的时间才能检测到目标,影响游客体验。在硬件方向上,需要对齐眼镜端的isp模块,硬件调优难度和成本因素大。
[0043]
对于本发明的一个或多个实施例的方案是通过图像对的重建方式解决一致性问题,离线处理好手机采集的图像,转换到的眼镜端的风格,可以说是零成本,即不增加端上处理,又保持运营人员的实际操作不变,不需要额外增加规则约束。只需要制作一个简易装置,收集各种光照情况下的图像对作为图像重建的数据集,重建一个网络将手机图像风格转换到眼镜图像风格一劳永逸。且手机的成像质量相对较好,ar眼镜的成像质量差,重建网络相当于将高质量转换到相对的低质量,难度可控。如果是将ar眼镜端重建到手机端,则重建难度增加,算法需要部署到眼镜终端,并增加端上算力。根据本发明的一个或多个实施例被实际应用到ar导览场景后,整个ar导览部署的业务上更为方便快捷,可统一使用一台固定型号的手机如mate30,降低不同手机成像风格的影响,整体上统一了数据,简化了算法端的调优流程,对ar导览领域的数据采集和部署效率有显著的提升。
[0044]
下面参考图6,其示出了适于用来实现本公开的一些实施例的数据采集装置600的结构示意图。图6示出的数据采集装置仅仅是一个示例,不应对本公开的实施例的功能和使用范围带来任何限制。在一个或多个实施例中,数据采集装置600可以为服务器或云服务器。
[0045]
如图6所示,数据采集装置600可以包括处理装置601(例如中央处理器、图形处理器等),其可以根据存储在只读存储器(rom)602中的程序或者从存储装置608加载到随机访问存储器(ram)603中的程序而执行各种适当的动作和处理。在ram 603中,还存储有数据采集装置600操作所需的各种程序和数据。处理装置601、rom 602以及ram 603通过总线604彼此相连。输入/输出(i/o)接口605也连接至总线604。
[0046]
通常,以下装置可以连接至i/o接口605:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置606;包括例如液晶显示器(lcd)、扬声器、振动器等的输出装置607;以及通信装置609。通信装置609可以允许数据采集装置600与其他设备进行无线或有线通信以交换数据。虽然图5示出了具有各种装置的数据采集装置600,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。图5中示出的每个方框可以代表一个装置,也可以根据需要代表多个装置。
[0047]
特别地,根据本公开的一些实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的一些实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的一些实施例中,该计算机程序可以通过通信装置609从网络上被下载和安装,或者从存储装置608被安装,或者从rom602被安装。在该计算机程序被处理装置601执行时,执行本公开的一些实施例的方法中限定的上述功能。
[0048]
需要说明的是,本公开的一些实施例中记载的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开的一些实施例中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开的一些实施例中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、rf(射频)等等,或者上述的任意合适的组合。
[0049]
在一些实施方式中,客户端、服务器可以利用诸如http(hypertext transfer protocol,超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信,并且可以与任意形式或介质的数字数据通信(例如,通信网络)互连。通信网络的示例包括局域网(“lan”),广域网(“wan”),网际网(例如,互联网)以及端对端网络(例如,ad hoc端对端网络),以及任何当前已知或未来研发的网络。
[0050]
上述计算机可读介质可以是上述数据采集装置中所包含的;也可以是单独存在,而未装配入该数据采集装置中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该数据采集装置执行时,使得该数据采集装置执行如下步骤:s1、获取ar眼镜设备和手机设备对于同一目标物体进行拍摄的图像数据,所述图像数据包括:ar眼镜设备图像和手机设备图像;s2、对所述图像数据进行预处理,以得到标准化图像数据,所述标准化图像数据包括:标准化ar眼镜设备图像和标准化手机设备图像,其中所述标准化ar眼镜设备图像和所述标准化手机设备图像相互匹配;s3、重复步骤s1和步骤s2,对不同目标物体进行拍摄,以获得标准化图像数据集;s4、将标准化图像数据集中的标准化ar眼镜设备图像作为真值,标准化手机设备图像作为输入值,对风格转换神经网络模型进行训练;s5、基于所述训练好的风格转换神经网络模型,对由所述手机设备拍摄的其他图像进行风格转换,以获得和所述ar眼镜设备拍摄风格一致的图像。
[0051]
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的一些实施例的操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如java、
smalltalk、c++,还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(lan)或广域网(wan)——连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
[0052]
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
[0053]
描述于本公开的一些实施例中的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。
[0054]
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:现场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、片上系统(soc)、复杂可编程逻辑设备(cpld)等等。
[0055]
以上描述仅为本公开的一些较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开的实施例中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开的实施例中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

技术特征:
1.一种图像数据的风格转换方法,应用于ar导览领域,包括,s1、获取ar眼镜设备和手机设备对于同一目标物体进行拍摄的图像数据,所述图像数据包括:ar眼镜设备图像和手机设备图像;s2、对所述图像数据进行预处理,以得到标准化图像数据,所述标准化图像数据包括:标准化ar眼镜设备图像和标准化手机设备图像,其中所述标准化ar眼镜设备图像和所述标准化手机设备图像相互匹配;s3、重复步骤s1和步骤s2,对不同目标物体进行拍摄,以获得标准化图像数据集;s4、将标准化图像数据集中的标准化ar眼镜设备图像作为真值,标准化手机设备图像作为输入值,对风格转换神经网络模型进行训练;s5、基于所述训练好的风格转换神经网络模型,对由所述手机设备拍摄的其他图像进行风格转换,以获得和所述ar眼镜设备拍摄风格一致的图像。2.根据权利要求1所述的图像数据的风格转换方法,其特征在于,在步骤s1中,所述ar眼镜设备和所述手机设备被固定于同一刚性支架,并被配置为同时拍摄所述目标物体。3.根据权利要求1所述的图像数据的风格转换方法,其特征在于,步骤s2具体包括:s21、使用特征点提取算法获取所述ar眼镜设备图像和所述手机设备图像的特征点,s22、使用特征点匹配算法对所述ar眼镜设备图像和所述手机设备图像的特征点进行匹配,s23、根据匹配的结果,使用透射变换方法对所述手机设备图像进行透射变换,s24、将所述透射变换后的手机设备图像和所述ar眼镜设备图像进行裁剪,以得到标准化ar眼镜设备图像和标准化手机设备图像。4.根据权利要求3所述的图像数据的风格转换方法,其特征在于,所述标准化ar眼镜设备图像和所述标准化手机设备图像为针对同一目标物体在同一位置的拍摄图像,且图像分辨率相同。5.根据权利要求3所述的图像数据的风格转换方法,其特征在于,所述特征点提取算法为orb算法,所述特征点匹配算法为knn算法。6.根据权利要求1所述的图像数据的风格转换方法,其特征在于,所述风格转换神经网络模型包括:输入层,用于输入图像数据;特征提取主干模块,被配置为获取所述图像数据的特征图(feature map),根据特征图获取y通道并做拉普拉斯变换;图像重建模块,所述图像重建模块包括第一重建模块,第一重建模块使用y通道经拉普拉斯变换后的纹理重建,第二重建模块使用特征图进行颜色恢复;输出层,用于输出风格转换后的图像。7.根据权利要求6所述的图像数据的风格转换方法,其特征在于,将所述特征图和所述拉普拉斯变换后的y通道拼接(concat)之后,输入图像重建网络。8.根据权利要求6所述的图像数据的风格转换方法,其特征在于,对特征图构建color loss和reconstruction loss,
对拉普拉斯变换后的y通道构建ssim loss,对输出的风格转换后的图像构建l1平滑loss。9.一种数据采集装置,所述数据采集装置包括刚性支架,所述刚性支架上设置有ar眼镜设备和手机设备,所述ar眼镜设备和手机设备被配置为分别采集目标物体的图像数据;处理单元,所述处理单元被配置为对所述图像数据执行如权利要求1至8中任一项所述的图像数据的风格转换方法。10.一种服务器,包括存储器和处理器,所述存储器存储有计算机软件指令;当所述计算机软件指令在被所述处理器运行时,使得所述处理器执行如权利要求1至8中任一项所述的图像数据的风格转换方法。

技术总结
本发明涉及一种应用于AR文旅领域的图像数据的风格转换方法、数据采集装置和服务器。本发明的一个或多个实施例通过设计一套简易的方法和装置用于收集AR眼镜和手机拍摄的数据集,并通过预处理步骤对齐两个设备拍摄的图像,确保图像的形态一致,然后设计一个神经网络做手机端到AR眼镜端的图像重建以解决手机采集到眼镜应用的数据一致性问题。整体上统一了数据,简化了算法端的调优流程,对于AR导览领域有较强的实用价值。领域有较强的实用价值。领域有较强的实用价值。


技术研发人员:陈国特 陈凯迪 王文兵
受保护的技术使用者:杭州灵伴科技有限公司
技术研发日:2023.04.27
技术公布日:2023/8/24
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐