一种语义通信人脸重建优化方法、系统与流程
未命名
09-07
阅读:148
评论:0
1.本发明实施例涉及图像处理与计算机视觉技术领域,尤其涉及一种语义通信人脸重建优化方法、系统。
背景技术:
2.在家庭安防,视频会议等需要传输视频的通信场景中,视频传输质量和传输速度决定着用户体验的好坏。在实际情况下,视频会议场景带宽的限制往往会带来视频的卡顿与失真,造成较差的使用体验,给用户带来很多不便;家庭安防场景中为了保证视频传输质量,往往需要花费巨额资金在通信传输过程中。目前常用的解决方法有传统的h264、h265等压缩编码方式,也有基于深度学习的fomm等提取语义信息传输的方法。
3.提取语义信息传输的流程主要可以分解成三个关键步骤:目标信息提取、信息传输和目标重建。其中,对于目标信息提取步骤,目前通常使用深度学习的方法,将关键语义信息(一般为由多个关键点坐标组成的矩阵)从目标对象中提炼出来。对于信息传输步骤,目前通常采用的方法是传输编码后的关键语义信息以取代原来通信中直接传递图像的方案。对于目标重建步骤,目标通常使用深度学习方法进行从关键语义信息到图像的预测生成,以实现原图像的重建。
4.传统压缩编码方法虽然可以在一定程度上减轻带宽压力,但是压缩是有极限的,在达到一定压缩率后,传统编码就无法保证传输质量。提取语义信息传输的方法,可以通过传输少量关键语义信息进行目标重建,虽然极大的降低了传输带宽,但是由于信息少,会导致目标重建效果差,失真的情况,极大的影响了用户使用体验。
5.因此,目前亟需一种新的语义通信人脸重建优化方法。
技术实现要素:
6.本发明实施例提供一种语义通信人脸重建优化方法、系统,以至少部分解决相关技术中存在的问题。
7.本发明实施例第一方面,提供了一种语义通信人脸重建优化方法,应用于语义通信人脸重建优化系统,所述语义通信人脸重建优化系统包括发送端、接收端,所述方法包括:所述接收端接收发送端发送的各个驱动帧图像的运动关键点、参考帧图像的运动关键点和参考帧图像的轮廓关键点、以及参考帧图像;所述各个驱动帧图像的运动关键点、参考帧图像的运动关键点和参考帧图像的轮廓关键点、以及参考帧图像是接收端通过语义通信人脸重建网络的人脸重建子网络得到的;所述接收端基于接收到的各个驱动帧图像的运动关键点、参考帧图像的运动关键点和参考帧图像的轮廓关键点、以及所述参考帧图像,通过预先训练的语义通信人脸重建网络中的人脸重建子网络,进行图像重建,得到各个驱动帧重建图像;其中,所述预先训练的语义通信人脸重建网络,是以样本人脸姿态迁移数据集对
预设网络进行端到端训练得到的,所述样本人脸姿态迁移数据集包括多个样本人脸姿态迁移图像序列,每个人脸姿态迁移图像序列包括:样本参考帧图像和多个样本驱动帧图像,训练过程中以所述样本驱动帧图像为训练标签;所述预设网络包括:关键点提取子网络和人脸重建子网络,所述关键点提取子网络用于基于样本参考帧图像和样本驱动帧输出样本参考帧图像的轮廓关键点、样本参考帧图像的运动关键点、驱动帧图像的运动关键点;所述人脸重建子网络用于基于关键点提取子网络输出的样本参考帧图像的轮廓关键点、样本参考帧图像的运动关键点、驱动帧图像的运动关键点和所述样本参考帧得到重建驱动帧图像;所述发送端配置有语义通信人脸重建网络的关键点提取子网络,所述接收端配置有语义通信人脸重建网络的人脸重建子网络。
8.可选地,所述方法还包括:所述发送端获取人脸区域图像序列,将第一帧人脸区域图像作为参考帧图像,将其他帧人脸区域图像作为驱动帧图像;所述发送端将所述人脸区域图像序列输入预先训练的语义通信人脸重建网络中的关键点提取子网络,得到各个驱动帧图像的运动关键点、参考帧图像的运动关键点和参考帧图像的轮廓关键点;所述发送端将所述各个驱动帧图像的运动关键点、参考帧图像的运动关键点和参考帧图像的轮廓关键点、以及所述参考帧图像发送至所述接收端。
9.可选地,所述发送端获取人脸区域图像序列,包括:获取视频流数据;对所述视频流数据进行视频解码,得到第一视频帧图像序列;从所述视频帧图像序列提取出包括人脸的第二视频帧图像序列;对所述第二视频帧图像序列中的每一帧图像进行分割,分别得到人脸区域图像,组成人脸区域图像序列。
10.可选地,所述方法还包括:针对每一帧驱动帧图像:所述发送端确定所述驱动帧图像的频谱信息;所述发送端将所述驱动帧图像的频谱信息输入预先训练的频段判别网络,得到重建图像优化频段;所述预先训练的频段判别网络是基于样本人脸图像、样本重建图像、样本人脸图像的频谱信息、样本重建图像的频谱信息训练得到的,所述频段判别网络学习到了重建图像优化效果最佳的频段;将所述重建图像优化频段和所述驱动帧图像的频谱信息发送至接收端。
11.可选地,所述方法还包括:针对每一帧驱动帧重建图像:所述接收端确定驱动帧重建图像的频谱信息,利用所述重建图像优化频段对应的驱动帧图像的频谱信息,对所述驱动帧重建图像的频谱信息对应频段的频谱信息进行替换,得到优化后的频谱信息;基于所述优化后的频谱信息得到优化后的驱动帧重建图像。
12.可选地,所述方法还包括:针对每一帧驱动帧图像:所述发送端确定所述驱动帧图像的频谱信息;所述发送端将所述驱动帧图像的频谱信息输入预先训练的频段判别网络,得到重
建图像优化频段;所述预先训练的频段判别网络是基于样本人脸图像、样本重建图像、样本人脸图像的频谱信息、样本重建图像的频谱信息训练得到的,所述频段判别网络学习到了重建图像优化效果最佳的频段;所述发送端将所述重建图像优化频段输入滤波器,得到重建图像优化频谱信息;所述发送端将所述重建图像优化频谱信息和所述重建图像优化频段传输至接收端。
13.可选地,所述方法还包括:针对每一帧驱动帧重建图像:所述接收端确定驱动帧重建图像的频谱信息,利用所述重建图像优化频谱信息,对所述驱动帧重建图像在重建图像优化频段对应的频谱信息进行替换,得到优化后的频谱信息;基于所述优化后的频谱信息得到优化后的驱动帧重建图像。
14.可选地,所述接收端基于接收到的各个驱动帧图像的运动关键点、参考帧图像的运动关键点和参考帧图像的轮廓关键点、以及所述参考帧图像,通过预先训练的语义通信人脸重建网络中的人脸重建子网络,进行图像重建,得到各个驱动帧重建图像,包括:将所述各个驱动帧图像的运动关键点分别和所述参考帧图像的运动关键点进行数学运算,得到各个驱动帧图像对应的关键点变换矩阵;将所述参考帧图像的轮廓关键点过预先定好的顺序连接成二值化的参考帧轮廓图;将所述参考帧图像、所述各个驱动帧图像对应的关键点变换矩阵和所述参考帧轮廓图分别输入到人脸重建子网络中,得到各个驱动帧重建图像。
15.本发明实施例第二方面,提供了一种语义通信人脸重建优化系统,所述语义通信人脸重建优化系统包括发送端、接收端,所述接收端用于:接收发送端发送的各个驱动帧图像的运动关键点、参考帧图像的运动关键点和参考帧图像的轮廓关键点、以及参考帧图像;所述接收端基于接收到的各个驱动帧图像的运动关键点、参考帧图像的运动关键点和参考帧图像的轮廓关键点、以及所述参考帧图像,通过预先训练的语义通信人脸重建网络中的人脸重建子网络,进行图像重建,得到各个驱动帧重建图像;所述各个驱动帧图像的运动关键点、参考帧图像的运动关键点和参考帧图像的轮廓关键点、以及参考帧图像是接收端通过语义通信人脸重建网络的人脸重建子网络得到的;其中,所述预先训练的语义通信人脸重建网络,是以样本人脸姿态迁移数据集对预设网络进行端到端训练得到的,所述样本人脸姿态迁移数据集包括多个样本人脸姿态迁移图像序列,每个人脸姿态迁移图像序列包括:样本参考帧图像和多个样本驱动帧图像,训练过程中以所述样本驱动帧图像为训练标签;所述预设网络包括:关键点提取子网络和人脸重建子网络,所述关键点提取子网络用于基于样本参考帧图像和样本驱动帧输出样本参考帧图像的轮廓关键点、样本参考帧图像的运动关键点、驱动帧图像的运动关键点;所述人脸重建子网络用于基于关键点提取子网络输出的样本参考帧图像的轮廓关键点、样本参考帧图像的运动关键点、驱动帧图像的运动关键点和所述样本参考帧得到重建驱动帧图像;所述发送端配置有语义通信人脸重建网络的关键点提取子网络,所述接收端配置有语义通信人脸重建网络的人脸重建子网络。
16.可选地,所述发送端用于:获取人脸区域图像序列,将第一帧人脸区域图像作为参考帧图像,将其他帧人脸区域图像作为驱动帧图像;所述发送端将所述人脸区域图像序列输入预先训练的语义通信人脸重建网络中的关键点提取子网络,得到各个驱动帧图像的运动关键点、参考帧图像的运动关键点和参考帧图像的轮廓关键点;所述发送端将所述各个驱动帧图像的运动关键点、参考帧图像的运动关键点和参考帧图像的轮廓关键点、以及所述参考帧图像发送至所述接收端。
17.本发明具有以下优点:本发明实施例中,在传输过程中,针对参考帧(第一帧)传输其图像、运动关键点、以及轮廓关键点,针对驱动帧(第一帧后续其他帧)的传输只需要传输运动关键点,传输成本大幅降低,而人脸重建过程中,以参考帧图像的轮廓关键点作为轮廓约束,可以在少量增加传输信息的情况下,提高人脸重建的稳定性和准确度,缓解了生成人脸变形的问题。从而可以在低传输成本的前提下,稳定准确地完成人脸重建。
附图说明
18.为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
19.图1是本发明实施例的一种语义通信人脸重建优化方法的流程示意图;图2是本发明实施例的一种语义通信人脸重建优化方法的流程示意图;图3是本发明实施例的一种语义通信人脸重建优化方法的流程示意图;图4是本发明实施例的一种语义通信人脸重建优化方法中重建图像优化流程示意图。
具体实施方式
20.为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
21.本发明实施例中提出了一种可以语义通信人脸重建优化方法。具体的,参照图1,示出了本发明实施例的一种语义通信人脸重建优化方法的流程示意图,如图1所示,本发明实施例提供的语义通信人脸重建优化方法,应用于语义通信人脸重建优化系统,所述语义通信人脸重建优化系统包括发送端、接收端,所述方法包括以下步骤:s101,所述接收端接收发送端发送的各个驱动帧图像的运动关键点、参考帧图像的运动关键点和参考帧图像的轮廓关键点、以及参考帧图像。
22.本发明实施例中,所述各个驱动帧图像的运动关键点、参考帧图像的运动关键点和参考帧图像的轮廓关键点是接收端通过语义通信人脸重建网络的关键点提取子网络得到的。
23.s102,所述接收端基于接收到的各个驱动帧图像的运动关键点、参考帧图像的运动关键点和参考帧图像的轮廓关键点、以及所述参考帧图像,通过预先训练的语义通信人脸重建网络中的人脸重建子网络,进行图像重建,得到各个驱动帧重建图像。
24.其中,所述预先训练的语义通信人脸重建网络,是以样本人脸姿态迁移数据集对预设网络进行端到端训练得到的,所述样本人脸姿态迁移数据集包括多个样本人脸姿态迁移图像序列,每个人脸姿态迁移图像序列包括:样本参考帧图像和多个样本驱动帧图像,训练过程中以所述样本驱动帧图像为训练标签。
25.所述预设网络包括:关键点提取子网络和人脸重建子网络,所述关键点提取子网络用于基于样本参考帧图像和样本驱动帧输出样本参考帧图像的轮廓关键点、样本参考帧图像的运动关键点、驱动帧图像的运动关键点;所述人脸重建子网络用于基于关键点提取子网络输出的样本参考帧图像的轮廓关键点、样本参考帧图像的运动关键点、驱动帧图像的运动关键点和所述样本参考帧得到重建驱动帧图像。
26.其中,所述发送端配置有语义通信人脸重建网络的关键点提取子网络,所述接收端配置有语义通信人脸重建网络的人脸重建子网络。
27.具体的,本发明实施例中,首先需要对预设网络进行训练,得到包括关键点提取子网络和人脸重建子网络的语义通信人脸重建网络。再将所述关键点提取子网络配置到发送端,将所述人脸重建子网络配置到接收端。
28.本发明实施例中,发送端指的是对获取视频图像数据进行编码并传输出去的终端。接收端指的是获取视频编码数据并进行人脸重建的终端。
29.本发明实施例中,参考帧图像指的是图像序列中的第一帧人脸区域图像,驱动帧图像指的是第一帧人脸区域图像后续的其他帧人脸区域图像。
30.由此,本发明实施例中,发送端只需要对第一帧图像和轮廓关键点进行传输,无需传输后续其他帧的图像和轮廓关键点,对于后续其他帧,接收端可以根据参考帧图像及其轮廓关键点以及参考帧图像的运动关键点和驱动帧图像的运动关键点之间的变化,进行人脸重建。
31.本发明实施例中,人脸重建子网络在人脸重建过程中,以参考帧图像的轮廓关键点作为轮廓约束,限制人脸生成着重关注轮廓约束的范围,并且不做超出轮廓范围的生成,可以提高人脸重建的稳定性和准确度。
32.本发明实施例中,在传输过程中,针对参考帧(第一帧)传输其图像、运动关键点、以及轮廓关键点,针对驱动帧(第一帧后续其他帧)的传输只需要传输运动关键点,传输成本大幅降低,而人脸重建过程中,以参考帧图像的轮廓关键点作为轮廓约束,可以在少量增加传输信息的情况下,提高人脸重建的稳定性和准确度,缓解了生成人脸变形的问题。从而可以在低传输成本的前提下,稳定准确地完成人脸重建。
33.参照图2,示出了本发明实施例的一种语义通信人脸重建优化方法的流程示意图,如图2所示,本发明实施例提供的语义通信人脸重建优化方法,应用于语义通信人脸重建优化系统,所述语义通信人脸重建优化系统包括发送端、接收端,所述方法包括以下步骤:s201,所述发送端获取人脸区域图像序列,将第一帧人脸区域图像作为参考帧图像,将其他帧人脸区域图像作为驱动帧图像。
34.具体的,所述步骤s201可以包括以下子步骤:s2011,获取视频流数据。
35.本发明实施例中,视频流数据可以来源于发送端本地存储器,也可以来源于视频存储服务器。
36.s2012,对所述视频流数据进行视频解码,得到第一视频帧图像序列。
37.s2013,从所述视频帧图像序列提取出包括人脸的第二视频帧图像序列。
38.本发明实施例中,可以采用常见的人脸检测技术从所述视频帧图像序列提取出包括人脸的第二视频帧图像序列。
39.s2014,对所述第二视频帧图像序列中的每一帧图像进行分割,分别得到人脸区域图像,组成人脸区域图像序列。
40.本发明实施例中,可以采用常见的人脸分割技术对所述第二视频帧图像序列中的每一帧图像进行分割,得到人脸区域图像。
41.s202,所述发送端将所述人脸区域图像序列输入预先训练的语义通信人脸重建网络中的关键点提取子网络,得到各个驱动帧图像的运动关键点、参考帧图像的运动关键点和参考帧图像的轮廓关键点将所述目标码率和所述视频流图像数据输入预先训练的语义分层网络的编码器。
42.本发明实施例中,关键点提取子网络具体可以针对参考帧输出由78个关键点坐标组成的向量,其中包括10个运动关键点用来表示人脸语义信息,还包括68个轮廓关键点用来表示人脸边缘和五官的轮廓信息。针对驱动帧输出由10个运动关键点坐标组成的向量即可。
43.s203,所述发送端将所述各个驱动帧图像的运动关键点、参考帧图像的运动关键点和参考帧图像的轮廓关键点、以及所述参考帧图像发送至所述接收端。
44.本发明实施例中,发送端向接收端发送第一帧图像时首次需要发送参考帧图像、参考帧图像对应的10个运动关键点、68个轮廓关键点;后续发送其他帧图像时,只需要发送驱动帧对应的10个运动关键点。
45.s204,所述接收端接收发送端发送的各个驱动帧图像的运动关键点、参考帧图像的运动关键点和参考帧图像的轮廓关键点、以及参考帧图像。
46.s205,所述接收端将所述各个驱动帧图像的运动关键点分别和所述参考帧图像的运动关键点进行数学运算,得到各个驱动帧图像对应的关键点变换矩阵。
47.本发明实施例中,接收端可以将参考帧图像的10个运动关键点信息与当前接收到的驱动帧图像对应的10个运动关键点信息进行数学运算,得到关键点变换矩阵。
48.s206,所述接收端将所述参考帧图像的轮廓关键点过预先定好的顺序连接成二值化的参考帧轮廓图。
49.本发明实施例中,接收端可以在接收到参考帧的68个轮廓关键点之后通过预先定好的顺序,将所述轮廓关键点连接成二值化的轮廓图。在后续每一帧驱动帧的重建过程中,沿用该轮廓图。本发明实施例中,轮廓图可以限制人脸生成着重关注轮廓约束的范围,并且不做超出轮廓范围的生成。
50.s207,所述接收端将所述参考帧图像、所述各个驱动帧图像对应的关键点变换矩阵和所述参考帧轮廓图分别输入到人脸重建子网络中,得到各个驱动帧重建图像。
51.参照图3,示出了本发明实施例的一种语义通信人脸重建优化方法中重建图像优化流程示意图,如图3所示,本发明实施例提供的语义通信人脸重建优化方法中的重建图像优化流程包括以下步骤:s301,所述发送端确定所述驱动帧图像的频谱信息。
52.本发明实施例中,得到更加真实的重建图像,提出从频域维度对重建图像进行进一步优化,具体的,本发明实施例中,在发送端,针对每一帧驱动帧图像,可以提取该驱动帧的原始频谱信息。
53.具体的,本发明实施例中,可以对驱动帧图像使用2d离散傅里叶变换(dft)将rgb通道转换成频谱f,如公式(1)所示,其中的相位谱被丢弃,对f取对数并将其正则化到[-1,1]之间,得到压缩后的频谱信息。
[0054]
(1)其中,
[0055]
s302,所述发送端将所述驱动帧图像的频谱信息输入预先训练的频段判别网络,得到重建图像优化频段;所述预先训练的频段判别网络是基于样本人脸图像、样本重建图像、样本人脸图像的频谱信息、样本重建图像的频谱信息训练得到的,所述频段判别网络学习到了重建图像优化效果最佳的频段。
[0056]
本发明实施例中,可以预先利用样本人脸图像、样本重建图像、以及它们对应的频谱信息组成数据集,训练一个轻量级频段判别网络,得到频段判别网络,该频段判别网络可以学习到样本人脸图像和样本重建图像在频域维度上的差异,进而预测得到从频域维度对重建图像进行优化的优化效果最佳的频段。
[0057]
本发明实施例中,在通过步骤s301得到驱动帧的频谱信息后,将该频谱信息输入频段判别网络得到该驱动帧对应的重建图像优化频段。
[0058]
s303,所述发送端将所述重建图像优化频段和所述驱动帧图像的频谱信息发送至接收端。
[0059]
s304,所述接收端确定驱动帧重建图像的频谱信息,利用所述重建图像优化频段对应的驱动帧图像的频谱信息,对所述驱动帧重建图像的频谱信息对应频段的频谱信息进行替换,得到优化后的频谱信息。
[0060]
本发明实施例中,接收端接收到压缩后的频谱数据后,可以对数据做解压还原为频谱数据。
[0061]
接收端可以对驱动帧重建图像进行2d离散傅里叶变换,得到驱动帧重建图像的频谱图,然后使用重建图像优化频段对应的驱动帧图像的频谱信息,替换驱动帧重建图像的频谱图中对应频段的频谱信息,得到优化后的频谱信息。
[0062]
s305,所述接收端基于所述优化后的频谱信息得到优化后的驱动帧重建图像。
[0063]
本发明实施例中,接收端可以进一步对优化后的频谱信息进行傅里叶反变换,重新得到新的图像。即为优化后的驱动帧重建图像,从而,本发明实施例中,可以通过对驱动帧重建图像的频谱信息的替换,有选择性的弥补重建生成后图像与发送端对应帧在纹理信息上的差异。
[0064]
参照图4,示出了本发明实施例的一种语义通信人脸重建优化方法中重建图像优化流程示意图,如图4所示,本发明实施例提供的语义通信人脸重建优化方法中的重建图像优化流程包括以下步骤:
s401,所述发送端确定所述驱动帧图像的频谱信息。
[0065]
s402,所述发送端将所述驱动帧图像的频谱信息输入预先训练的频段判别网络,得到重建图像优化频段;所述预先训练的频段判别网络是基于样本人脸图像、样本重建图像、样本人脸图像的频谱信息、样本重建图像的频谱信息训练得到的,所述频段判别网络学习到了重建图像优化效果最佳的频段。
[0066]
所述步骤s401~s402与上述步骤s301~s302类似,本发明实施例在此不再赘述。
[0067]
s403,所述发送端将所述重建图像优化频段输入滤波器,得到重建图像优化频谱信息。
[0068]
本发明实施例中,通过滤波器得到频段对应的频谱信息的步骤如下:s1,确定滤波器的类型,本发明实施例中,可以根据实际需求选择适当的滤波器类型,常见的有低通滤波器、高通滤波器、带通滤波器和带阻滤波器等。
[0069]
s2,设计滤波器,本发明实施例中,可以使用常规的数字信号处理方法设计出滤波器的传递函数。所述传递函数描述了滤波器的输入与输出之间的关系。
[0070]
s3,应用滤波器,将待处理的信号输入到滤波器中进行滤波处理,得到滤波后的信号。
[0071]
s4,进行频谱分析,对滤波后的信号进行频谱分析,可以使用傅里叶变换或者其他频谱分析方法。傅里叶变换可以将时域信号转换为频域信号,得到信号的频谱图。
[0072]
s5,取得频段对应的频谱信息,本发明实施例中,可以根据确定的重建图像优化频段,在频谱图中找到对应频段的区域,并获得该频段的频谱信息,即为重建图像优化频谱信息。
[0073]
s404,所述发送端将所述重建图像优化频谱信息和所述重建图像优化频段传输至接收端。
[0074]
本发明实施例中,将所述重建图像优化频段作为频段参数和重建图像优化频谱信息一起发送至接收端。
[0075]
s405,所述接收端确定驱动帧重建图像的频谱信息,利用所述重建图像优化频谱信息,对所述驱动帧重建图像在重建图像优化频段对应的频谱信息进行替换,得到优化后的频谱信息。
[0076]
s406,所述接收端基于所述优化后的频谱信息得到优化后的驱动帧重建图像。
[0077]
本发明实施例中,接收端可以对驱动帧重建图像进行2d离散傅里叶变换,得到驱动帧重建图像的频谱图,然后利用所述重建图像优化频谱信息,对所述驱动帧重建图像在重建图像优化频段对应的频谱信息进行替换,得到优化后的频谱信息,再基于傅里叶反变换,重新得到优化后的驱动帧重建图像。
[0078]
本发明实施例中,发送端可以为智能摄像机,所述智能摄像机抓拍到含有人脸的视频帧后,原始视频帧图像被送入人脸检测分割模块,得到人脸区域图像序列,输入到关键点提取子网络得到待发送的相关语义信息;第一次发送会发送参考帧原图以及对应运动关键点、轮廓关键点,后续只发送驱动帧的运动关键点、频段参数和重建图像优化频谱信息。
[0079]
接收端在接收到发送端发来的信息后,将信息送入人脸重建子网络中,通过生成得到重建后的驱动帧图像。重建后的驱动帧图像会根据深度学习提取的频段参数,利用原驱动帧的部分频谱数据替换重建后的驱动帧图像的对应频谱数据的方式优化图像信息。
[0080]
从而,本发实施例中,采用轮廓约束和频域优化的方法,可以在传输少量信息的情况下,提高人脸重建的稳定性和准确度。本发明实施例中,在接收端使用频谱信息对重建后人脸进行纹理优化,可以有效提高人脸重建的质量,减少重建人脸的模糊、毛刺等情况。
[0081]
并且,本发明实施例中,可以仅选择对任务优化最佳的频段数据进行传输,在保证优化效果的基础上减少了带宽占用。
[0082]
基于同一发明构思,本发明实施例,提供了提供了一种语义通信人脸重建优化系统,所述语义通信人脸重建优化系统包括发送端、接收端,所述接收端用于:接收发送端发送的各个驱动帧图像的运动关键点、参考帧图像的运动关键点和参考帧图像的轮廓关键点、以及参考帧图像;所述接收端基于接收到的各个驱动帧图像的运动关键点、参考帧图像的运动关键点和参考帧图像的轮廓关键点、以及所述参考帧图像,通过预先训练的语义通信人脸重建网络中的人脸重建子网络,进行图像重建,得到各个驱动帧重建图像;所述各个驱动帧图像的运动关键点、参考帧图像的运动关键点和参考帧图像的轮廓关键点、以及参考帧图像是接收端通过语义通信人脸重建网络的人脸重建子网络得到的;其中,所述预先训练的语义通信人脸重建网络,是以样本人脸姿态迁移数据集对预设网络进行端到端训练得到的,所述样本人脸姿态迁移数据集包括多个样本人脸姿态迁移图像序列,每个人脸姿态迁移图像序列包括:样本参考帧图像和多个样本驱动帧图像,训练过程中以所述样本驱动帧图像为训练标签;所述预设网络包括:关键点提取子网络和人脸重建子网络,所述关键点提取子网络用于基于样本参考帧图像和样本驱动帧输出样本参考帧图像的轮廓关键点、样本参考帧图像的运动关键点、驱动帧图像的运动关键点;所述人脸重建子网络用于基于关键点提取子网络输出的样本参考帧图像的轮廓关键点、样本参考帧图像的运动关键点、驱动帧图像的运动关键点和所述样本参考帧得到重建驱动帧图像;所述发送端配置有语义通信人脸重建网络的关键点提取子网络,所述接收端配置有语义通信人脸重建网络的人脸重建子网络。
[0083]
可选地,所述发送端用于:获取人脸区域图像序列,将第一帧人脸区域图像作为参考帧图像,将其他帧人脸区域图像作为驱动帧图像;所述发送端将所述人脸区域图像序列输入预先训练的语义通信人脸重建网络中的关键点提取子网络,得到各个驱动帧图像的运动关键点、参考帧图像的运动关键点和参考帧图像的轮廓关键点;所述发送端将所述各个驱动帧图像的运动关键点、参考帧图像的运动关键点和参考帧图像的轮廓关键点、以及所述参考帧图像发送至所述接收端。
[0084]
本发明实施例中,所述发送端还可以用于执行上述任一项实施例中提到的由发送端执行的步骤。
[0085]
本发明实施例中,所述接收端还可以用于执行上述任一项实施例中提到的由接收端执行的步骤。
[0086]
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
[0087]
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
[0088]
本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算
机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0089]
本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程语义通信人脸重建优化方法终端设备的处理器以产生一个机器,使得通过计算机或其他可编程语义通信人脸重建优化方法终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0090]
这些计算机程序指令也可存储在能引导计算机或其他可编程语义通信人脸重建优化方法终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0091]
这些计算机程序指令也可装载到计算机或其他可编程语义通信人脸重建优化方法终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0092]
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
[0093]
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
[0094]
以上对本发明所提供的一种语义通信人脸重建优化方法、系统,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
技术特征:
1.一种语义通信人脸重建优化方法,应用于语义通信人脸重建优化系统,所述语义通信人脸重建优化系统包括发送端、接收端,其特征在于,所述方法包括:所述接收端接收发送端发送的各个驱动帧图像的运动关键点、参考帧图像的运动关键点和参考帧图像的轮廓关键点、以及参考帧图像;所述各个驱动帧图像的运动关键点、参考帧图像的运动关键点和参考帧图像的轮廓关键点是接收端通过语义通信人脸重建网络的关键点提取子网络得到的;所述接收端基于接收到的各个驱动帧图像的运动关键点、参考帧图像的运动关键点和参考帧图像的轮廓关键点、以及所述参考帧图像,通过预先训练的语义通信人脸重建网络中的人脸重建子网络,进行图像重建,得到各个驱动帧重建图像;其中,所述预先训练的语义通信人脸重建网络,是以样本人脸姿态迁移数据集对预设网络进行端到端训练得到的,所述样本人脸姿态迁移数据集包括多个样本人脸姿态迁移图像序列,每个人脸姿态迁移图像序列包括:样本参考帧图像和多个样本驱动帧图像,训练过程中以所述样本驱动帧图像为训练标签;所述预设网络包括:关键点提取子网络和人脸重建子网络,所述关键点提取子网络用于基于样本参考帧图像和样本驱动帧输出样本参考帧图像的轮廓关键点、样本参考帧图像的运动关键点、驱动帧图像的运动关键点;所述人脸重建子网络用于基于关键点提取子网络输出的样本参考帧图像的轮廓关键点、样本参考帧图像的运动关键点、驱动帧图像的运动关键点和所述样本参考帧得到重建驱动帧图像;其中,所述发送端配置有语义通信人脸重建网络的关键点提取子网络,所述接收端配置有语义通信人脸重建网络的人脸重建子网络。2.根据权利要求1所述的语义通信人脸重建优化方法,其特征在于,所述方法还包括:所述发送端获取人脸区域图像序列,将第一帧人脸区域图像作为参考帧图像,将其他帧人脸区域图像作为驱动帧图像;所述发送端将所述人脸区域图像序列输入预先训练的语义通信人脸重建网络中的关键点提取子网络,得到各个驱动帧图像的运动关键点、参考帧图像的运动关键点和参考帧图像的轮廓关键点;所述发送端将所述各个驱动帧图像的运动关键点、参考帧图像的运动关键点和参考帧图像的轮廓关键点、以及所述参考帧图像发送至所述接收端。3.根据权利要求2所述的语义通信人脸重建优化方法,其特征在于,所述发送端获取人脸区域图像序列,包括:获取视频流数据;对所述视频流数据进行视频解码,得到第一视频帧图像序列;从所述视频帧图像序列提取出包括人脸的第二视频帧图像序列;对所述第二视频帧图像序列中的每一帧图像进行分割,分别得到人脸区域图像,组成人脸区域图像序列。4.根据权利要求2所述的语义通信人脸重建优化方法,其特征在于,所述方法还包括:针对每一帧驱动帧图像:所述发送端确定所述驱动帧图像的频谱信息;所述发送端将所述驱动帧图像的频谱信息输入预先训练的频段判别网络,得到重建图
像优化频段;所述预先训练的频段判别网络是基于样本人脸图像、样本重建图像、样本人脸图像的频谱信息、样本重建图像的频谱信息训练得到的,所述频段判别网络学习到了重建图像优化效果最佳的频段;所述发送端将所述重建图像优化频段和所述驱动帧图像的频谱信息发送至接收端。5.根据权利要求4所述的语义通信人脸重建优化方法,其特征在于,所述方法还包括:针对每一帧驱动帧重建图像:所述接收端确定驱动帧重建图像的频谱信息,利用所述重建图像优化频段对应的驱动帧图像的频谱信息,对所述驱动帧重建图像的频谱信息对应频段的频谱信息进行替换,得到优化后的频谱信息;所述接收端基于所述优化后的频谱信息得到优化后的驱动帧重建图像。6.根据权利要求2所述的语义通信人脸重建优化方法,其特征在于,所述方法还包括:针对每一帧驱动帧图像:所述发送端确定所述驱动帧图像的频谱信息;所述发送端将所述驱动帧图像的频谱信息输入预先训练的频段判别网络,得到重建图像优化频段;所述预先训练的频段判别网络是基于样本人脸图像、样本重建图像、样本人脸图像的频谱信息、样本重建图像的频谱信息训练得到的,所述频段判别网络学习到了重建图像优化效果最佳的频段;所述发送端将所述重建图像优化频段输入滤波器,得到重建图像优化频谱信息;所述发送端将所述重建图像优化频谱信息和所述重建图像优化频段传输至接收端。7.根据权利要求6所述的语义通信人脸重建优化方法,其特征在于,所述方法还包括:针对每一帧驱动帧重建图像:所述接收端确定驱动帧重建图像的频谱信息,利用所述重建图像优化频谱信息,对所述驱动帧重建图像在重建图像优化频段对应的频谱信息进行替换,得到优化后的频谱信息;所述接收端基于所述优化后的频谱信息得到优化后的驱动帧重建图像。8.根据权利要求1-7任一项所述的语义通信人脸重建优化方法,其特征在于,所述接收端基于接收到的各个驱动帧图像的运动关键点、参考帧图像的运动关键点和参考帧图像的轮廓关键点、以及所述参考帧图像,通过预先训练的语义通信人脸重建网络中的人脸重建子网络,进行图像重建,得到各个驱动帧重建图像,包括:将所述各个驱动帧图像的运动关键点分别和所述参考帧图像的运动关键点进行数学运算,得到各个驱动帧图像对应的关键点变换矩阵;将所述参考帧图像的轮廓关键点过预先定好的顺序连接成二值化的参考帧轮廓图;将所述参考帧图像、所述各个驱动帧图像对应的关键点变换矩阵和所述参考帧轮廓图分别输入到人脸重建子网络中,得到各个驱动帧重建图像。9.一种语义通信人脸重建优化系统,所述语义通信人脸重建优化系统包括发送端、接收端,其特征在于,所述接收端用于:接收发送端发送的各个驱动帧图像的运动关键点、参考帧图像的运动关键点和参考帧图像的轮廓关键点、以及参考帧图像;基于接收到的各个驱动帧图像的运动关键点、参考帧图像的运动关键点和参考帧图像的轮廓关键点、以及所述参考帧图像,通过预先训练的语义通信人脸重建网络中的人脸重建子网络,进行图像重
建,得到各个驱动帧重建图像;所述各个驱动帧图像的运动关键点、参考帧图像的运动关键点和参考帧图像的轮廓关键点是接收端通过语义通信人脸重建网络的关键点提取子网络得到的;其中,所述预先训练的语义通信人脸重建网络,是以样本人脸姿态迁移数据集对预设网络进行端到端训练得到的,所述样本人脸姿态迁移数据集包括多个样本人脸姿态迁移图像序列,每个人脸姿态迁移图像序列包括:样本参考帧图像和多个样本驱动帧图像,训练过程中以所述样本驱动帧图像为训练标签;所述预设网络包括:关键点提取子网络和人脸重建子网络,所述关键点提取子网络用于基于样本参考帧图像和样本驱动帧输出样本参考帧图像的轮廓关键点、样本参考帧图像的运动关键点、驱动帧图像的运动关键点;所述人脸重建子网络用于基于关键点提取子网络输出的样本参考帧图像的轮廓关键点、样本参考帧图像的运动关键点、驱动帧图像的运动关键点和所述样本参考帧得到重建驱动帧图像;所述发送端配置有语义通信人脸重建网络的关键点提取子网络,所述接收端配置有语义通信人脸重建网络的人脸重建子网络。10.根据权利要求9所述的语义通信人脸重建优化系统,其特征在于,所述发送端用于:获取人脸区域图像序列,将第一帧人脸区域图像作为参考帧图像,将其他帧人脸区域图像作为驱动帧图像;将所述人脸区域图像序列输入预先训练的语义通信人脸重建网络中的关键点提取子网络,得到各个驱动帧图像的运动关键点、参考帧图像的运动关键点和参考帧图像的轮廓关键点;将所述各个驱动帧图像的运动关键点、参考帧图像的运动关键点和参考帧图像的轮廓关键点、以及所述参考帧图像发送至所述接收端。
技术总结
本发明提供了一种语义通信人脸重建优化方法、系统,涉及图像处理与计算机视觉技术领域。本发明实施例中,在传输过程中,针对参考帧(第一帧)传输其图像、运动关键点、以及轮廓关键点,针对驱动帧(第一帧后续其他帧)的传输只需要传输运动关键点,传输成本大幅降低,而人脸重建过程中,以参考帧图像的轮廓关键点作为轮廓约束,可以在少量增加传输信息的情况下,提高人脸重建的稳定性和准确度,缓解了生成人脸变形的问题。从而可以在低传输成本的前提下,稳定准确地完成人脸重建。解决了传统语义信息传输方法由于信息少,会导致目标重建效果差,失真的情况的问题。失真的情况的问题。失真的情况的问题。
技术研发人员:程宝平 杜嘉伟 谢小燕 陶晓明 付涛 黄炎
受保护的技术使用者:中移(杭州)信息技术有限公司
技术研发日:2023.08.01
技术公布日:2023/9/6
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
