图像降噪方法、芯片和电子设备与流程
未命名
10-09
阅读:103
评论:0
1.本技术涉及计算机技术,尤其涉及一种图像降噪方法、芯片和电子设备。
背景技术:
2.图像是重要的信息传播媒介,由于环境、传输通道等因素的影响,图像在采集、压缩、传输过程中不可避免地受到噪声的污染,导致图像信息失真和丢失,影响图像传递信息的准确性,可能会对后续的图像处理任务,例如视频处理、图像分析等,产生不利影响。因此,图像降噪在现代图像处理系统中起着重要作用。
3.图像降噪就是去除噪声图像中的噪声,从而恢复真实的图像。然而,由于噪声、边缘和纹理是高频成分,在图像降噪过程中很难将它们区分开来,降噪后的图像不可避免地会丢失一些细节特征。如何解决图像降噪的细节保留问题,提升图像降噪的质量和效果,是一个很重要且有挑战的技术问题。
技术实现要素:
4.本技术提供一种图像降噪方法、芯片和电子设备,用以解决图像降噪的细节保留问题,提升图像降噪的质量和效果。
5.第一方面,本技术提供一种图像降噪方法,包括:
6.获取待降噪的图像帧序列,所述图像帧序列包括多个图像帧;
7.依次将所述图像帧序列中的图像帧作为当前帧,将当前帧和相邻帧输入降噪模型,通过所述降噪模型提取输入的图像帧的不同感受野的特征图;并根据当前帧的边缘特征,将所述不同感受野的特征图按像素点加权融合,得到融合特征,基于所述融合特征进行降噪,得到当前帧降噪后的目标帧;
8.所述多个图像帧降噪后的目标帧构成降噪后的目标图像序列。
9.第二方面,本技术提供一种图像降噪方法,包括:
10.获取图像信号处理器对多个图像帧进行处理的中间处理结果,所述中间处理结果包括处理后的图像帧;
11.依次将所述中间处理结果中的图像帧作为当前帧,将当前帧和相邻帧输入降噪模型,通过所述降噪模型提取输入的图像帧的不同感受野的特征图;并根据当前帧的边缘特征,将所述不同感受野的特征图按像素点加权融合,得到融合特征,基于所述融合特征进行降噪,得到当前帧降噪后的目标帧;
12.将所述目标帧传输至所述图像信号处理,以使所述图像信号处理基于降噪后的目标帧执行后续处理逻辑。
13.第三方面,本技术提供一种芯片,包括:处理模块与通信接口,所述通信接口和所述处理器耦合,所述通信接口用于传输图像数据,所述处理器用于运行程序或指令,实现前述任一方面所述的方法。
14.第四方面,本技术提供一种电子设备,包括:处理器,以及与所述处理器通信连接
的存储器;所述存储器存储计算机执行指令;所述处理器执行所述存储器存储的计算机执行指令,以实现前述任一方面所述的方法。
15.本技术提供的图像降噪方法、芯片和电子设备,应用于对图像帧序列所包含的多个图像帧进行多帧降噪,通过依次将图像帧序列中的图像帧作为当前帧,将当前帧和相邻帧输入降噪模型,通过降噪模型提取输入的图像帧的不同感受野的特征图;并根据当前帧的边缘特征,将不同感受野的特征图按像素点加权融合,得到融合特征,基于融合特征进行降噪,得到当前帧降噪后的目标帧;多个图像帧降噪后的目标帧构成降噪后的目标图像序列。通过基于图像帧的边缘特征,将不同感受野的特征图按像素点加权融合,可以按像素点动态地调整选择不同感受野特征的权重系数,提升融合特征的表达能力和质量,可自适应地对边缘区域和平坦区域进行特征强化和降噪,以恢复更多的纹理视觉信息,使得降噪后的图像帧保留更多的细节信息,提升了降噪模型的表达和学习能力,从而提升图像降噪的质量和效果。
附图说明
16.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本技术的实施例,并与说明书一起用于解释本技术的原理。
17.图1为本技术一示例性实施例提供的图像降噪方法流程图;
18.图2为本技术一示例性实施例提供的srfs算子的一种示例架构图;
19.图3为本技术一示例性实施例提供的降噪模型的一种示例结构图;
20.图4为本技术一示例性实施例提供的图像降噪的系统装置的架构图;
21.图5为本技术一示例性实施例提供的图像降噪方法的流程图;
22.图6为本技术一示例性实施例提供的图像降噪装置的结构示意图;
23.图7为本技术实施例提供的一种电子设备的结构示意图。
24.通过上述附图,已示出本技术明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本技术构思的范围,而是通过参考特定实施例为本领域技术人员说明本技术的概念。
具体实施方式
25.这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本技术相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本技术的一些方面相一致的装置和方法的例子。
26.首先对本技术所涉及的名词进行解释:
27.视觉问答任务:根据输入的图像和问题,从输入图像的视觉信息中确定问题的答案。
28.图像描述任务:生成输入图像的描述文本。
29.视觉蕴涵任务:预测输入图像和文本在语义上的相关性,即蕴涵、中性或矛盾。
30.指代表达与理解任务:根据输入文本定位输入图像中与输入文本对应的图像区域。
31.图像生成任务:基于输入的描述文本生成图像。
32.基于文本的情感分类任务:预测输入文本的情感分类信息。
33.文本摘要任务:生成输入文本的摘要信息。
34.多模态任务:是指输入输出数据涉及图像和文本等多种模态数据的下游任务,例如视觉问答任务、图像描述任务、视觉蕴涵任务、指代表达与理解任务、图像生成任务等。
35.多模态预训练模型:是指输入输出数据涉及图像和文本等多种模态数据的预训练模型,经过微调训练后可以应用于多模态任务处理。
36.预训练语言模型:对大规模语言模型(large language model,简称llm)进行预训练后得到的预训练模型。
37.大模型是指具有大规模模型参数的深度学习模型,通常包含上亿、上百亿、甚至上千亿的模型参数。大模型又可以称为基石模型/基础模型(foundation model),通过大规模无标注的语料进行大模型的预训练,产出亿级以上参数的预训练模型,这种模型能适应广泛的下游任务,模型具有较好的泛化能力,例如大规模语言模型(large language model,llm)、多模态预训练模型(multi-modal pre-training model)等。
38.大模型在实际应用时,仅需少量样本对预训练模型进行微调即可应用于不同的任务中,大模型可以广泛应用于自然语言处理(natural language processing,简称nlp)、计算机视觉等领域,具体可以应用于如视觉问答(visual question answering,简称vqa)、图像描述(image caption,简称ic)、图像生成等计算机视觉领域任务,以及基于文本的情感分类、文本摘要生成、机器翻译等自然语言处理领域任务,大模型主要的应用场景包括数字助理、智能机器人、搜索、在线教育、办公软件、电子商务、智能设计等。
39.图像降噪就是去除噪声图像中的噪声,从而恢复真实的图像。然而,由于噪声、边缘和纹理是高频成分,在图像降噪过程中很难将它们区分开来,降噪后的图像不可避免地会丢失一些细节特征。基于深度学习的多帧降噪方法因其优越的表现越来越多的应用到图像处理中。但受制于硬件能力,小算力的降噪模型很难发挥出其降噪效果。而有些降噪的大模型算力很大,对硬件能力要求很高,硬件不友好。如何降低算力,同时提升降噪模型的表达和学习能力,解决图像降噪的细节保留问题,提升图像降噪的质量和效果,是一个很重要且有挑战的技术问题。
40.本技术提供一种图像降噪方法,应用于将连续采集的图像帧序列中的多个图像帧进行降噪,以获取降噪后的目标图像序列。具体地,通过依次将图像帧序列中的图像帧作为当前帧,将当前帧和相邻帧输入降噪模型,通过降噪模型提取输入的图像帧的不同感受野的特征图;并根据当前帧的边缘特征,将不同感受野的特征图按像素点加权融合,得到融合特征,基于融合特征进行降噪,得到当前帧降噪后的目标帧;多个图像帧降噪后的目标帧构成降噪后的目标图像序列。
41.本技术的方法,考虑到图像帧中平坦区域由连续不变的像素组成,提取的大感受野的特征图可以从不规则的噪声覆盖中恢复更多的原始视觉值;具有较小感受野的特征图更多地保留了边缘区域的详细纹理信息,而基于图像帧的边缘特征可以识别图像帧中的边缘区域和平坦区域,基于特征图中像素点对应于图像帧中的边缘区域/平坦区域,将不同感受野的特征图按像素点加权融合,可以按像素点动态地调整选择不同感受野特征的权重系数,提升融合特征的表达能力和质量,可自适应地对边缘区域和平坦区域进行特征强化和
降噪,以恢复更多的纹理视觉信息,使得降噪后的图像帧保留更多的细节信息,提升了降噪模型的表达和学习能力,从而提升图像降噪的质量和效果。
42.本方案的执行主体可以是具有网络通信功能、图像的运算功能的电子设备,具体可以是部署在云端的服务器、本地部署的服务器、台式电脑、智能手机、平板电脑、相机等,电子设备可以与图像采集装置、图像处理装置/模块等连接,对图像采集装置采集的原始图像、或图像处理装置/模块进行图像处理之后的图像,进行降噪处理,以获取降噪后的图像。基于具体地应用场景,电子设备还可以对降噪后的图像进行后处理,或者将降噪后的图像传输至其他设备,由其他设备基于降噪后的处理图像实现具体的功能/服务。对于待降噪的图像,以及降噪后目标图像的具体使用场景,本实施例此处不做具体限定。
43.本技术提供的降噪方法,可以应用于对连续的多帧图像进行多帧降噪的场景中,具体可以应用于视觉语音融合场景下图像降噪,例如视频会议、刷脸支付、基于人脸识别的考勤等,还可以应用于自动驾驶、视频直播等场景中。
44.下面以具体地实施例对本技术的技术方案以及本技术的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本技术的实施例进行描述。
45.图1为本技术一示例性实施例提供的图像降噪方法流程图。如图1所示,该方法具体步骤如下:
46.步骤s101、获取待降噪的图像帧序列,图像帧序列包括多个图像帧。
47.本实施例中,待降噪的图像帧序列可以是图像采集装置采集的多帧原始图像,也可以是经过图像处理装置处理后的多帧图像。
48.示例性地,在视频会议场景中,待降噪的图像帧序列可以是视频会议的摄像装置等采集的视频流,该视频流是由多个视频帧按照采集的先后顺序排列形成的序列。通过对视频流包含的视频帧进行多帧降噪,可以提升视频流的质量和显示效果。
49.示例性地,在刷脸支付场景中,待降噪的图像帧序列可以包括摄像装置采集的多帧包含人面部的图像,通过对多帧面部图像进行降噪,基于降噪后的图像识别用户身份,并完成用户身份验证。
50.示例性地,在自动驾驶领域,待降噪的图像帧序列可以是自动驾驶车辆上的图像采集装置连续采集的前方道路的图像,通过前方道路的图像进行多帧降噪,基于降噪后的图像可以更精准地分析路况、是否有行人等,为自动驾驶车辆做出自动驾驶决策提供准确地数据基础。
51.可选地,待降噪的图像帧序列可以存储在静态随机存取存储器(static random access memory,简称sram)中。在实现图像多帧降噪时,从静态随机存取存储器sram中获待降噪当前帧以及当前帧的相邻帧,输入降噪模型进行降噪处理,得到当前帧降噪后的目标帧。
52.可选地,在获取待降噪的图像帧之后,还可以对图像帧进行预处理。示例性地,对图像帧的预处理,可以包括对待降噪的图像帧进行格式归一化。
53.例如,对于图像帧中的raw数据,对于其中的rggb(r)格式的数据,从初始位置(0,0)开始采样,每间隔1个像素点采样一个像素点;对于其中的bggr(b)格式的数据,从初始位置(1,1)开始采样,每间隔1个像素点采样一个像素点;对于其中的grbg(gr)格式的数据,从
初始位置(0,1)开始采样,每间隔1个像素点采样一个像素点;对于其中的gbrg(gb)格式的数据,从初始位置(1,0)开始采样,每间隔1个像素点采样一个像素点;得到分辨率减半的r、gr、gb、b格式的数据,并列组合为4通道的输入数据。另外,对于rgb格式的图像帧,则无需进行格式归一化处理。
54.另外,还可以配置对图像帧执行其他的预处理,需要做哪些预处理具体可以根据实际应用场景进行配置,此处不做具体限定。
55.步骤s102、依次将图像帧序列中的图像帧作为当前帧,将当前帧和相邻帧输入降噪模型,通过降噪模型提取输入的图像帧的不同感受野的特征图;并根据当前帧的边缘特征,将不同感受野的特征图按像素点加权融合,得到融合特征,基于融合特征进行降噪,得到当前帧降噪后的目标帧。
56.本实施例中,利用降噪模型依次对图像帧序列中的各个图像帧进行降噪处理,得到各图像帧降噪后的目标帧,实现多帧降噪。
57.具体地,依次对图像帧序列中的各个图像帧作为当前帧,通过如下方式对当前帧进行降噪处理:获取当前帧在图像帧序列中的相邻帧,将当前帧和相邻帧一起输入降噪模型;通过降噪模型将输入的当前帧和相邻帧融合,提取融合结果的不同感受野的特征图;获取当前帧的边缘特征,将不同感受野的特征图按像素点加权融合,得到融合特征,基于融合特征进行降噪,得到当前帧降噪后的目标帧。
58.其中,对于图像帧序列中的第一帧,其相邻帧仅包含第二帧,也即第一帧的下一帧。对于图像帧序列中的最后一帧,其相邻帧仅包含最后一帧的上一帧。对于图像帧序列中的中间帧(除第一帧和最后一帧之外的帧),其相邻帧包含该中间帧的上一帧和下一帧。
59.在将输入的当前帧和相邻帧融合时,可以将当前帧和相邻帧在通道维度串联(拼接)。进一步地,提取融合结果的不同感受野的特征图时,可以通过用于特征提取的卷积块(conv-block)提取融合结果的至少一个尺寸(像素大小)的特征图,再通过空洞卷积对特征图进行处理,以改变特征图的感受野,从而得到至少一组具有不同感受野的特征图。可以将各组内的两个不同感受野的特征图,按像素点加权融合,得到融合特征。
60.其中,各像素点上选择不同感受野的特征的权重系数,根据当前帧的边缘特征确定。基于当前帧的边缘特征,可以识别视频帧中的边缘区域和平坦区域。考虑到视频帧中平坦区域由连续不变的像素组成,提取的大感受野的特征图可以从不规则的噪声覆盖中恢复更多的原始视觉值;具有较小感受野的特征图更多地保留了边缘区域的详细纹理信息。本实施例中,基于当前帧的边缘特征,可以识别视频帧中的边缘区域和平坦区域,也即可以确定特征图中像素点对应于视频帧中的边缘区域/平坦区域。基于当前帧的边缘特征,确定各像素点的不同感受野的权重系数,使得边缘区域的像素点更多地选择保留小感受野的特征,而平坦区域的像素点更多地选择保留大感受野的特征,自适应地对边缘区域和平坦区域进行特征强化,提升了融合特征的表达能力和质量,可自适应地对边缘区域和平坦区域的噪声进行去噪,以恢复更多的纹理视觉信息,使得降噪后的图像帧保留更多的细节信息,从而提升图像降噪的质量和效果。
61.步骤s103、基于多个图像帧降噪后的目标帧,生成降噪后的目标图像序列。
62.在得到各个图像帧降噪后的目标帧之后,按照图像帧序列中图像帧的排列顺序,将各个图像帧降噪后的目标帧排序,构成降噪后的目标图像序列。
63.进一步地,在获取到降噪后的目标图像序列之后,可以基于降噪后的目标图像序列,执行后处理,以完成具体应用场景的任务/功能。
64.在一示例场景中,在获取到降噪后的目标图像序列之后,可以将目标图像序列发送至服务器。例如,在视频直播场景中,主播用户端设备在对采集的视频流进行降噪后,将降噪后的视频流(目标图像序列)推流至服务器。在视频流传输过程中可能会引入新的噪声。
65.在一示例场景中,在获取到降噪后的目标图像序列之后,可以将目标图像序列发送至用户端设备。例如,在视频直播场景中,主播用户端向服务器推流的视频流,在传输过程中可能会引入新的噪声。服务器可以对接收到的视频流进行降噪处理,在获取到降噪后的目标视频流(目标图像序列)之后,将降噪后的目标视频流拉流至观看直播的用户端设备。
66.在一示例性场景中,在获取到降噪后的目标图像序列之后,还可以根据预先设置的适配处理逻辑,对目标图像序列进行视频处理,并向端侧设备发送视频处理结果。其中,对目标图像序列进行视频处理包括但不限于:插帧、减帧、图像增强、增加特效、剪辑、加字幕、片段合并。
67.例如,在视频直播场景中,服务器可以对接收到的视频流进行降噪处理,获取到降噪后的目标视频流(目标图像序列)之后,可以根据预设直播帧率、视频长度等信息,对目标视频流进行插帧或采样减帧等视频处理,将视频处理后的视频流拉流至观看直播的用户端设备。
68.在一示例性场景中,在获取到降噪后的目标图像序列之后,还可以对目标图像序列进行图像分析,并向端侧设备发送图像分析结果。其中,对目标图像序列进行图像分析,包括但不限于:基于内容的图像检索、表情识别、面部识别、光学字符识别(ocr)、对象提取、图像分割、目标检测。
69.例如,在视频直播场景中,视频流中可能包含不符合播放规范的内容,在获取到降噪后的目标视频流,服务器可以对目标视频流中的视频帧进行图像分析,以确定包含不符合播放规范的内容的视频帧,将包含不符合播放规范的内容的视频帧从目标视频流中删除,将删除部分视频帧之后的视频流拉流至观看直播的用户端设备。
70.本实施例的方法,通过依次将图像帧序列中的图像帧作为当前帧,将当前帧和相邻帧输入降噪模型,通过降噪模型提取输入的图像帧的不同感受野的特征图;并根据当前帧的边缘特征,将不同感受野的特征图按像素点加权融合,得到融合特征,基于融合特征进行降噪,得到当前帧降噪后的目标帧;多个图像帧降噪后的目标帧构成降噪后的目标图像序列。通过基于图像帧的边缘特征,将不同感受野的特征图按像素点加权融合,可以按像素点动态地调整选择不同感受野特征的权重系数,提升融合特征的表达能力和质量,可自适应地对边缘区域和平坦区域进行特征强化和降噪,以恢复更多的纹理视觉信息,使得降噪后的图像帧保留更多的细节信息,提升了降噪模型的表达和学习能力,从而提升图像降噪的质量和效果。
71.本实施例中,降噪模型包括去噪网络和重建网络。其中,去噪网络用于将输入的图像帧与预设的噪声水平特征融合并降低分辨率后,进行去噪处理,得到下一帧的去噪特征。具体地,可以通过对融合结果进行降采样,来降低融合结果的分辨率。通过去噪网络降低图
像分辨率,可以减少降噪模型的算力和存储成本,从而提升降图像降噪的性能。其中,预设的噪声水平是通过模型训练确定的。
72.重建网络用于将输入的图像帧与输入图像帧的去噪特征融合后,进行重建处理,得到当前帧降噪后的目标帧。通过重建网络架构输入的图像帧与输入图像帧的去噪特征融合,将图像分辨率恢复至图像帧原有的分辨率,以便于进行重建处理,获得降噪后的目标帧。
73.在实现前述步骤s102时,通过去噪网络,将输入的当前帧和相邻帧与噪声水平特征融合,得到融合结果;降低融合结果的分辨率,得到具有较低分辨率的融合结果;提取降低分辨率后的融合结果的不同感受野的第一特征图;根据当前帧的边缘特征,将不同感受野的第一特征图按像素点加权融合,得到第一融合特征;基于第一融合特征完成去噪处理,得到下一帧的去噪特征。
74.具体地,可以将输入的当前帧和相邻帧与噪声水平特征在通道维度串联(拼接),实现输入的当前帧和相邻帧与噪声水平特征的融合,得到融合结果。
75.具体地,根据当前帧的边缘特征,将不同感受野的第一特征图按像素点加权融合,得到第一融合特征,具体可以采用如下方式实现:
76.提取当前帧的边缘特征,当前帧的边缘特征与第一特征图具有对应的像素点;根据当前帧的边缘特征,确定第一特征图中各像素点对应的不同感受野的权重系数;根据第一特征图中各像素点对应的不同感受野的权重系数,将不同感受野的第一特征图按像素点加权求和,得到第一融合特征。
77.示例性地,提取当前帧的边缘特征,具体可以采用如下方式实现:
78.提取当前帧的高频信息,根据第一特征图的像素大小,对当前帧的高频信息进行重采样,得到与第一特征图具有对应的像素点的边缘特征,作为当前帧的边缘特征。
79.在实现提取当前帧的高频信息时,可以对当前帧进行模糊处理,得到当前帧对应的模糊图像;计算当前帧与模糊图像的差值,得到当前帧的高频分量;计算高频分量的平方,作为当前帧的高频信息。
80.可选地,可以对当前帧进行高斯模糊、或者使用滤波器对当前帧进行滤波,得到当前帧对应的模糊图像。另外,本实施例中还可以采用现有技术中任意一种其他方式获取图像帧的高频分量,计算高频分量的平方得到图像帧的高频信息。
81.进一步地,根据当前帧的边缘特征,确定第一特征图中各像素点对应的不同感受野的权重系数,具体可以采用如下方式实现:
82.根据当前帧的边缘特征,对当前帧的边缘特征中各像素点的特征值进行归一化处理,得到各像素点对应的第一感受野的权重系数;根据各像素点对应的第一感受野的权重系数,确定各像素点对应的第二感受野的权重系数,第二感受野的权重系数与第一感受野的权重系数之和等于1。
83.其中,第一特征图包括两个不同感受野的特征图,第一感受野为第一特征图的最小感受野,第二感受野为第一特征图的最大感受野。
84.可选地,在对当前帧的边缘特征中各像素点的特征值进行归一化处理时,可以使用限制最大输出值的卷积-激活(conv-relu)网络,将当前帧的边缘特征中各像素点的特征值映射为小于该最大输入值的特征值,得到各像素点的特征映射值,计算各像素点的特征
映射值与该最大输入值的比值,该比值的取值范围为[0,1]。将各像素点的特征映射值与该最大输入值的比值,作为各像素点对应的第一感受野(较小感受野)的权重系数。任一像素点对应的第二感受野(较大感受野)的权重系数为:1减去像素点对应的第一感受野的权重系数。其中可以选择使用最大输入值为6的卷积-激活网络,还可以选择最大输入值为其他值的卷积-激活网络,具体可以根据实际应用场景和经验值选择,此处不做具体限定。
[0085]
可选地,在对当前帧的边缘特征中各像素点的特征值进行归一化处理时,可以使用不限制最大输出值的卷积-激活网络,对当前帧的边缘特征中各像素点的特征值做映射处理,得到各像素点的第一特征映射值。进一步地,使用限制最大输出值的卷积-激活网络,将当前帧的边缘特征中各像素点的特征值映射为小于该最大输入值的值,得到各像素点的第二特征映射值,计算各像素点的第二特征映射值与该最大输入值的比值,该比值的取值范围为[0,1]。将各像素点的第二特征映射值与该最大输入值的比值,作为各像素点对应的第一感受野(较小感受野)的权重系数。任一像素点对应的第二感受野(较大感受野)的权重系数为:1减去像素点对应的第一感受野的权重系数。其中可以选择使用最大输入值为6的卷积-激活网络,还可以选择最大输入值为其他值的卷积-激活网络,具体可以根据实际应用场景和经验值选择,此处不做具体限定。
[0086]
在实现前述步骤s102时,通过重建网络,将输入的当前帧和相邻帧,以及当前帧和相邻帧的去噪特征融合,提取融合结果的不同感受野的第二特征图;根据当前帧的去噪特征的边缘特征,将不同感受野的第二特征图按像素点加权融合,得到第二融合特征;基于第二融合特征完成重建处理,得到当前帧降噪后的目标帧。
[0087]
具体地,可以输入的当前帧和相邻帧,以及当前帧和相邻帧的去噪特征在通道维度串联(拼接),实现输入的当前帧和相邻帧,以及当前帧和相邻帧的去噪特征的融合,得到融合结果。
[0088]
具体地,根据当前帧的去噪特征的边缘特征,将不同感受野的第二特征图按像素点加权融合,得到第二融合特征,具体可以采用如下方式实现:
[0089]
提取当前帧的去噪特征的边缘特征,当前帧的去噪特征的边缘特征与第二特征图具有对应的像素点;根据当前帧的去噪特征的边缘特征,确定第二特征图中各像素点对应的不同感受野的权重系数;根据第二特征图中各像素点对应的不同感受野的权重系数,将不同感受野的第二特征图按像素点加权求和,得到第二融合特征。
[0090]
示例性地,提取当前帧的去噪特征的边缘特征,具体可以采用如下方式实现:
[0091]
提取当前帧的去噪特征的高频信息,根据第二特征图的像素大小,对当前帧的去噪特征的高频信息进行重采样,得到与第二特征图具有对应的像素点的边缘特征,作为当前帧的去噪特征的边缘特征。
[0092]
在实现提取当前帧的去噪特征的高频信息时,可以对当前帧的去噪特征进行模糊处理,得到当前帧的去噪特征对应的模糊图像;计算当前帧的去噪特征与对应模糊图像的差值,得到当前帧的去噪特征的高频分量;计算当前帧的去噪特征的高频分量的平方,作为当前帧的去噪特征的高频信息。
[0093]
可选地,可以对当前帧的去噪特征进行高斯模糊、或者使用滤波器对当前帧的去噪特征进行滤波,得到当前帧的去噪特征对应的模糊图像。另外,本实施例中还可以采用现有技术中任意一种其他方式获取当前帧的去噪特征的高频分量,再计算当前帧的去噪特征
的高频分量的平方得到当前帧的去噪特征的高频信息。
[0094]
进一步地,根据当前帧的去噪特征的边缘特征,确定第二特征图中各像素点对应的不同感受野的权重系数,具体可以采用如下方式实现:
[0095]
根据当前帧的去噪特征的边缘特征,对当前帧的去噪特征的边缘特征中各像素点的特征值进行归一化处理,得到各像素点对应的第三感受野的权重系数;根据各像素点对应的第三感受野的权重系数,确定各像素点对应的第四感受野的权重系数,第四感受野的权重系数与第三感受野的权重系数之和等于1。
[0096]
其中,第二特征图包括两个不同感受野的特征图,第三感受野为第二特征图的最小感受野,第四感受野为第二特征图的最大感受野。
[0097]
可选地,在对当前帧的去噪特征的边缘特征中各像素点的特征值进行归一化处理时,可以使用限制最大输出值的卷积-激活网络,将当前帧的去噪特征的边缘特征中各像素点的特征值映射为小于该最大输入值的特征值,得到各像素点的特征映射值,计算各像素点的特征映射值与该最大输入值的比值,该比值的取值范围为[0,1]。将各像素点的特征映射值与该最大输入值的比值,作为各像素点对应的第三感受野(较小感受野)的权重系数。任一像素点对应的第四感受野(较大感受野)的权重系数为:1减去像素点对应的第三感受野的权重系数。其中可以选择使用最大输入值为6的卷积-激活网络,还可以选择最大输入值为其他值的卷积-激活网络,具体可以根据实际应用场景和经验值选择,此处不做具体限定。
[0098]
可选地,在对当前帧的去噪特征的边缘特征中各像素点的特征值进行归一化处理时,可以使用不限制最大输出值的卷积-激活网络,对当前帧的去噪特征的边缘特征中各像素点的特征值做映射处理,得到各像素点的第三特征映射值。进一步地,使用限制最大输出值的卷积-激活网络,将当前帧的边缘特征中各像素点的第三特征映射值映射为小于该最大输入值的值,得到各像素点的第四特征映射值,计算各像素点的第四特征映射值与该最大输入值的比值,该比值的取值范围为[0,1]。将各像素点的第四特征映射值与该最大输入值的比值,作为各像素点对应的第三感受野(较小感受野)的权重系数。任一像素点对应的第四感受野(较大感受野)的权重系数为:1减去像素点对应的第三感受野的权重系数。其中可以选择使用最大输入值为6的卷积-激活网络,还可以选择最大输入值为其他值的卷积-激活网络,具体可以根据实际应用场景和经验值选择,此处不做具体限定。
[0099]
本实施例提供一种软感受野选择(soft receptive field switcher,简称srfs)算子,该srfs算子用于根据输入的边缘特征,将不同感受野的特征图按像素点加权融合得到融合特征。
[0100]
图2为本实施例提供的srfs算子的一种示例架构图。如图2所示,f
k-c
表示输入srfs算子的具有较小感受野的特征图,fc(f
k-c
)表示输入srfs算子的具有较大感受野的特征图,fc(f
k-c
)可以使用空洞系数大于1的空洞卷积对f
k-c
进行处理得到。conv-relu表示不限制最大输出值的卷积-激活网络,conv-relu6表示限制最大输出值为6的卷积-激活网络。conv-relu6/6表示将conv-relu6的输出值除以6,得到的值的取值范围为[0,1],作为像素点的较小感受野的权重系数(用α表示)。像素点的较大感受野的权重系数则为1-α。用x指代任意位置的像素点,对于输入特征图中的同一位置的像素点,根据该像素点的较小感受野的权重系数α和较大感受野的权重系数1-α,对该像素点在较小感受野的特征图f
k-c
的特征值和较
大感受野的特征图fc(f
k-c
)的特征值加权求和,得到该像素点的融合特征。由此可以将两个不同感受野的特征图融合,得到融合特征图,可以表示为fk。
[0101]
需要说明的是,图2中srfs算子使用不限制最大输出值的卷积-激活网络,和限制最大输出值为6的卷积-激活网络,实现对输入的边缘特征中各像素点的特征值的归一化处理,来获取输入特征图中各像素点对应的不同感受野的权重系数,这里仅以这种方式为例进行示例性地说明。在其他可选实施方式中,srfs算子还可以仅使用限制最大输出值为6的卷积-激活网络,实现对输入的边缘特征中各像素点的特征值的归一化处理,来获取输入特征图中各像素点对应的不同感受野的权重系数;或者,还可以使用限制最大输出值为其他值(不等于6)的卷积-激活网络,实现对输入的边缘特征中各像素点的特征值的归一化处理,来获取输入特征图中各像素点对应的不同感受野的权重系数;或者,还可以使用不限制最大输出值的卷积-激活网络,和限制最大输出值为其他值(不等于6)的卷积-激活网络,实现对输入的边缘特征中各像素点的特征值的归一化处理,来获取输入特征图中各像素点对应的不同感受野的权重系数,此处不做具体限定。
[0102]
基于上述srfs算子,在实现根据当前帧的边缘特征,将不同感受野的第一特征图按像素点加权融合,得到第一融合特征时,将较小感受野的第一特征图作为f
k-c
,较大感受野的第一特征图作为fc(f
k-c
),输入srfs算子,并将当前帧的边缘特征输入srfs算子,通过srfs算子即可计算并输出融合后的第一融合特征。
[0103]
基于上述srfs算子,在实现根据当前帧的去噪特征的边缘特征,将不同感受野的第二特征图按像素点加权融合,得到第二融合特征时,将较小感受野的第二特征图作为f
k-c
,较大感受野的第二特征图作为fc(f
k-c
),输入srfs算子,并将当前帧的去噪特征的边缘特征输入srfs算子,通过srfs算子即可计算并输出融合后的第二融合特征。
[0104]
本实施例提供一种基于上述srfs算子的降噪模型的示例。图3为本实施例提供的降噪模型的一种示例结构图。如图3所示,降噪模型包括左半部分的去噪网络和右半部分的重建网络。
[0105]
去噪网络的去噪处理阶段:
[0106]
将当前帧x
t
、相邻帧(包括上一帧x
t-1
、下一帧x
t+1
)和噪声水平(是一特征图)输入去噪网络。通过去噪网络将输入的当前帧x
t
、相邻帧和噪声水平在通道维度串联(拼接)后的融合结果输入投影层,通过投影层将融合结果映射为第一张量。对第一张量进行第一次降采样,以降低张量(图像)的分辨率,得到第二张量。通过卷积块c1对第二张量进行特征提取后降采样,得到具有感受野r1的特征图m1,特征图m1的像素大小记为w1*h1。通过卷积块c2对特征图m1进行特征提取后降采样,进一步增大感受野并降低分辨率,得到具有感受野r2特征图m2,特征图m2的像素大小记为w2*h2。通过卷积块c3对特征图m2进行特征提取,进一步增大感受野,得到具有感受野r3特征图m3,特征图m3的像素大小仍为w2*h2。其中,r1<r2<r3。
[0107]
同时,提取当前帧x
t
的高频信息,并根据特征图m2和m3的像素大小w2*h2,对当前帧的高频信息进行重采样,得到像素大小为w2*h2的边缘特征,作为当前帧x
t
的边缘特征。
[0108]
进一步地,将具有较小感受野的特征图m2作为f
k-c
,将具有较大感受野的特征图m3作为fc(f
k-c
),与当前帧x
t
的边缘特征,一起输入srfs算子(如图3中所示的a)中,通过该srfs算子将不同感受野的特征图m2和m3按像素点融合,得到融合特征f
k1
。
[0109]
对融合特征f
k1
升采样为像素大小为w1*h1的第三张量后,输入卷积块c4进行特征提取,进一步增大感受野,得到具有感受野r4特征图m4,特征图m4的像素大小为w1*h1。其中,r1<r2<r3<r4。
[0110]
进一步地,将具有较小感受野的特征图m1作为f
k-c
,将具有较大感受野的特征图m4作为fc(f
k-c
),与当前帧x
t
的边缘特征,一起输入srfs算子(如图3中所示的b)中,通过该srfs算子将不同感受野的特征图m1和m4按像素点融合,得到融合特征f
k2
。
[0111]
对融合特征f
k2
升采样后得到第四张量,第四张量的像素大小与前述第二张量(经第一次降采样后得到)的像素大小一致。将第四张量输入卷积块c5进行特征提取,并通过投影层投影后,升采样为与原始图像帧(如x
t
)像素大小一致(记为w0*h0)的第五张量,将第五张量作为下一帧x
t+1
的去噪特征,记为f
t+1
。相应地,当前帧x
t
的去噪特征记为f
t
,上一帧x
t-1
的去噪特征记为f
t-1
。
[0112]
需要说明的是,对于第一帧的去噪特征,可以设置为全0的特征值。其余各个图像帧的去噪特征,可以通过前述去噪网络的去噪处理阶段获得。
[0113]
重建网络的重建处理阶段:
[0114]
将当前帧x
t
、相邻帧(包括上一帧x
t-1
、下一帧x
t+1
),以及当前帧和相邻帧的去噪特征f
t
、f
t-1
、f
t+1
,输入重建网络。通过重建网络将输入的当前帧x
t
、相邻帧,以及当前帧和相邻帧的去噪特征f
t
、f
t-1
、f
t+1
,在通道维度串联(拼接)后的融合结果输入投影层,通过投影层将融合结果映射为第六张量,第六张量作为感受野为r5的特征图m5,特征图m5与原始图像帧(如x
t
)像素大小一致,记为w0*h0。通过卷积块c6对第六张量进行特征提取后降采样,得到具有感受野r6的特征图m6,特征图m6的像素大小记为w4*h4。通过卷积块c7对特征图m6进行特征提取后降采样,得到具有感受野r7的特征图m7,特征图m7的像素大小记为w5*h5。其中,r5<r6<r7。通过卷积块c8对特征图m7进行特征提取,进一步增大感受野,得到具有感受野r8特征图m8,特征图m8的像素大小仍为w5*h5。其中,r5<r6<r7<r8。
[0115]
同时,提取当前帧x
t
的去噪特征f
t
的高频信息,并根据特征图m7和m8的像素大小w5*h5,对当前帧x
t
的去噪特征f
t
的高频信息进行重采样,得到像素大小为w5*h5的边缘特征,作为当前帧x
t
的去噪特征f
t
的边缘特征。
[0116]
进一步地,将具有较小感受野的特征图m7作为f
k-c
,将具有较大感受野的特征图m8作为fc(f
k-c
),与当前帧x
t
的去噪特征f
t
的边缘特征,一起输入srfs算子(如图3中所示的c)中,通过该srfs算子将不同感受野的特征图m7和m8按像素点融合,得到融合特征f
k3
。
[0117]
对融合特征f
k3
升采样为像素大小为w4*h4的第七张量后,输入卷积块c9进行特征提取,进一步增大感受野,得到具有感受野r9特征图m9,特征图m9的像素大小为w4*h4。其中,r5<r6<r7<r8<r9。
[0118]
进一步地,将具有较小感受野的特征图m6作为f
k-c
,将具有较大感受野的特征图m9作为fc(f
k-c
),与当前帧x
t
的去噪特征f
t
的边缘特征,一起输入srfs算子(如图3中所示的d)中,通过该srfs算子将不同感受野的特征图m6和m9按像素点融合,得到融合特征f
k4
。
[0119]
对融合特征f
k4
升采样为像素大小为w0*h0的第八张量后,输入卷积块c10进行特征提取,进一步增大感受野,得到具有感受野r10特征图m10,特征图m10的像素大小为w0*h0。其中,r5<r6<r7<r8<r9<r10。
[0120]
进一步地,将具有较小感受野的特征图m5作为f
k-c
,将具有较大感受野的特征图
m10作为fc(f
k-c
),与当前帧x
t
的去噪特征f
t
的边缘特征,一起输入srfs算子(如图3中所示的e)中,通过该srfs算子将不同感受野的特征图m5和m10按像素点融合,得到融合特征f
k5
。将融合特征f
k5
通过投影层映射为重建后的图像,得到当前帧x
t
降噪后的目标帧o
t
。
[0121]
需要说明的是,图3仅为降噪模型的一种示例架构,在图3所示降噪模型的基础上,可以增加或减少去噪网络中降采样和升采样、卷积块的数量,其中降采样和升采样是成对设置的,相邻两次降采样之间设置至少一个卷积块,相邻两次升采样之间也设置至少一个卷积块。随着降采样和升采样、卷积块的数量的变化,使用srfs算子的数量也可以相应调整。对于成对的降采样和升采样,通过srfs算子将降采样后的特征图与升采样前的特征图进行融合,对融合特征进行升采样及后续处理。同理,也可以增加或减少重建网络中降采样和升采样、卷积块的数量,实现方式与去噪网络类似,此处不再赘述。
[0122]
另外,图3中示出了降噪模型结构中各个部分的标记(如卷积块的标记)。特征图、去噪特征、感受野大小、像素大小等标记仅为区分不同的特征图和去噪特征和方便解释说明,未在图3中进行标记。
[0123]
基于降噪模型的图像降噪过程,包括去噪网络的第一个阶段,以及重建网络的第二个阶段。第一个阶段侧重于去噪,为了节约算力和存储,对第一个阶段的输入降分辨率后进行去噪学习。第二阶段侧重于重建,对第一个阶段输出的下一帧的去噪特征上采样至原分辨率后,从已存储从去噪特征中获取上2帧(前一帧和当前帧)的一阶段特征(去噪特征),与上一帧和下一帧共同输入第二阶段网络进行融合,基于融合特征进行重建得到当前帧的降噪后的目标帧。
[0124]
本实施例提供一种基于srfs算子的降噪模型的示例,包括去噪网络和重建网络,去噪网络和重建网络中均使用srfs算子,将不同感受野的特征图按像素点加权融合,基于融合特征进行去噪和重建处理,基于特征图中像素点对应于图像帧中的边缘区域/平坦区域,将不同感受野的特征图按像素点加权融合,可以按像素点动态地调整选择不同感受野特征的权重系数,提升融合特征的表达能力和质量,可自适应地对边缘区域和平坦区域进行特征强化和降噪,以恢复更多的纹理视觉信息,使得降噪后的图像帧保留更多的细节信息,提升了降噪模型的表达和学习能力,从而提升图像降噪的质量和效果。
[0125]
前述任一实施例提供的降噪模型,在对降噪模型进行训练时,对降噪模型可进行两个阶段的训练。其中一个训练阶段中,固定重建网络的参数,训练去噪网络的参数。该训练阶段中可以使用l1损失函数进行参数的优化,或者可以采用其他类似的损失函数,此处不做具体限定。另一个训练阶段中,固定去噪网络的参数,训练重建网络的参数。该训练阶段中可以使用基于l1范数的charbonnier损失函数进行参数的优化,另外该阶段还可以使用其他类似的损失函数,此处不做具体限定。
[0126]
在前述任一实施例的基础上,于一可选实施例中,通过去噪网络得到各图像帧的去噪特征之后,存储各图像帧的去噪特征。在需要向重建网络输入去噪特征时,获取已存储的上一帧和当前帧的去噪特征,将上一帧和当前帧的去噪特征,去噪网络输出的下一帧的去噪特征,以及当前帧和相邻帧,输入重建网络。
[0127]
示例性地,可以将各帧的去噪特征存储到随机存取存储器(random access memory,简称ram),以加速去噪特征的读取速度,提升降噪的性能。后续将重建网络输入去噪特征时,从随机存取存储器中读取上一帧和当前帧的去噪特征,并输入重建网络。
[0128]
例如,可以将各帧的去噪特征实时存储到动态随机存取存储器(dynamic randomaccess memory,简称dram)中,动态随机存取存储器dram存储的最新两帧(上一帧和当前帧)的去噪特征送入静态随机存取存储器(static random access memory,简称sram)中等待处理。后续将重建网络输入去噪特征时,从静态随机存取存储器sram中读取上一帧和当前帧的去噪特征,并输入重建网络。
[0129]
图4为本技术一示例性实施例提供的图像降噪的系统装置的架构图,如图4所示,该系统装置包括降噪模型、ai(人工智能)引擎、预处理模块、后处理模块、动态随机存取存储器dram、静态随机存取存储器sram、图像信号处理器(image signal processor,简称isp)和应用处理器(application processor,简称ap)。其中,图像信号处理器isp主要用于数字相机、智能手机和监控摄像头等图像处理应用。它是专门用于图像处理,能够处理从图像传感器捕捉到的图像信号,包括图像去噪、色彩校正、图像压缩等功能。isp基于应用层需求进行图像处理过程中,将需要进行图像降噪的图像处理的中间结果(即待降噪的图像帧)传输至静态随机存取存储器sram中。静态随机存取存储器sram还用于存储降噪模型产生的图像帧的去噪特征。预处理模块从静态随机存取存储器sram中获取待降噪的图像和最新的两帧(前一帧和当前帧)的去噪特征,对待降噪图像进行预处理,将与处理后的图像以及去噪特征传输至ai引擎,ai引擎使用降噪模型对当前图像帧进行降噪处理,并将产生的各帧去噪特征存储到动态随机存取存储器dram中。动态随机存取存储器dram将最新的两帧(前一帧和当前帧)的去噪特征存储至静态随机存取存储器sram中。后处理模块可以对ai引擎产生的当前图像帧的降噪后的目标帧进行后处理,之后经sram传输至图像信号处理器isp。图像信号处理器isp根据上层应用需求进行后续处理。后处理模块为可选模块,具体做哪些后处理可以根据实际为应用场景的需要进行配置,此处不做具体限定。应用处理器ap是系统装置中包含cpu在内的计算芯片的集成物,负责应用程序的运行。
[0130]
图5为本技术一示例性实施例提供的图像降噪方法的流程图,本实施例的执行主体为图4所示的系统装置中的ai引擎,负责对图像信号处理器isp处理图像帧序列产生的中间结果(包括多个图像帧的序列)进行多帧降噪处理,并返回降噪后的目标帧。如图5所示,该方法具体步骤如下:
[0131]
步骤s501、获取图像信号处理器对多个图像帧进行处理的中间处理结果,中间处理结果包括处理后的图像帧。
[0132]
本实施例中,图像信号处理器对采集的多个图像帧进行图像处理的过程中,产生各个图像帧的中间处理结果,也即是需要进行降噪处理的多个图像帧构成的图像帧序列。
[0133]
其中,多个图像帧可以是视频会议场景中采集的视频流所包含的视频帧,刷脸支付场景中在一个时段内采集的同一目标的多帧图像,自动驾驶领域中连续采集的前方道路的多帧图像,还可以是其他场景中针对同一目标/具体场景连续采集的多帧图像,本实施例此次不做具体限定。
[0134]
步骤s502、依次将中间处理结果中的图像帧作为当前帧,将当前帧和相邻帧输入降噪模型,通过降噪模型提取输入的图像帧的不同感受野的特征图;并根据当前帧的边缘特征,将不同感受野的特征图按像素点加权融合,得到融合特征,基于融合特征进行降噪,得到当前帧降噪后的目标帧。
[0135]
该步骤与前述步骤s102的实现方式类似,将中间处理结果作为待处理的图像帧序
列,将中间处理结果中的图像帧作为待处理的图像帧,采用步骤s102的方法进行处理即可,具体参见前述实施例中的相关内容,此处不再赘述。
[0136]
步骤s503、将目标帧传输至图像信号处理,以使图像信号处理基于降噪后的目标帧执行后续处理逻辑。
[0137]
在对图像帧进行降噪处理,得到降噪后的目标帧之后,将目标帧传输至图像信号处理isp,使得图像信号处理isp根据上层应用需求对目标帧执行后续处理逻辑。
[0138]
本技术提供一种soc(system on chip,片上系统)芯片,包括:处理模块与通信接口,通信接口和处理器耦合,通信接口用于传输图像数据,处理器用于运行程序或指令,实现前述任一实施例所提供的方案。
[0139]
图6为本技术一示例性实施例提供的图像降噪装置的结构示意图。本技术实施例提供的图像降噪装置可以执行图像降噪方法实施例提供的处理流程。如图6所示,该图像降噪装置60包括:图像获取模块61和降噪模块62。
[0140]
图像获取模块61用于获取待降噪的图像帧序列,图像帧序列包括多个图像帧。
[0141]
降噪模块62用于依次将图像帧序列中的图像帧作为当前帧,将当前帧和相邻帧输入降噪模型,通过降噪模型提取输入的图像帧的不同感受野的特征图;并根据当前帧的边缘特征,将不同感受野的特征图按像素点加权融合,得到融合特征,基于融合特征进行降噪,得到当前帧降噪后的目标帧。多个图像帧降噪后的目标帧构成降噪后的目标图像序列。
[0142]
在一可选实施例中,降噪模型包括去噪网络和重建网络。
[0143]
其中,去噪网络用于将输入的图像帧与预设的噪声水平特征融合并降低分辨率后,进行去噪处理,得到下一帧的去噪特征。
[0144]
重建网络用于将输入的图像帧与输入图像帧的去噪特征融合后,进行重建处理,得到当前帧降噪后的目标帧。
[0145]
在一可选实施例中,在实现通过降噪模型提取输入的图像帧的不同感受野的特征图;并根据当前帧的边缘特征,将不同感受野的特征图按像素点加权融合,得到融合特征,基于融合特征进行降噪,得到当前帧降噪后的目标帧时,降噪模块62还用于:
[0146]
通过去噪网络,将输入的当前帧和相邻帧与噪声水平特征融合,降低融合结果的分辨率,提取降低分辨率后的融合结果的不同感受野的第一特征图;根据当前帧的边缘特征,将不同感受野的第一特征图按像素点加权融合,得到第一融合特征;基于第一融合特征完成去噪处理,得到下一帧的去噪特征;通过重建网络,将输入的当前帧和相邻帧,以及当前帧和相邻帧的去噪特征融合,提取融合结果的不同感受野的第二特征图;根据当前帧的去噪特征的边缘特征,将不同感受野的第二特征图按像素点加权融合,得到第二融合特征;基于第二融合特征完成重建处理,得到当前帧降噪后的目标帧。
[0147]
在一可选实施例中,在实现根据当前帧的边缘特征,将不同感受野的第一特征图按像素点加权融合,得到第一融合特征时,降噪模块62还用于:
[0148]
提取当前帧的边缘特征,当前帧的边缘特征与第一特征图具有对应的像素点;根据当前帧的边缘特征,确定第一特征图中各像素点对应的不同感受野的权重系数;根据第一特征图中各像素点对应的不同感受野的权重系数,将不同感受野的第一特征图按像素点加权求和,得到第一融合特征。
[0149]
在一可选实施例中,在实现根据当前帧的边缘特征,确定第一特征图中各像素点
对应的不同感受野的权重系数时,降噪模块62还用于:
[0150]
根据当前帧的边缘特征,对当前帧的边缘特征中各像素点的特征值进行归一化处理,得到各像素点对应的第一感受野的权重系数;根据各像素点对应的第一感受野的权重系数,确定各像素点对应的第二感受野的权重系数,第二感受野的权重系数与第一感受野的权重系数之和等于1。其中,第一特征图包括两个不同感受野的特征图,第一感受野为第一特征图的最小感受野,第二感受野为第一特征图的最大感受野。
[0151]
在一可选实施例中,在实现根据当前帧的去噪特征的边缘特征,将不同感受野的第二特征图按像素点加权融合,得到第二融合特征时,降噪模块62还用于:
[0152]
提取当前帧的去噪特征的边缘特征,当前帧的去噪特征的边缘特征与第二特征图具有对应的像素点;根据当前帧的去噪特征的边缘特征,确定第二特征图中各像素点对应的不同感受野的权重系数;根据第二特征图中各像素点对应的不同感受野的权重系数,将不同感受野的第二特征图按像素点加权求和,得到第二融合特征。
[0153]
在一可选实施例中,在实现根据当前帧的去噪特征的边缘特征,确定第二特征图中各像素点对应的不同感受野的权重系数时,降噪模块62还用于:
[0154]
根据当前帧的去噪特征的边缘特征,对当前帧的去噪特征的边缘特征中各像素点的特征值进行归一化处理,得到各像素点对应的第三感受野的权重系数;根据各像素点对应的第三感受野的权重系数,确定各像素点对应的第四感受野的权重系数,第四感受野的权重系数与第三感受野的权重系数之和等于1。其中,第二特征图包括两个不同感受野的特征图,第三感受野为第二特征图的最小感受野,第四感受野为第二特征图的最大感受野。
[0155]
在一可选实施例中,降噪模块62还用于:
[0156]
通过去噪网络得到各图像帧的去噪特征之后,存储各图像帧的去噪特征;获取已存储的上一帧和当前帧的去噪特征,将上一帧和当前帧的去噪特征,去噪网络输出的下一帧的去噪特征,以及当前帧和相邻帧,输入重建网络。
[0157]
在一可选实施例中,该图像降噪装置60还包括:
[0158]
模型训练模考,用于:对降噪模型进行两个阶段的训练,其中一个阶段固定重建网络的参数,训练去噪网络的参数;另一个阶段固定去噪网络的参数,训练重建网络的参数。
[0159]
在一可选实施例中,获取待降噪的图像帧序列之后,图像获取模块61还用于:
[0160]
对图像帧进行格式归一化。
[0161]
在一可选实施例中,该图像降噪装置60还包括:
[0162]
后处理模块,用于:根据降噪后的目标图像序列,执行如下任意一项后处理:
[0163]
将目标图像序列发送至用户端设备或服务器;
[0164]
对目标图像序列进行视频处理,并向端侧设备发送视频处理结果;
[0165]
对目标图像序列进行图像分析,并向端侧设备发送图像分析结果。
[0166]
本技术实施例提供的装置可以具体用于执行上述任一方法实施例提供的方案,所实现具体功能和所能实现的技术效果此处不再赘述。
[0167]
图7为本技术实施例提供的一种电子设备的结构示意图。如图7所示,该电子设备包括:存储器701和处理器702。存储器701,用于存储计算机执行指令,并可被配置为存储其它各种数据以支持在电子设备上的操作。处理器702,与存储器701通信连接,用于执行存储器701存储的计算机执行指令,以实现上述任一方法实施例所提供的技术方案,其具体功能
和所能实现的技术效果类似,此处不再赘述。
[0168]
可选的,如图7所示,该电子设备还包括:防火墙703、负载均衡器704、通信组件705、电源组件706等其它组件。图7中仅示意性给出部分组件,并不意味着电子设备只包括图7所示组件。
[0169]
本技术实施例还提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机执行指令,计算机执行指令被处理器执行时用于实现上述任一方法实施例所提供的技术方案,具体功能和所能实现的技术效果此处不再赘述。
[0170]
本技术实施例还提供了一种计算机程序产品,计算机程序产品包括:计算机程序,计算机程序存储在可读存储介质中,电子设备的至少一个处理器可以从可读存储介质读取计算机程序,至少一个处理器执行计算机程序使得电子设备执行上述任一方法实施例所提供的技术方案,具体功能和所能实现的技术效果此处不再赘述。
[0171]
本技术实施例提供一种芯片,包括:处理模块与通信接口,该处理模块能执行前述方法实施例中电子设备的技术方案。可选的,该芯片还包括存储模块(如,存储器),存储模块用于存储指令,处理模块用于执行存储模块存储的指令,并且对存储模块中存储的指令的执行使得处理模块执行前述任一方法实施例所提供的技术方案。
[0172]
上述存储器可以是对象存储(object storage service,oss)。上述存储器可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(sram),电可擦除可编程只读存储器(eeprom),可擦除可编程只读存储器(eprom),可编程只读存储器(prom),只读存储器(rom),磁存储器,快闪存储器,磁盘或光盘。
[0173]
上述通信组件被配置为便于通信组件所在设备和其他设备之间有线或无线方式的通信。通信组件所在设备可以接入基于通信标准的无线网络,如移动热点(wifi),第二代移动通信系统(2g)、第三代移动通信系统(3g)、第四代移动通信系统(4g)/长期演进(lte)、第五代移动通信系统(5g)等移动通信网络,或它们的组合。在一个示例性实施例中,通信组件经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,通信组件还包括近场通信(nfc)模块,以促进短程通信。例如,在nfc模块可基于射频识别(rfid)技术,红外数据协会(irda)技术,超宽带(uwb)技术,蓝牙(bt)技术和其他技术来实现。
[0174]
上述电源组件,为电源组件所在设备的各种组件提供电力。电源组件可以包括电源管理系统,一个或多个电源,及其他与为电源组件所在设备生成、管理和分配电力相关联的组件。
[0175]
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、只读光盘存储器(cd-rom)、光学存储器等)上实施的计算机程序产品的形式。
[0176]
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产
生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0177]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0178]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0179]
在一个典型的配置中,计算设备包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。
[0180]
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flash ram)。内存是计算机可读介质的示例。
[0181]
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
[0182]
需要说明的是,本技术所涉及的用户信息(包括但不限于用户设备信息、用户属性信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,并且相关数据的收集、使用和处理需要遵守相关法律法规和标准,并提供有相应的操作入口,供用户选择授权或者拒绝。
[0183]
另外,在上述实施例及附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。“多个”的含义是两个以上,除非另有明确具体的限定。
[0184]
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本技术的其它实施方案。本技术旨在涵盖本技术的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本技术的一般性原理并包括本技术未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本技术的真正范围和精神由下面的权利要求书指出。
[0185]
应当理解的是,本技术并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本技术的范围仅由所附的权利要求书来限制。
技术特征:
1.一种图像降噪方法,其特征在于,包括:获取待降噪的图像帧序列,所述图像帧序列包括多个图像帧;依次将所述图像帧序列中的图像帧作为当前帧,将当前帧和相邻帧输入降噪模型,通过所述降噪模型提取输入的图像帧的不同感受野的特征图;并根据当前帧的边缘特征,将所述不同感受野的特征图按像素点加权融合,得到融合特征,基于所述融合特征进行降噪,得到当前帧降噪后的目标帧;所述多个图像帧降噪后的目标帧构成降噪后的目标图像序列。2.根据权利要求1所述的方法,其特征在于,所述降噪模型包括去噪网络和重建网络,所述去噪网络用于将输入的图像帧与预设的噪声水平特征融合并降低分辨率后,进行去噪处理,得到下一帧的去噪特征;所述重建网络用于将输入的图像帧与输入图像帧的去噪特征融合后,进行重建处理,得到当前帧降噪后的目标帧。3.根据权利要求2所述的方法,其特征在于,所述通过所述降噪模型提取输入的图像帧的不同感受野的特征图;并根据当前帧的边缘特征,将所述不同感受野的特征图按像素点加权融合,得到融合特征,基于所述融合特征进行降噪,得到当前帧降噪后的目标帧,包括:通过所述去噪网络,将输入的当前帧和相邻帧与所述噪声水平特征融合,降低融合结果的分辨率,提取降低分辨率后的融合结果的不同感受野的第一特征图;根据当前帧的边缘特征,将不同感受野的第一特征图按像素点加权融合,得到第一融合特征;基于第一融合特征完成去噪处理,得到下一帧的去噪特征;通过所述重建网络,将输入的当前帧和相邻帧,以及当前帧和相邻帧的去噪特征融合,提取融合结果的不同感受野的第二特征图;根据当前帧的去噪特征的边缘特征,将不同感受野的第二特征图按像素点加权融合,得到第二融合特征;基于第二融合特征完成重建处理,得到当前帧降噪后的目标帧。4.根据权利要求3所述的方法,其特征在于,所述根据当前帧的边缘特征,将不同感受野的第一特征图按像素点加权融合,得到第一融合特征,包括:提取当前帧的边缘特征,当前帧的边缘特征与所述第一特征图具有对应的像素点;根据当前帧的边缘特征,确定所述第一特征图中各像素点对应的所述不同感受野的权重系数;根据所述第一特征图中各像素点对应的所述不同感受野的权重系数,将所述不同感受野的第一特征图按像素点加权求和,得到第一融合特征。5.根据权利要求4所述的方法,其特征在于,所述根据当前帧的边缘特征,确定所述第一特征图中各像素点对应的所述不同感受野的权重系数,包括:根据当前帧的边缘特征,对当前帧的边缘特征中各像素点的特征值进行归一化处理,得到各像素点对应的第一感受野的权重系数;根据各像素点对应的第一感受野的权重系数,确定各像素点对应的第二感受野的权重系数,所述第二感受野的权重系数与所述第一感受野的权重系数之和等于1;其中,所述第一特征图包括两个不同感受野的特征图,第一感受野为第一特征图的最小感受野,第二感受野为第一特征图的最大感受野。6.根据权利要求3所述的方法,其特征在于,所述根据当前帧的去噪特征的边缘特征,
将不同感受野的第二特征图按像素点加权融合,得到第二融合特征,包括:提取当前帧的去噪特征的边缘特征,当前帧的去噪特征的边缘特征与所述第二特征图具有对应的像素点;根据当前帧的去噪特征的边缘特征,确定所述第二特征图中各像素点对应的所述不同感受野的权重系数;根据所述第二特征图中各像素点对应的所述不同感受野的权重系数,将所述不同感受野的第二特征图按像素点加权求和,得到第二融合特征。7.根据权利要求6所述的方法,其特征在于,所述根据当前帧的去噪特征的边缘特征,确定所述第二特征图中各像素点对应的所述不同感受野的权重系数,包括:根据当前帧的去噪特征的边缘特征,对当前帧的去噪特征的边缘特征中各像素点的特征值进行归一化处理,得到各像素点对应的第三感受野的权重系数;根据各像素点对应的第三感受野的权重系数,确定各像素点对应的第四感受野的权重系数,所述第四感受野的权重系数与所述第三感受野的权重系数之和等于1;其中,所述第二特征图包括两个不同感受野的特征图,第三感受野为第二特征图的最小感受野,第四感受野为第二特征图的最大感受野。8.根据权利要求3所述的方法,其特征在于,还包括:通过所述去噪网络得到各图像帧的去噪特征之后,存储各图像帧的去噪特征;获取已存储的上一帧和当前帧的去噪特征,将上一帧和当前帧的去噪特征,所述去噪网络输出的下一帧的去噪特征,以及当前帧和相邻帧,输入所述重建网络。9.根据权利要求2所述的方法,其特征在于,还包括:对所述降噪模型进行两个阶段的训练,其中一个阶段固定所述重建网络的参数,训练所述去噪网络的参数;另一个阶段固定所述去噪网络的参数,训练所述重建网络的参数。10.根据权利要求1所述的方法,其特征在于,所述获取待降噪的图像帧序列之后,还包括:对所述图像帧进行格式归一化。11.根据权利要求1所述的方法,其特征在于,还包括:根据降噪后的目标图像序列,执行如下任意一项后处理:将所述目标图像序列发送至用户端设备或服务器;对所述目标图像序列进行视频处理,并向端侧设备发送视频处理结果;对所述目标图像序列进行图像分析,并向端侧设备发送图像分析结果。12.一种图像降噪方法,其特征在于,包括:获取图像信号处理器对多个图像帧进行处理的中间处理结果,所述中间处理结果包括处理后的图像帧;依次将所述中间处理结果中的图像帧作为当前帧,将当前帧和相邻帧输入降噪模型,通过所述降噪模型提取输入的图像帧的不同感受野的特征图;并根据当前帧的边缘特征,将所述不同感受野的特征图按像素点加权融合,得到融合特征,基于所述融合特征进行降噪,得到当前帧降噪后的目标帧;将所述目标帧传输至所述图像信号处理,以使所述图像信号处理基于降噪后的目标帧执行后续处理逻辑。
13.一种芯片,其特征在于,包括:处理模块与通信接口,所述通信接口和所述处理器耦合,所述通信接口用于传输图像数据,所述处理器用于运行程序或指令,实现如权利要求1-12中任一项所述的方法。14.一种电子设备,其特征在于,包括:处理器,以及与所述处理器通信连接的存储器;所述存储器存储计算机执行指令;所述处理器执行所述存储器存储的计算机执行指令,以实现如权利要求1-12中任一项所述的方法。
技术总结
本申请提供一种图像降噪方法、芯片和电子设备。本申请的方法,应用于对图像帧序列中多个图像帧进行多帧降噪,通过依次将图像帧序列中的图像帧作为当前帧,将当前帧和相邻帧输入降噪模型,通过降噪模型提取输入的图像帧的不同感受野的特征图;根据当前帧的边缘特征,将不同感受野的特征图按像素点加权融合得到融合特征,基于融合特征进行降噪,得到当前帧降噪后的目标帧,可按像素点动态地调整选择不同感受野特征的权重系数,自适应地对边缘区域和平坦区域进行特征强化和降噪,以恢复更多的纹理视觉信息,使得降噪后的图像帧保留更多的细节信息,提升了降噪模型的表达和学习能力,从而提升图像降噪的质量和效果。而提升图像降噪的质量和效果。而提升图像降噪的质量和效果。
技术研发人员:徐淑淞 刘培业 刘子豪 请求不公布姓名 陆彦珩 范益波
受保护的技术使用者:阿里巴巴达摩院(杭州)科技有限公司
技术研发日:2023.07.12
技术公布日:2023/10/7
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
