视觉数据处理方法、装置、计算机设备及可读存储介质与流程
未命名
08-03
阅读:230
评论:0
1.本公开涉及视觉数据处理技术领域,特别涉及一种视觉数据处理方法、装置、计算机设备和计算机可读存储介质。
背景技术:
2.对图片或视频进行处理时,可以通过图像风格迁移技术使其获得风格图片的艺术风格,从而将普通的图片或视频变成具有特定风格的图片或视频。但是同一种风格并不适合所有的图片或视频。随着图像处理技术的发展,用户对图片或视频的风格化处理提出了更高的要求。如何优化图片或视频的风格,实现更好的图像处理效果,仍然是业界的研究热点和难点之一。
3.在此部分中描述的方法不一定是之前已经设想到或采用的方法。除非另有指明,否则不应假定此部分中描述的任何方法仅因其包括在此部分中就被认为是现有技术。类似地,除非另有指明,否则此部分中提及的问题不应认为在任何现有技术中已被公认。
技术实现要素:
4.本公开提供了一种视觉数据处理方法、装置、计算机设备和计算机可读存储介质。
5.根据本公开的一方面,提供了一种视觉数据处理方法,包括:获取待处理视觉数据;将待处理视觉数据风格化以获得具有至少一种基底风格的至少一个基底风格视觉数据,每个基底风格视觉数据具有一组风格化参数以表征对应的基底风格;对至少一个基底风格视觉数据进行风格上的调整以生成多个候选风格视觉数据,其中,每个候选风格视觉数据具有对应的候选风格;将多个候选风格视觉数据在交互界面上进行展示;基于用户对在交互界面上展示的多个候选风格视觉数据的选择,确定与用户感兴趣的风格相关联的至少一组预测性风格化参数;以及执行包括以下操作的至少一次循环,以获得符合用户感兴趣的风格的视觉数据:对至少一组预测性风格化参数添加修正项以生成多组经修正的预测性风格化参数;基于多组经修正的预测性风格化参数,生成多个经修正的候选风格视觉数据;将多个经修正的候选风格视觉数据在交互界面上进行展示以用于用户进行当前选择;确定用户是否在进行当前选择之后指示结束交互操作;响应于确定用户在进行当前选择之后指示结束交互操作,基于用户的当前选择,获得符合用户感兴趣的风格的视觉数据;响应于确定用户在进行当前选择之后未指示结束交互操作,获取多组经修正的预测性风格化参数之中基于用户的当前选择而确定的至少一组预测性风格化参数,并执行下一次循环。
6.根据本公开的另一方面,提供了一种视觉数据处理装置,包括:视觉数据获取模块,被配置为获取待处理视觉数据;视觉数据风格化模块,被配置为将待处理视觉数据风格化以获得具有至少一种基底风格的至少一个基底风格视觉数据,每个基底风格视觉数据具有一组风格化参数以表征对应的基底风格;视觉数据风格调整模块,被配置为对至少一个基底风格视觉数据进行风格上的调整以生成多个候选风格视觉数据,其中,每个候选风格视觉数据具有对应的候选风格;第一视觉数据展示模块,被配置为将多个候选风格视觉数
据在交互界面上进行展示;预测性风格化参数确定模块,被配置为基于用户对在交互界面上展示的多个候选风格视觉数据的选择,确定与用户感兴趣的风格相关联的至少一组预测性风格化参数;以及第一循环执行模块,被配置为执行包括以下操作的至少一次循环,以获得符合用户感兴趣的风格的视觉数据,其中,第一循环执行模块包括:修正项添加模块,被配置为对至少一组预测性风格化参数添加修正项以生成多组经修正的预测性风格化参数;候选风格视觉数据生成模块,被配置为基于多组经修正的预测性风格化参数,生成多个经修正的候选风格视觉数据;第二视觉数据展示模块,被配置为将多个经修正的候选风格视觉数据在交互界面上进行展示以用于用户进行当前选择;确定模块,被配置为确定用户是否在进行当前选择之后指示结束交互操作;获得模块,被配置为响应于确定用户在进行当前选择之后指示结束交互操作,基于用户的当前选择,获得符合用户感兴趣的风格的视觉数据;第二循环执行模块,被配置为响应于确定用户在进行当前选择之后未指示结束交互操作,获取多组经修正的预测性风格化参数之中基于用户的当前选择而确定的至少一组预测性风格化参数,并执行下一次循环。
7.根据本公开的另一方面,提供了一种计算机设备,包括:至少一个处理器;以及存储器,其上存储有计算机程序,计算机程序在被处理器执行时,使处理器执行本公开如上所提供的方法。
8.根据本公开的另一方面,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时,使处理器执行本公开如上所提供的方法。
9.根据本公开的一个或多个实施例,可以获得符合用户感兴趣的风格的视觉数据,从而满足用户个性化的定制需求。
10.根据在下文中所描述的实施例,本公开的这些和其它方面将是清楚明白的,并且将参考在下文中所描述的实施例而被阐明。
附图说明
11.附图示例性地示出了实施例并且构成说明书的一部分,与说明书的文字描述一起用于讲解实施例的示例性实施方式。所示出的实施例仅出于示例的目的,并不限制权利要求的范围。在所有附图中,相同的附图标记指代类似但不一定相同的要素。
12.图1是图示出根据示例性实施例的可以在其中实施本文描述的各种方法的示例系统的示意图;图2是图示出根据示例性实施例的视觉数据处理方法的流程图;图3是图示出根据示例性实施例的视觉数据处理装置的示意图;图4是示出根据示例性实施例的风格化参数示例参数表;图5是图示出根据示例性实施例的视觉数据处理装置的示意性框图;图6是图示出能够应用于示例性实施例的示例性计算机设备的框图。
具体实施方式
13.在本公开中,除非另有说明,否则使用术语“第一”、“第二”等来描述各种要素不意图限定这些要素的位置关系、时序关系或重要性关系,这种术语只是用于将一个元件与另一元件区分开。在一些示例中,第一要素和第二要素可以指向该要素的同一实例,而在某些
情况下,基于上下文的描述,它们也可以指代不同实例。
14.在本公开中对各种所述示例的描述中所使用的术语只是为了描述特定示例的目的,而并非旨在进行限制。除非上下文另外明确地表明,如果不特意限定要素的数量,则该要素可以是一个也可以是多个。此外,本公开中所使用的术语“和/或”涵盖所列出的项目中的任何一个以及全部可能的组合方式。
15.在相关技术中,对图片或视频进行处理时,可以通过图像风格迁移技术使其获得风格图片的艺术风格,从而将普通的图片变成了具有特定风格的图片或视频。但是同一种风格并不适合所有的图片或视频。
16.一种传统方法是,采用人工智能(artificial intelligence,ai)方式来进行图片或视频的风格化处理。采用ai方式对待处理视觉数据风格化时,需要预先训练神经网络模型,用户可以选择的风格数量和风格种类与预训练的神经网络模型相关联,通过一个预训练的神经网络模型只能得到一种风格模式。一般来说,采用ai方式对待处理视觉数据风格化时,每个用户可以选择的风格模式是相同的且风格模式的数量是有限的,不能实时的产生多种风格模式供用户选择,固定的风格模式难以满足每个用户的需求。因此传统方法不能为用户提供足够的操作自由度来满足图片或视频风格个性化定制的需求。
17.为了满足用户对图片或视频风格的个性化定制需求,本公开提供了一种视觉数据处理方法。
18.下面结合附图详细描述本公开的示例性实施例。在详细描述根据本公开实施例的视觉数据处理方法之前,首先描述可以在其中实施本方法的示例系统。
19.图1是图示出根据示例性实施例的可以在其中实施本文描述的各种方法的示例系统100的示意图。
20.参考图1,该系统100包括客户端设备110、服务器120、以及将客户端设备110与服务器120通信地耦合的网络130。
21.客户端设备110包括显示屏114和可经由显示屏114显示的客户端应用(app)112。客户端应用112可以为运行前需要下载和安装的应用程序或者作为轻量化应用程序的小程序(liteapp)。在客户端应用112为运行前需要下载和安装的应用程序的情况下,客户端应用112可以被预先安装在客户端设备110上并被激活。在客户端应用112为小程序的情况下,用户102可以通过在宿主应用中搜索客户端应用112(例如,通过客户端应用112的名称等)或扫描客户端应用112的图形码(例如,条形码、二维码等)等方式,在客户端设备110上直接运行客户端应用112,而无需安装客户端应用112。在一些实施例中,客户端设备110可以是任何类型的移动计算机设备,包括移动计算机、移动电话、可穿戴式计算机设备(例如智能手表、头戴式设备,包括智能眼镜,等)或其他类型的移动设备。在一些实施例中,客户端设备110可以替换地是固定式计算机设备,例如台式机、服务器计算机或其他类型的固定式计算机设备。
22.服务器120典型地为由互联网服务提供商(isp)或互联网内容提供商(icp)部署的服务器。服务器120可以代表单台服务器、多台服务器的集群、分布式系统、或者提供基础云服务(诸如云数据库、云计算、云存储、云通信)的云服务器。将理解的是,虽然图1中示出服务器120与仅一个客户端设备110通信,但是服务器120可以同时为多个客户端设备提供后台服务。
23.网络130的示例包括局域网(lan)、广域网(wan)、个域网(pan)、和/或诸如互联网之类的通信网络的组合。网络130可以是有线或无线网络。在一些实施例中,使用包括超文本标记语言(html)、可扩展标记语言(xml)等的技术和/或格式来处理通过网络130交换的数据。此外,还可以使用诸如安全套接字层(ssl)、传输层安全(tls)、虚拟专用网络(vpn)、网际协议安全(ipsec)等加密技术来加密所有或者一些链路。在一些实施例中,还可以使用定制和/或专用数据通信技术来取代或者补充上述数据通信技术。
24.为了本公开实施例的目的,在图1的示例中,客户端应用112可以为视觉数据处理应用程序。与此相应,服务器120可以是与视觉数据处理应用程序一起使用的服务器。该服务器120可以将视觉数据提供给客户端设备110,由客户端设备110中运行的客户端应用112提供视觉数据处理服务。
25.图2是图示出根据示例性实施例的视觉数据处理方法200的流程图。在一些实施例中,视觉数据处理方法200可以在客户端设备(例如,图1中所示的客户端设备110)处执行。在一些实施例中,视觉数据处理方法200可以在服务器(例如,图1中所示的服务器120)处执行。在一些实施例中,视觉数据处理方法200可以由客户端设备(例如,客户端设备110)和服务器(例如,服务器120)相组合地执行。
26.参考图2,在步骤s210,获取待处理视觉数据。
27.在示例中,视觉数据可以是可显示在显示设备(例如电视、监视器、平板电脑、智能电话等)上的视觉内容。示例性的,视觉数据可以包括图片、视频或游戏流等。
28.在示例中,待处理视觉数据可以是由图1所示的客户端设备110拍摄的图片或视频,也可以是该客户端设备110经由网络130获取的图片、视频或游戏流,或者也可以是存储在客户端设备110的本地存储设备中的图片、视频或游戏流。
29.在步骤s220,将待处理视觉数据风格化以获得具有至少一种基底风格的至少一个基底风格视觉数据,每个基底风格视觉数据具有一组风格化参数以表征对应的基底风格。
30.在示例中,基底风格为预先设定的视觉数据风格。例如,基底风格可以包括复古、写实、文艺等其中的一种或多种。
31.在示例中,将待处理视觉数据根据基底风格进行风格化处理,也就是将待处理视觉数据的风格转换为与基底风格相同,从而得到具有基地风格的基底风格视觉数据。基底风格视觉数据的数量可以与基底风格的数量相对应。
32.在示例中,风格化参数可以包括对比度参数、亮度参数和颜色饱和度参数等。各基底风格视觉数据具有的一组风格化参数中风格化参数的数量以及每个风格化参数对应的数值均可以不同。
33.在步骤s230,对上述至少一个基底风格视觉数据进行风格上的调整以生成多个候选风格视觉数据,其中,每个候选风格视觉数据具有对应的候选风格。
34.在示例中,当基底风格视觉数据为一个时,可以通过对该基底风格视觉数据中的不同的风格化参数进行调整以生成多个候选风格视觉数据;当基底风格视觉数据为多个时,可以通过分别对每一个基底风格视觉数据中的风格化参数进行调整以生成多个候选风格视觉数据;也可以将基底风格视觉数据进行视觉数据混合以生成多个候选风格视觉数据;还可以将基底风格视觉数据进行视觉数据混合,并对混合后的基底风格视觉数据的风格化参数进行调整以生成多个候选风格视觉数据。即可以通过对有限数量的基底风格视觉
数据进行风格上的调整以生成无限数量的候选风格视觉数据。
35.在示例中,每个候选风格视觉数据对应的候选风格不相同。
36.在步骤s240,将上述多个候选风格视觉数据在交互界面上进行展示。
37.在示例中,多个候选风格视觉数据可以按任意顺序在交互界面上进行展示。例如候选风格视觉数据的数量为九个时,可以按照三行三列的方式进行排列。本公开中,对每个候选风格视觉数据在交互界面上的具体位置不做限制。
38.在示例中,在交互界面上进行展示的多个候选风格的视觉数据可以是图片或视频,可以根据获取的待处理视觉数据的不同,适应性的选择是通过图片形式还是通过视频形式在交互界面上进行展示,可以更加清楚的向用户展示各个候选风格视觉数据,从而用户可以比较各个候选风格视觉数据之间的差别,进而便于用户在交互界面上展示的多个候选风格视觉数据中高效选择感兴趣的候选风格视觉数据。
39.在步骤s250,基于用户对在交互界面上展示的多个候选风格视觉数据的选择,确定与用户感兴趣的风格相关联的至少一组预测性风格化参数。
40.在示例中,在交互界面上展示的多个候选风格视觉数据,每个候选风格视觉数据具有对应的候选风格。用户可以根据自己的兴趣在交互界面上展示的多个候选风格视觉数据中进行选择,选择感兴趣的侯选风格视觉数据。用户选择的候选风格视觉数据的数量小于候选风格视觉数据的总数量,具体的数量可以为一个或多个。
41.在示例中,用户选择的每个候选风格视觉数据对应一组预测性风格化参数。因此,基于用户选择的候选风格视觉数据,可以确定与用户感兴趣的风格相关联的预测性风格化参数。用户可以根据自己的兴趣从展示的多个候选风格视觉数据中选择至少一个候选风格视觉数据。相应地,可以确定与用户感兴趣的风格相关联的至少一组预测性风格化参数。
42.在步骤s260,执行包括以下操作的至少一次循环,以获得符合用户感兴趣的风格的视觉数据:在步骤s261,对上述至少一组预测性风格化参数添加修正项以生成多组经修正的预测性风格化参数。
43.在示例中,对至少一组预测性风格化参数添加修正项,可以是对该至少一组预测性风格化参数中的所有参数进行修正,也可以是对该至少一组预测性风格化参数中的部分参数进行修正。即,通过添加修正项,可以从当前的一组预测性风格化参数衍生出更多组的预测性风格化参数,即经修正的预测性风格化参数,以使得能够通过至少一次循环来逐步逼近用户感兴趣的风格,从而实现视觉数据风格定制化。
44.在步骤s262,基于多组经修正的预测性风格化参数,生成多个经修正的候选风格视觉数据。
45.在示例中,经修正的预测性风格化参数的组数可以与在交互界面上展示的多个候选风格视觉数据的数量相同,基于一组经修正的预测性风格化参数,就可以生成一个经修正的候选风格视觉数据。即基于多组经修正的预测性风格化参数,就可以生成多个经修正的候选风格视觉数据。
46.在步骤s263,将上述多个修正的候选风格视觉数据在交互界面上进行展示以用于用户进行当前选择。
47.在示例中,用户可以在交互界面上展示的多个经修正的候选风格视觉数据中进行
选择,若用户选择到了符合用户感兴趣的风格的视觉数据,则可以指示结束交互操作,那么这次选择就可以是用户的最后一次选择。
48.在步骤s264,确定用户是否在进行当前选择之后指示结束交互操作。
49.在示例中,用户可以通过在交互界面上显示的结束按钮来指示结束交互操作,用户也可以通过在一定时长内不在交互界面上进行选择的方式来指示结束交互操作。
50.在步骤s265,响应于确定用户在进行当前选择之后指示结束交互操作,基于用户的当前选择,获得符合用户感兴趣的风格的视觉数据。
51.在示例中,若用户在进行当前选择之后指示结束交互操作,则用户在多个修正的候选风格视觉数据中当前选择的视觉数据,就是用户感兴趣的风格的视觉数据。
52.在步骤s266,响应于确定用户在进行当前选择之后未指示结束交互操作,获取多组经修正的预测性风格化参数之中基于用户的当前选择而确定的至少一组预测性风格化参数,并执行下一次循环。
53.在示例中,若用户在进行当前选择之后未指示结束交互操作,则基于用户在多个经修正的候选风格视觉数据中当前选择的视觉数据,确定多组经修正的预测性风格化参数之中的至少一组预测性风格化参数,并再次执行前述步骤s261至步骤s264,直到进程可以进入步骤s265,即用户在当前选择之后指示结束交互操作。
54.根据本公开的实施例,通过将待处理视觉数据风格化生成的有限数量的基底风格视觉数据进行风格上的调整后生成多个候选风格视觉数据在交互界面上进行展示,用户可以根据自己的兴趣进行选择,并在用户选择候选风格的视觉数据后通过执行对用户选择的候选风格的视觉数据进行修正的循环操作,将每一次用户选择的候选风格的视觉数据进行修正直到用户选择到符合用户感兴趣的风格的视觉数据。该视觉数据处理方法通过对有限数量的基底风格视觉数据进行风格上的调整以生成无限数量的候选风格视觉数据,并通过用户与交互界面之间的交互操作来选择用户感兴趣的风格的视觉数据,用户每一次的选择都是基于用户自己是否感兴趣,同时,对与用户感兴趣的风格相关联的至少一组预测性风格化参数添加修正项,可以使得到的用户感兴趣的风格的视觉数据更加符合用户自身需求,从而满足用户个性化定制的需求,同时用户通过交互操作就可以选择到符合用户感兴趣的风格的视觉数据,使视觉数据处理的操作过程更加简单。
55.根据本公开的实施例,本公开的视觉数据处理方法可以应用于视频数据增强和风格化的交互式部署。可以理解的是,本公开的视觉数据处理方法可以为用户提供视觉数据风格定制化服务,在高效获取用户的喜好的基础上,将用户的喜好(用户感兴趣的风格的视觉数据)用于视频数据增强和风格化,因此,可以将此方法应用于视频或游戏等业务场景。示例性的,在进行视频处理或开始游戏之前,可以在云端或者终端基于用户的喜好对视频或游戏中的视觉数据进行视觉数据处理以获得符合用户感兴趣的风格的视觉数据,在后续的视频处理和游戏的过程中,就可以基于用户感兴趣的风格的视觉数据对视频或游戏中的视觉数据进行视觉数据处理,从而通过一次交互操作的过程就可以完成视觉数据风格定制化,且定制化的视觉数据风格可以用于之后的多次的视觉数据增强和风格化。
56.根据一些实施例,步骤s220中,将待处理视觉数据风格化以获得具有至少一种基底风格的至少一个基底风格视觉数据可以包括:通过用于提供至少一种基底风格的静态处理模块将待处理视觉数据风格化,得到具有至少一种基底风格的至少一个基底风格视觉数
据,其中,静态处理模块可以包括分别与至少一种基底风格对应的至少一个预训练的神经网络模型。
57.在示例中,神经网络模型可以为任何类型的能够实现视觉数据风格化的神经网络模型,例如可以是深度神经网络(dnn)模型,诸如可包括卷积神经网络(cnn)模型,循环神经网络(rnn)等等,本公开对此不进行限制。
58.在示例中,静态处理模块可以包括多个预训练的神经网络模型,每个预训练的神经网络模型可以对待处理视觉数据风格化以得到一种具有基底风格的基底风格视觉数据。例如,静态处理模块可以包括三个预训练的神经网络模型,因此可以通过静态处理模块获得具有三种不同基底风格的基底风格视觉数据。
59.根据本公开的实施例,可以利用静态处理模块快速简便地实现对待处理视觉数据的基本风格化处理,以使得能够从得到的基底风格视觉数据衍生出与用户感兴趣的风格相近的候选风格视觉数据。
60.根据一些实施例,步骤s260中,上述至少一次循环可以通过与静态处理模块耦接的动态处理模块执行,动态处理模块可以基于用户的当前选择而自适应调整上述至少一组预测性风格化参数,并且其中,动态处理模块还可以被配置为执行前述步骤s230。
61.在示例中,将ai的预训练模型作为静态处理模块的基准模型,用于将待处理视觉数据风格化以获得具有至少一种基底风格的至少一个基底风格视觉数据。并将动态处理模块与静态处理模块耦接,动态处理模块可以将具有至少一种基底风格的至少一个基底风格视觉数据进行风格上的调整,从而可以生成多个候选风格供用户进行选择,同时,动态处理模块还可以对基于用户对在交互界面上展示的多个候选风格视觉数据的选择确定的与用户感兴趣的风格相关联的至少一组预测性风格化参数进行自适应调整,从而实现视觉数据风格定制化。
62.在示例中,动态处理模块可以执行至少一种视觉数据处理算法。
63.在示例中,动态处理模块可以与静态处理模块耦接,静态处理模块对待处理视觉数据风格化得到的具有至少一种基底风格的至少一个基底风格视觉数据,可以输入至动态处理模块,由动态处理模块对该至少一个基底风格视觉数据进行风格上的调整。
64.在示例中,动态处理模块可以用于对用户的当前选择的与用户感兴趣的风格相关联的至少一组预测性风格化参数添加修正项以生成多组经修正的预测性风格化参数。
65.根据本公开的实施例,可以将用户的选择作为反馈,借助动态处理模块对风格化参数的自适应调整来逐步逼近用户感兴趣的风格。
66.图3是图示出根据示例性实施例的视觉数据处理装置300的示意图。如图3所示,视觉数据处理装置300可以包括静态处理模块301、动态处理模块302和交互界面303。静态处理模块301可以包括分别与至少一种基底风格对应的至少一个预训练的神经网络模型,动态处理模块302可以基于用户当前选择的候选风格而自适应调整至少一组预测性风格化参数,在交互界面303上可以展示多个候选风格视觉数据。
67.视觉数据处理装置300的整体处理过程可以为:静态处理模块301将待处理视觉数据风格化,得到具有至少一种基底风格的至少一个基底风格视觉数据(例如三个基底风格视觉数据),动态处理模块302对该至少一个基底风格视觉数据进行风格上的调整生成多个候选风格视觉数据,将多个候选风格视觉数据在交互界面303上进行展示(例如图3中所示
的九个候选风格视觉数据)。用户可以对在交互界面303上展示的多个候选风格视觉数据中的感兴趣的风格进行选择,确定与用户感兴趣的风格相关联的至少一组预测性风格化参数(例如用户通过点击选择了九个候选风格视觉数据中的一个候选风格视觉数据,因此基于该候选风格视觉数据确定了一组预测性风格化参数)。动态处理模块302可以对上述至少一组预测性风格化参数添加修正项以生成多组经修正的预测性风格化参数(例如九组经修正的预测性风格化参数);将基于该多组经修正的预测性风格化参数生成的多个修正的候选风格视觉数据(例如九个)在交互界面303上进行展示以用于用户进行当前选择。若用户选择到符合用户感兴趣的风格的视觉数据,用户可以在进行当前选择后指示结束交互操作;若用户没有选择到符合用户感兴趣的风格的视觉数据,即没有指示结束交互操作,则在用户的当前选择后,动态处理模块302可以执行下一次循环,直到用户选择到符合用户感兴趣的风格的视觉数据。
68.根据一些实施例,步骤s220至步骤s266中,风格化参数可以包括至少一个基底风格参数和附加风格参数,附加风格参数可以包括亮度参数、对比度参数、细节增强力度参数、颜色饱和度参数和伽马校正参数中至少一者,其中,上述至少一个基底风格参数和附加风格参数具有相应的权重,该权重基于对应的基底风格确定。
69.图4是示出根据示例性实施例的风格化参数示例参数表。
70.如图4所示,风格化参数可以包括三个基底风格参数和附加风格参数。基底风格参数可以与前述实施例中基底风格视觉数据相对应,基底风格参数可以包括基底风格参数1、基底风格参数2、基底风格参数3,其中,基底风格参数1、基底风格参数2和基底风格参数3的相应的权重例如可以均为1/3。附加风格参数可以包括亮度参数、对比度参数、细节增强力度参数、颜色饱和度参数和伽马校正参数,且亮度参数、对比度参数、细节增强力度参数、颜色饱和度参数和伽马校正参数的相应的权重例如可以均为0.5。
71.在示例中,基底风格参数1、基底风格参数2、基底风格参数3、亮度参数、对比度参数、细节增强力度参数、颜色饱和度参数和伽马校正参数的取值范围均为0到1。
72.在示例中,基底风格参数和附加风格参数对应的权重,基于对应的基底风格来确定。图4仅以示例的方式示出了上述这些参数的取值,但本领域技术人员可以理解,本公开不局限这些具体的示例性数值。
73.根据一些实施例,步骤s230中,对上述至少一个基底风格视觉数据进行风格上的调整包括执行下列至少一者:改变至少一个基底风格参数和附加风格参数的权重;对至少一个基底风格视觉数据进行视觉数据混合。
74.在示例中,对基底风格视觉数据进行风格上的调整,可以是对每一个基底风格视觉数据的基底风格参数和附加风格参数中的任意一个或多个风格参数的权重进行改变,这里的改变可以包括增大或减小。
75.在示例中,当基底风格视觉数据有多个时,对基底风格视觉数据进行风格上的调整,可以是对基底风格视觉数据按照权重进行视觉数据混合。
76.在示例中,当基底风格视觉数据有多个时,对基底风格视觉数据进行风格上的调整,可以是对基底风格视觉数据按照权重进行视觉数据混合,并对混合后的视觉数据的基底风格参数和附加风格参数中的任意一个或多个风格参数的权重进行改变。例如,可以将多个基底风格视觉数据按照权重进行视觉数据混合,例如视觉数据混合操作可以在感知均
衡的颜色空间进行,比如cielab;然后,可以对混合后的视觉数据经过一系列后处理,例如可以包括亮度调整、对比度调整、细节增强、颜色调整、伽马校正中的至少一种。
77.根据本公开的实施例,可以从多种不同维度对基底风格视觉数据进行调整,以便于衍生出与用户感兴趣的风格相近的候选风格视觉数据。
78.根据一些实施例,步骤s261中,修正项可以包括修正步长与一组随机数的乘积,其中,修正步长可以随着每次循环递减,且一组随机数中的随机数的数量可以与一组风格化参数中的风格化参数的数量相同,并且其中,多组经修正的预测性风格化参数的组数可以与在交互界面上展示的多个候选风格视觉数据的数量相同。
79.示例性的,修正项可以为s
×
rj,其中,s为修正步长,rj为一组随机数。在第一次循环时修正步长s的初始值可以为0.2,随着循环次数的增加,修正步长s可以逐步递减,例如,在每次循环后更新修正步长s=s
×
0.8。
80.示例性的,rj是一组随机产生的符合标准正态分布的随机数,rj中随机数的数量与上述一组风格化参数中风格化参数的数量相同。例如,当上述一组风格化参数包括八个风格化参数时,rj可以是一组随机产生的包含八个随机数的数组。
81.示例性的,基于用户对在交互界面上展示的多个候选风格视觉数据的选择,可以确定与用户感兴趣的风格相关联的一组预测性风格化参数为xi。对该一组预测性风格化参数xi添加修正项s
×
rj,可以生成经修正的预测性风格化参数xj,即,xj=xi+s
×
rj。假设在交互界面上展示的候选风格视觉数据的数量为九,则此时可以生成九组随机产生的随机数,以获得九组经修正的预测性风格化参数。
82.根据本公开的实施例,通过利用修正步长与一组随机数的乘积构建修正项,可以使每次循环中通过添加修正项得到的经修正的预测性风格化参数逐步逼近用户感兴趣的风格,从而最终生成能够包括用户感兴趣风格的候选风格视觉数据。
83.根据本公开的另一方面,还提供一种视觉数据处理装置。
84.图5是图示出根据示例性实施例的视觉数据处理装置500的示意性框图。
85.如图5所示,视觉数据处理装置500包括:视觉数据获取模块510,被配置为获取待处理视觉数据;视觉数据风格化模块520,被配置为将待处理视觉数据风格化以获得具有至少一种基底风格的至少一个基底风格视觉数据,每个基底风格视觉数据具有一组风格化参数以表征对应的基底风格;视觉数据风格调整模块530,被配置为对至少一个基底风格视觉数据进行风格上的调整以生成多个候选风格视觉数据,其中,每个候选风格视觉数据具有对应的候选风格;第一视觉数据展示模块540,被配置为将多个候选风格视觉数据在交互界面上进行展示;风格化参数确定模块550,被配置为基于用户对在交互界面上展示的多个候选风格视觉数据的选择,确定与用户感兴趣的风格相关联的至少一组预测性风格化参数;以及第一循环执行模块560,被配置为执行包括以下操作的至少一次循环,以获得符合用户感兴趣的风格的视觉数据,第一循环执行模块560包括:修正项添加模块561,被配置为对至少一组预测性风格化参数添加修正项以生成多组经修正的预测性风格化参数;候选风格视觉数据生成模块562,被配置为基于多组经修正的预测性风格化参数,生成多个经修正的候选风格视觉数据;第二视觉数据展示模块563,被配置为将多个经修正的候选风格视觉数据在交互界面上进行展示以用于用户进行当前选择;指示模块564,被配置为确定用户是否在进行当前选择之后指示结束交互操作;获得模块565,被配置为响应于确定用户在进行当前
选择之后指示结束交互操作,基于用户的当前选择,获得符合用户感兴趣的风格的视觉数据;第二循环执行模块566,被配置为响应于确定用户在进行当前选择之后未指示结束交互操作,获取多组经修正的预测性风格化参数之中基于用户的当前选择而确定的至少一组预测性风格化参数,并执行下一次循环。
86.根据本公开的实施例,通过将待处理视觉数据风格化生成的有限数量的基底风格视觉数据进行风格上的调整后生成多个候选风格视觉数据在交互界面上进行展示,用户可以根据自己的兴趣进行选择,并在用户选择候选风格的视觉数据后通过执行对用户选择的候选风格的视觉数据进行修正的循环操作,将每一次用户选择的候选风格的视觉数据进行修正直到用户选择到符合用户感兴趣的风格的视觉数据。该视觉数据处理方法通过对有限数量的基底风格视觉数据进行风格上的调整以生成无限数量的候选风格视觉数据,并通过用户与交互界面之间的交互操作来选择用户感兴趣的风格的视觉数据,用户每一次的选择都是基于用户自己是否感兴趣,同时,对与用户感兴趣的风格相关联的至少一组预测性风格化参数添加修正项,可以使得到的用户感兴趣的风格的视觉数据更加符合用户自身需求,从而满足用户个性化定制的需求,同时用户通过交互操作就可以选择到符合用户感兴趣的风格的视觉数据,使视觉数据处理的操作过程更加简单。
87.应当理解,图5中所示装置500的各个模块可以与参考图2描述的方法200中的各个步骤相对应。由此,上述针对方法200描述的操作、特征和优点同样适用于装置500及其包括的模块。为了简洁起见,某些操作、特征和优点在此不再赘述。
88.虽然上面参考特定模块讨论了特定功能,但是应当注意,本文讨论的各个模块的功能可以分为多个模块,和/或多个模块的至少一些功能可以组合成单个模块。本文讨论的特定模块执行动作包括该特定模块本身执行该动作,或者替换地该特定模块调用或以其他方式访问执行该动作(或结合该特定模块一起执行该动作)的另一个组件或模块。因此,执行动作的特定模块可以包括执行动作的该特定模块本身和/或该特定模块调用或以其他方式访问的、执行动作的另一模块。
89.还应当理解,本文可以在软件或程序模块的一般上下文中描述各种技术。上面关于图5描述的各个模块可以在硬件中或在结合软件和/或固件的硬件中实现。例如,这些模块可以被实现为计算机程序代码/指令,该计算机程序代码/指令被配置为在一个或多个处理器中执行并存储在计算机可读存储介质中。可替换地,这些模块可以被实现为硬件逻辑/电路。例如,在一些实施例中,如图5所示的视觉数据获取模块510,视觉数据风格化模块520,视觉数据风格调整模块530,第一视觉数据展示模块540,风格化参数确定模块550,第一循环执行模块560,修正项添加模块561,候选风格视觉数据生成模块562,第二视觉数据展示模块563,指示模块5564,获得模块565,和第二循环执行模块566中的一个或者两个可以可以一起被实现在片上系统(system on chip,soc)中。soc可以包括集成电路芯片(其包括处理器(例如,中央处理单元(central processing unit,cpu)、微控制器、微处理器、数字信号处理器(digital signal processor,dsp)等)、存储器、一个或多个通信接口、和/或其他电路中的一个或多个部件),并且可以可选地执行所接收的程序代码和/或包括嵌入式固件以执行功能。
90.根据本公开的一方面,提供了一种计算机设备,其包括存储器、处理器以及存储在存储器上的计算机程序。该处理器被配置为执行计算机程序以实现上文描述的任一方法实
施例的步骤。
91.根据本公开的一方面,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上文描述的任一方法实施例的步骤。
92.在下文中,结合图6描述这样的计算机设备和计算机可读存储介质的说明性示例。
93.图6示出了可以被用来实施本文所描述的方法的计算机设备600的示例配置。举例来说,图1中所示的服务器120和/或客户端设备110可以包括类似于计算机设备600的架构。上述视觉数据处理装置也可以全部或至少部分地由计算机设备600或类似设备或系统实现。
94.计算机设备600可以是各种不同类型的设备。计算机设备600的示例包括但不限于:台式计算机、服务器计算机、笔记本电脑或上网本计算机、移动设备(例如,平板电脑、蜂窝或其他无线电话(例如,智能电话)、记事本计算机、移动台)、可穿戴设备(例如,眼镜、手表)、娱乐设备(例如,娱乐器具、通信地耦合到显示设备的机顶盒、游戏机)、电视或其他显示设备、汽车计算机等等。
95.计算机设备600可以包括能够诸如通过系统总线614或其他适当的连接彼此通信的至少一个处理器602、存储器604、(多个)通信接口606、显示设备608、其他输入/输出(i/o)设备610以及一个或更多大容量存储设备612。
96.处理器602可以是单个处理单元或多个处理单元,所有处理单元可以包括单个或多个计算单元或者多个核心。处理器602可以被实施成一个或更多微处理器、微型计算机、微控制器、数字信号处理器、中央处理单元、状态机、逻辑电路和/或基于操作指令来操纵信号的任何设备。除了其他能力之外,处理器602可以被配置成获取并且执行存储在存储器604、大容量存储设备612或者其他计算机可读介质中的计算机可读指令,诸如操作系统616的程序代码、应用程序618的程序代码、其他程序620的程序代码等。
97.存储器604和大容量存储设备612是用于存储指令的计算机可读存储介质的示例,指令由处理器602执行来实施前面所描述的各种功能。举例来说,存储器604一般可以包括易失性存储器和非易失性存储器二者(例如ram、rom等等)。此外,大容量存储设备612一般可以包括硬盘驱动器、固态驱动器、可移除介质、包括外部和可移除驱动器、存储器卡、闪存、软盘、光盘(例如cd、dvd)、存储阵列、网络附属存储、存储区域网等等。存储器604和大容量存储设备612在本文中都可以被统称为存储器或计算机可读存储介质,并且可以是能够把计算机可读、处理器可执行程序指令存储为计算机程序代码的非暂态介质,计算机程序代码可以由处理器602作为被配置成实施在本文的示例中所描述的操作和功能的特定机器来执行。
98.多个程序可以存储在大容量存储设备612上。这些程序包括操作系统616、一个或多个应用程序618、其他程序620和程序数据622,并且它们可以被加载到存储器604以供执行。这样的应用程序或程序模块的示例可以包括例如用于实现客户端应用112、方法200和/或本文描述的另外的实施例的计算机程序逻辑(例如,计算机程序代码或指令)。
99.虽然在图6中被图示成存储在计算机设备600的存储器604中,但是模块616、618、620和622或者其部分可以使用可由计算机设备600访问的任何形式的计算机可读介质来实施。如本文所使用的,“计算机可读介质”至少包括两种类型的计算机可读介质,也就是计算机可读存储介质和通信介质。
100.计算机可读存储介质包括通过用于存储信息的任何方法或技术实施的易失性和非易失性、可移除和不可移除介质,信息诸如是计算机可读指令、数据结构、程序模块或者其他数据。计算机可读存储介质包括而不限于ram、rom、eeprom、闪存或其他存储器技术,cd-rom、数字通用盘(dvd)、或其他光学存储装置,磁盒、磁带、磁盘存储装置或其他磁性存储设备,或者可以被用来存储信息以供计算机设备访问的任何其他非传送介质。与此相对,通信介质可以在诸如载波或其他传送机制之类的已调制数据信号中具体实现计算机可读指令、数据结构、程序模块或其他数据。本文所定义的计算机可读存储介质不包括通信介质。
101.一个或更多通信接口606用于诸如通过网络、直接连接等等与其他设备交换数据。这样的通信接口可以是以下各项中的一个或多个:任何类型的网络接口(例如,网络接口卡(nic))、有线或无线(诸如ieee 802.11无线lan(wlan))无线接口、全球微波接入互操作(wi-max)接口、以太网接口、通用串行总线(usb)接口、蜂窝网络接口、bluetooth
tm
接口、近场通信(nfc)接口等。通信接口606可以促进在多种网络和协议类型内的通信,其中包括有线网络(例如lan、电缆等等)和无线网络(例如wlan、蜂窝、卫星等等)、因特网等等。通信接口906还可以提供与诸如存储阵列、网络附属存储、存储区域网等等中的外部存储装置(未示出)的通信。
102.在一些示例中,可以包括诸如监视器之类的显示设备608,以用于向用户显示信息和视觉数据。其他i/o设备610可以是接收来自用户的各种输入并且向用户提供各种输出的设备,并且可以包括触摸输入设备、手势输入设备、摄影机、键盘、遥控器、鼠标、打印机、音频输入/输出设备等等。
103.本文描述的技术可以由计算机设备600的这些各种配置来支持,并且不限于本文所描述的技术的具体示例。例如,该功能还可以通过使用分布式系统在“云”上全部或部分地实现。云包括和/或代表用于资源的平台。平台抽象云的硬件(例如,服务器)和软件资源的底层功能。资源可以包括在远离计算机设备600的服务器上执行计算处理时可以使用的应用和/或数据。资源还可以包括通过因特网和/或通过诸如蜂窝或wi-fi网络的订户网络提供的服务。平台可以抽象资源和功能以将计算机设备600与其他计算机设备连接。因此,本文描述的功能的实现可以分布在整个云内。例如,功能可以部分地在计算机设备600上以及部分地通过抽象云的功能的平台来实现。
104.虽然在附图和前面的描述中已经详细地说明和描述了本公开,但是这样的说明和描述应当被认为是说明性的和示意性的,而非限制性的;本公开不限于所公开的实施例。通过研究附图、公开内容和所附的权利要求书,本领域技术人员在实践所要求保护的主题时,能够理解和实现对于所公开的实施例的变型。在权利要求书中,词语“包括”不排除未列出的其他元件或步骤,不定冠词“一”或“一个”不排除多个,术语“多个”是指两个或两个以上,并且术语“基于”应解释为“至少部分地基于”。在相互不同的从属权利要求中记载了某些措施的仅有事实并不表明这些措施的组合不能用来获益。
技术特征:
1.一种视觉数据处理方法,包括:获取待处理视觉数据;将所述待处理视觉数据风格化以获得具有至少一种基底风格的至少一个基底风格视觉数据,每个所述基底风格视觉数据具有一组风格化参数以表征对应的基底风格;对所述至少一个基底风格视觉数据进行风格上的调整以生成多个候选风格视觉数据,其中,每个所述候选风格视觉数据具有对应的候选风格;将所述多个候选风格视觉数据在交互界面上进行展示;基于用户对在所述交互界面上展示的所述多个候选风格视觉数据的选择,确定与所述用户感兴趣的风格相关联的至少一组预测性风格化参数;以及执行包括以下操作的至少一次循环,以获得符合所述用户感兴趣的风格的视觉数据:对所述至少一组预测性风格化参数添加修正项以生成多组经修正的预测性风格化参数;基于所述多组经修正的预测性风格化参数,生成多个经修正的候选风格视觉数据;将所述多个经修正的候选风格视觉数据在所述交互界面上进行展示以用于所述用户进行当前选择;确定所述用户是否在进行所述当前选择之后指示结束交互操作;响应于确定所述用户在进行所述当前选择之后指示结束交互操作,基于所述用户的所述当前选择,获得符合所述用户感兴趣的风格的视觉数据;响应于确定所述用户在进行所述当前选择之后未指示结束交互操作,获取所述多组经修正的预测性风格化参数之中基于所述用户的所述当前选择而确定的至少一组预测性风格化参数,并执行下一次所述循环。2.根据权利要求1所述的方法,其中,所述将所述待处理视觉数据风格化以获得具有至少一种基底风格的至少一个基底风格视觉数据包括:通过用于提供所述至少一种基底风格的静态处理模块将所述待处理视觉数据风格化,得到所述具有至少一种基底风格的所述至少一个基底风格视觉数据,其中,所述静态处理模块包括分别与所述至少一种基底风格对应的至少一个预训练的神经网络模型。3.根据权利要求2所述的方法,其中,所述至少一次循环通过与所述静态处理模块耦接的动态处理模块执行,所述动态处理模块基于所述用户的所述当前选择而自适应调整所述至少一组预测性风格化参数,并且其中,所述动态处理模块还被配置为执行对所述至少一个基底风格视觉数据进行风格上的调整的步骤。4.根据权利要求1至3任一项所述的方法,其中,所述风格化参数包括至少一个基底风格参数和附加风格参数,所述附加风格参数包括亮度参数、对比度参数、细节增强力度参数、颜色饱和度参数和伽马校正参数中至少一者,其中,所述至少一个基底风格参数和所述附加风格参数具有相应的权重,该权重基于所述对应的基底风格确定。5.根据权利要求4所述的方法,其中,所述对所述至少一个基底风格视觉数据进行风格上的调整包括执行下列至少一者:改变所述至少一个基底风格参数和所述附加风格参数的权重;
对所述至少一个基底风格视觉数据进行视觉数据混合。6.根据权利要求1至3中任一项所述的方法,其中,所述修正项包括修正步长与一组随机数的乘积,其中,所述修正步长随着每次所述循环递减,且所述一组随机数中的随机数的数量与所述一组风格化参数中的风格化参数的数量相同,并且其中,所述多组经修正的预测性风格化参数的组数与在所述交互界面上展示的所述多个候选风格视觉数据的数量相同。7.一种视觉数据处理装置,包括:视觉数据获取模块,被配置为获取待处理视觉数据;视觉数据风格化模块,被配置为将所述待处理视觉数据风格化以获得具有至少一种基底风格的至少一个基底风格视觉数据,每个所述基底风格视觉数据具有一组风格化参数以表征对应的基底风格;视觉数据风格调整模块,被配置为对所述至少一个基底风格视觉数据进行风格上的调整以生成多个候选风格视觉数据,其中,每个所述候选风格视觉数据具有对应的候选风格;第一视觉数据展示模块,被配置为将所述多个候选风格视觉数据在交互界面上进行展示;风格化参数确定模块,被配置为基于用户对在所述交互界面上展示的所述多个候选风格视觉数据的选择,确定与所述用户感兴趣的风格相关联的至少一组预测性风格化参数;以及第一循环执行模块,被配置为执行包括以下操作的至少一次循环,以获得符合所述用户感兴趣的风格的视觉数据,其中,所述第一循环执行模块包括:修正项添加模块,被配置为对所述至少一组预测性风格化参数添加修正项以生成多组经修正的预测性风格化参数;候选风格视觉数据生成模块,被配置为基于所述多组经修正的预测性风格化参数,生成多个经修正的候选风格视觉数据;第二视觉数据展示模块,被配置为将所述多个经修正的候选风格视觉数据在所述交互界面上进行展示以用于所述用户进行当前选择;指示模块,被配置为确定所述用户是否在进行所述当前选择之后指示结束交互操作;获得模块,被配置为响应于确定所述用户在进行所述当前选择之后指示结束交互操作,基于所述用户的所述当前选择,获得符合所述用户感兴趣的风格的视觉数据;第二循环执行模块,被配置为响应于确定所述用户在进行所述当前选择之后未指示结束交互操作,获取所述多组经修正的预测性风格化参数之中基于所述用户的所述当前选择而确定的至少一组预测性风格化参数,并执行下一次所述循环。8.一种计算机设备,包括:至少一个处理器;以及存储器,其上存储有计算机程序,其中,所述计算机程序在被所述处理器执行时,使所述处理器执行权利要求1至6中任一项所述的方法。9.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,使所述处理器执行权利要求1至6中任一项所述的方法。
技术总结
本公开提供了一种视觉数据处理方法、装置、计算机设备及可读存储介质。方法包括:获取待处理视觉数据;将待处理视觉数据风格化以获得基底风格视觉数据;对基底风格视觉数据进行风格上的调整以生成多个候选风格视觉数据在交互界面上展示;基于用户对多个候选风格视觉数据的选择,确定与用户感兴趣的风格相关联的预测性风格化参数;执行至少一次循环:对预测性风格化参数添加修正项以生成多组经修正的预测性风格化参数;基于多组经修正的预测性风格化参数,生成修正的候选风格视觉数据在交互界面上展示;响应于用户指示结束交互操作,基于用户的当前选择,获得符合用户感兴趣的风格的视觉数据;响应于用户未指示结束交互操作,执行下一次循环。执行下一次循环。执行下一次循环。
技术研发人员:高熙和 张浩 张磊
受保护的技术使用者:瀚博半导体(上海)有限公司
技术研发日:2023.06.26
技术公布日:2023/8/1
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
