一种AI交互方法、系统、装置及介质与流程
未命名
08-12
阅读:130
评论:0
一种ai交互方法、系统、装置及介质
技术领域
1.本说明书涉及人工智能领域,特别涉及一种ai交互方法、系统、装置及介质。
背景技术:
2.目前,通过ai人物提供较为简单的商品介绍或者服务越来越普遍,降低了人工成本,也为人们的生活带来了便利。随着ai人物的广泛应用,对ai人物的要求也越来越高,例如,长时间使用单一形象的ai人物,势必会带给用户无趣感,经常更换ai人物的形象可以有效解决该问题。同时,为了增加和观看用户之间交互感,需要使更换后的ai人物和播报内容进行统一,实现文字和唇形动作完全匹配。
3.因此,希望提供一种ai交互方法,能够快速改变ai人物,增加用户在观看ai人物在播报时的新鲜感和趣味性,并且保证音画同步。
技术实现要素:
4.本说明书提供一种ai交互方法,能够快速改变ai人物,增加用户在观看ai人物在播报时的新鲜感和趣味性,并且可以保证音画同步。
5.本说明书一个或多个实施例提供一种ai交互方法,该方法包括:获取初始文本和预设音频,生成目标音频;基于目标音频,确定唇形匹配视频;基于唇形匹配视频,与当前ai人物进行面部置换,确定目标视频。
6.本说明书一个或多个实施例提供一种ai交互系统,该系统包括:获取模块,用于获取初始文本和预设音频,生成目标音频;唇形匹配模块,用于基于目标音频,确定唇形匹配视频;目标视频确定模块,用于基于唇形匹配视频,与当前ai人物进行面部置换,确定目标视频。
7.本说明书一个或多个实施例提供一种ai交互装置,该装置包括至少一个处理器以及至少一个存储器;该至少一个存储器用于存储计算机指令;该至少一个处理器用于执行该计算机指令中的至少部分指令以实现如上述的ai交互方法。
8.本说明书一个或多个实施例提供一种计算机可读存储介质,该存储介质存储计算机指令,当计算机读取存储介质中的计算机指令后,计算机执行如上述的ai交互方法。
附图说明
9.本说明书将以示例性实施例的方式进一步说明,这些示例性实施例将通过附图进行详细描述。这些实施例并非限制性的,在这些实施例中,相同的编号表示相同的结构,其中:
10.图1是根据本说明书一些实施例所示的ai交互系统的应用场景示意图;
11.图2是根据本说明书一些实施例所示的ai交互方法的示例性流程图;
12.图3是根据本说明书一些实施例所示的预处理过程的示例性示意图;
13.图4是根据本说明书一些实施例所示的确定初步文本信息的示例性示意图;
14.图5是根据本说明书一些实施例所示的确定目标文本信息的示例性示意图;
具体实施方式
15.为了更清楚地说明本说明书实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地,下面描述中的附图仅仅是本说明书的一些示例或实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图将本说明书应用于其它类似情景。除非从语言环境中显而易见或另做说明,图中相同标号代表相同结构或操作。
16.应当理解,本文使用的“系统”、“装置”、“单元”和/或“模块”是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而,如果其他词语可实现相同的目的,则可通过其他表达来替换所述词语。
17.如本说明书和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者设备也可能包含其它的步骤或元素。
18.本说明书中使用了流程图用来说明根据本说明书的实施例的系统所执行的操作。应当理解的是,前面或后面操作不一定按照顺序来精确地执行。相反,可以按照倒序或同时处理各个步骤。同时,也可以将其他操作添加到这些过程中,或从这些过程移除某一步或数步操作。
19.图1是根据本说明书一些实施例所示的ai交互系统的应用场景示意图。
20.通过本说明书中一些实施例中,ai交互系统可以应用于各种直播间中改变ai人物(例如,ai主播)的情况,通过使用本说明书的ai交互系统可以保证更换后的ai主播进行播报时音画同步。
21.如图1所示,本说明书实施例所涉及ai交互系统的应用场景100中可以包括服务器110、用户终端120、存储器130、网络140以及ai交互平台150。
22.服务器110可以指具有计算能力的系统,可以包括各种计算机,比如服务器、个人计算机,也可以是由多台计算机以各种结构连接组成的计算平台。在一些实施例中,服务器110可以在云平台上实现。例如,云平台可以包括私有云、公共云、混合云、社区云、分布式云、跨云、多云等其中一种或几种的组合。
23.服务器110中可以包括处理器(图1未示出),处理器可以执行程序指令。处理器可以包括各种常见的通用中央处理器,图形处理器,微处理器,特殊应用集成电路,或其他类型的集成电路。存储介质可包括大容量存储器、可移动存储器、易失性读写存储器、只读存储器(rom)等或其任意组合。
24.在一些实施例中,服务器110可以获取初始文本和预设音频,生成目标音频。在一些实施例中,服务器110可以基于目标音频,确定唇形匹配视频。在一些实施例中,服务器110可以基于唇形匹配视频,与当前ai人物进行面部置换,确定目标视频。
25.用户终端120可以提供与用户相关的信息和数据。在一些实施例中,用户终端120可以是移动设备、平板计算机、膝上型计算机、台式计算机等其他具有输入和/或输出功能的设备中的一种或其任意组合。在一些实施例中,用户可以通过用户终端120进入直播间并
观看ai人物对商品的介绍。在一些实施例中,用户终端120可以通过网络140和ai交互系统的应用场景100中的其他组件(例如,服务器110、存储器130、ai交互平台150)传输相关的信息和数据。
26.存储器130可以存储数据、指令和/或任何其他信息。在一些实施例中,存储器130可以存储从服务器110处获得的数据。例如,存储器可以存储目标音频、唇形匹配视频等。在一些实施例中,存储器130可以存储服务器110可以执行或使用的数据和/或指令,以执行本说明书中描述的示例性方法。在一些实施例中,存储器130可包括大容量存储器、可移除存储器、易失性读写存储器、只读存储器(rom)等其中一种或几种的组合。在一些实施例中,存储器130可以通过云平台实现。例如,云平台可以包括私有云、公共云、混合云、社区云、分布式云、跨云、多云等其中一种或几种的组合。在一些实施例中,存储器130可以是服务器110的一部分,也可以是独立的,与服务器110直接或间接相连。
27.网络140可以包括能够促进ai交互系统的应用场景100中的组件的信息和/或数据交换的任何合适的网络。在一些实施例中,ai交互系统的应用场景100中的一个或多个组件(例如,服务器110、存储器130等)之间可以通过网络140交换信息和/或数据。网络140可以包括公共网络(如互联网)、私人网络(例如,局域网、广域网等)等其中一种或几种组合。例如,网络140可以包括有线网络、光纤网络、电信网络、局域网、无线局域网、zigbe
tm
网络、近场通信(nfc)网络等其中一种或几种的组合。在一些实施例中,网络140可以包括一个或多个网络接入点。例如,网络140可以包括有线和/或无线网络接入点,例如基站和/或因特网交换点,通过该接入点,ai交互系统的应用场景100中的一个或多个组件可以连接网络140以交换数据和/或信息。
28.ai平台可以指对商品或者服务进行展示或者说明的平台。ai平台可以包括至少一个ai直播间。任意一个ai直播间可以包括至少一个ai人物对对商品或者服务进行展示或者说明。用户可以基于用户终端120通过网络140连接至ai平台,查看ai人物对商品或者服务进行展示或者说明。
29.应当注意ai交互系统的应用场景100仅仅是为了说明的目的而提供的,并不意图限制本技术的范围。对于本领域的普通技术人员来说,可以根据本说明书的描述,做出多种修改或变化。例如,ai交互系统的应用场景100可以在其它设备上实现类似或不同的功能。然而,这些变化和修改不会背离本技术的范围。
30.图2是根据本说明书一些实施例所示的ai交互方法的示例性流程图。在一些实施例中,流程200可以由处理器执行。流程200包括以下步骤:
31.步骤210,获取初始文本以及预设音频,生成目标音频。
32.初始文本可以指直播时需要播放的原始文本。对于商品销售服务,初始文本可以指对至少一个商品的常规介绍。初始文本的内容可以对应于至少一个商品。初始文本可以通过用户输入、自动生成等获取。例如,用户可以将商品介绍作为文字输入到处理器中作为初始文本,处理器也可以根据商品的历史介绍或者商品特征嵌入到预设的文本模板中生成初始文本。
33.预设音频可以指具有预设音色的母音频。音色可以指声音特征。音色可以包括沙哑、低沉、高亢、慵懒、甜美、平稳、清脆等。预设音色可以根据商品特征、受众用户特征进行设置。例如,当商品为轮椅时,可以使用低沉、平稳的音色作为预设音色。音频可以指只包含
声音的载体。在一些实施例中,处理器可以对预设音频和初始文本、对应商品、受众用户预设对应关系,并基于该对应关系确定与当前商品对应的预设音频。在一些实施例中,预设音频可以具有预设播放速度。在一些实施例中,处理器可以基于初始文本通过嵌入层确定对应的初始文本特征,再根据训练好的机器学习模型确定商品特征、受众用户特征。预设音频可以基于初始文本、商品特征、受众用户特色等确定,可以提高用户的感性度和体验感。
34.目标音频可以指初始文本以预设音色生成的有声音频。目标音频可以指具有预设音色的对初始文本播放的音频。在一些实施例中,目标音频可以具有和预设音频一样的播放速度。通过合成目标音频可以将需要播放的初始文本转化成具有一定音色要求的声音,使得商品和/或服务的类型与ai人物介绍商品和/或服务的音色相统一,可以提高用户的体验感。
35.在一些实施例中,处理器可以基于初始文本和预设音频,通过语音合成算法生成目标音频。关于语音合成算法的详细内容可以参见本说明图3及其相关描述。在一些实施例中,处理器接收或者生成初始文本后,并对初始文本创建音频索引,创建音频索引可以包括将初始文本中的文本节转换成与文本节相对应的音频文件的音频索引,处理器可以按照音频索引通过文字语音转化软件(例如,tts软件)合成与与文本节对应的音频节,并按照与文本节的索引顺序生成目标音频。通过设置音频索引,可以快速确定当次播放任务对应的文本节和音频节,便于灵活的去除和添加文本节和音频节,提高目标音频的合成效率。
36.步骤220,基于目标音频,确定唇形匹配视频。
37.唇形匹配可以指将目标音频与ai人物嘴唇动作相匹配。ai人物可以指可以和用户进行交互的虚拟人物。交互的方式可以包括文字交互、语音交互等任何可以进行沟通的方式。交互可以指ai人物单方面的输出和/或ai人物和用户之间的互动。ai人物可以通过网络直播技术(例如,直播间)与用户进行交互,示例性地,直播间可以包括ai人物,用户进入该直播间可以与ai人物进行交互。例如,当用户需要了解某个商品的详细内容或需要被提供服务时,用户可以登录对应直播间,通过与ai人物的交互进行了解。嘴唇动作可以指唇形的动作。例如,当目标音频包含“播”这个字时,对应的嘴唇动作可以包括两个子嘴唇动作,依次包括双唇紧闭和双唇突然打开。
38.唇形匹配视频可以指使ai人物的嘴唇做出的与初始文本相对应嘴唇动作的有声有画面的视频。视频可以指包含图像和声音的载体。关于ai人物选择的详细内容可以参见本说明书图5及其相关描述。在一些实施例中,唇形匹配视频可以包括ai人物整体、面部以及ai人物对应的嘴唇动作。
39.在一些实施例中,处理器可以基于目标音频与参考视频通过唇形匹配算法确定唇形匹配视频。关于参考视频、唇形匹配算法的详细内容可以参见本说明书图4及其相关描述。
40.在一些实施例中,唇形匹配视频可以指使选定的嘴唇做出的与初始文本相对应动作的有声有画面的视频。在一些实施例中,唇形匹配视频可以包括嘴唇以及嘴唇动作。
41.在一些实施例中,需要基于初始文本特征确定对应的合适唇形。例如,当目标文本的内容为有关玩具的介绍,ai人物可能为幼龄儿童的形象,对应的合适唇形可以包括幼龄儿童的嘴唇。在一些实施例中,唇形可以通过唇形模型进行选择。唇形可以指对初始文本进行播报的嘴唇形状。在一些实施例中,唇型模型的输入可以包括目标文本以及目标音频,输
出为对应的唇形。唇形模型可以通过训练获取。
42.在一些实施例中,初始文本可以基于语义分割成多个有顺序的字节,字节可以包括子、词或句子。例如,初始文本为“我爱你”,对应的字节为“我”、“爱”、“你”。在一些实施例中,唇形匹配视频可以包括多个子视频,每个子视频可以包括至少一个子嘴唇动作。每个子视频对应一个初始文本的字节,每一个字节与至少一个子嘴唇动作对应。例如,“播”对应的子视频中包括两个子嘴唇动作。在一些实施例中,将每个子视频按照对应字节在初始文本中的顺序合成唇型匹配视频。每个子视频中,每个字节的播放时长和对应所包含的至少一个子嘴唇动作的总时长相同,保证音画同步。例如,“播”的播放时间为0.1秒,则对应每个嘴唇动作的时间为0.05秒。每个字节的播放时长可以根据预设音频确定。例如,预设音频为100个字/50s,则每个字节的播放时长为0.5s。
43.在一些实施例中,处理器还可以基于初始文本,通过唇形匹配视频生成模型生成唇形匹配视频。唇形匹配视频生成模型可以是机器学习模型。唇形匹配视频生成模型包括文本处理层、嘴唇动作生成层、视频生成层,文本处理层可以用于基于初始文本确定字节序列,嘴唇动作生成层用于基于唇形和字节词序列生成嘴唇动作序列,视频生成层用于基于嘴唇动作序列、预设音频以及唇形确定唇形匹配视频。在一些实施例中,预设音频设置有预设播放速度,通过在唇形匹配视频生成模型中输入预设音频,可以保证音画同步。唇形匹配视频生成模型可以通过文本处理层、嘴唇动作生成层、视频生成层与唇形模型共同训练确定。在一些实施例中,唇形模型的输出包括至少两种唇形,对应的唇形匹配视频的数目与唇形数量相同。
44.通过本说明书的一些实施例,通过获取唇形匹配视频可以获取与初始文本、预设音频相匹配的包含ai人物或者唇形的唇形匹配视频,保证音画同步。
45.步骤230,基于唇形匹配视频,与当前ai人物进行面部置换,确定目标视频。
46.当前ai人物可以指当前直播间的ai人物。由于ai人物一成不变会对观众造成审美疲劳,为了更好的用户体验,需要对ai人物面部进行置换。面部置换可以指对ai人物面部整体或者局部的置换。
47.目标视频可以指包括目标ai人物对初始文本进行播报的有声视频。目标ai人物可以指面部或者面部的局部置换过的ai人物。
48.在一些实施例中,处理器可以通过face-alienment算法获取选定的ai人物的目标面部信息;基于目标面部信息与唇形匹配视频,通过deepfake算法对当前ai人物进行面部置换,确定具有目标面部信息的目标ai人物对应的无声视频;基于唇形匹配视频提取有声音频;将无声视频和有声音频合并,确定目标视频。关于目标ai人物、目标视频的详细内容可以参考本说明书图5机器相关描述。
49.在本说明书的一些实施例中,通过使用ai人物形象构建技术,使无形的文字内容通过虚拟的人物身份播放出来,使用户在进行观看时,同时拥有图像和声音,能够给予用户实时对话体验,提升用户体验。
50.图3是根据本说明书一些实施例所示的生成目标音频的示例性示意图。
51.如图3所示,基于初始文本310和预设音频340,通过语音合成算法生成目标音频360。在一些实施例中,语音合成算法可以包括机器学习模型,例如,语音合成算法可以包括tacotron算法。示例性地,tacotron算法320可以包括编码器模块321、解码器模块322以及
后处理网络323。编码器模块321可以用于将输入的初始文本310的每个字节映射到离散的one-hot编码向量,再编码到低维连续的嵌入形式,输出文本嵌入330。解码器模块322可以用于将编码器模块321输出的文本嵌入330进行解码,并和预设音频340合成,输出为预设音频对应的声谱350;后处理网络323可以用于将解码器模块322输出的声谱350转换为包含有目标波形的目标音频360。在一些实施例中,tacotron算法320的训练可以通过编码器模块321、解码器模块322以及后处理网络323的联合训练确定。示例性地,例如,向编码器模块输入训练样本,即历史初始文本,输出对应的历史文本嵌入;然后将编码器模块的输出和历史预设音频作为解码器模块的输入,输出历史音频对应的历史声谱;进一步地,将解码器模块输出的历史声谱作为后处理网络的输入。训练过程中,基于对应的标签和后处理网络的输出建立损失函数对语音合成算法的参数进行更新。
52.在一些实施例中,语音合成算法的训练样本可以基于历史标注数据获取,历史标注数据可以是包括历史初始文本和历史预设音频。对应的标签为历史目标音频。标签可以人工标注。
53.在本说明书的一些实施例中,通过使用tacotron网络实现了ai人物的语音合成。通过语音合成,可以通过任意改变初始文本以及提供的母音频实现ai人物语音的生成,可以实现ai人物以不同的音色播报不同的信息,增加了ai人物进行播报的灵活性,满足用户的多样性需求。
54.图4是根据本说明书一些实施例所示的确定唇形匹配视频的示例性示意图。
55.如图4所示,基于目标音频与参考视频通过唇形匹配算法确定唇形匹配视频。在一些实施例中,唇形匹配算法可以包括机器学习模型,例如,唇形匹配算法可以包括wav2lip网络模型。如图4所示,wav2lip网络模型430输入包括目标音频410和参考视频420,输出可以为唇形匹配视频440。参考视频可以指包括唇形或者人脸的图片或者视频。wav2lip网络模型可以通过训练确定。
56.wav2lip网络模型可以通过训练获取。
57.在本说明书的一些实施例中,通过使用了wav2lip网络实现了文字与视频人物嘴唇匹配,解决了传统ai人物音画不同步的问题。
58.图5是根据本说明书一些实施例所示的确定目标视频的示例性示意图。
59.ai人物可以具有人物特征标签,ai人物特征标签可以包括外形特征对应的标签,例如,特征标签可以包括20-30、女性、成熟、圆脸等。ai人物特征标签可以通过向量表示,向量中的每个元素都可以代表一个外形特征。在一些实施例中,唇形、初始文本、预设音频都与唇形标签、初始文本标签、预设音频标签一一对应。唇形标签可以指唇部的特征对应的标签。例如,唇部标签可以包括占脸部的面积比例、男性、30-40等。初始文本标签可以指与初始文本的内容有关的标签。例如,初始文本标签可以包括玩具布偶、淑女服饰、咨询等。预设音频标签可以包括音色、播放速度等。唇形标签、初始文本标签、预设音频标签分别可以通过唇形标签向量、初始文本标签向量、预设音频标签向量表示。选定的ai人物通常以图片的形式展现。
60.在一些实施例中,处理器可以通过唇形、初始文本、预设音频确定选定的ai人物。选定的ai人物可以具有目标面部信息。目标面部信息可以指目标ai人物需要具备的面部信息。
61.在一些实施例中,处理器可以预设ai人物分别与唇形、初始文本、预设音频之间的匹配度,并基于ai人物与唇形、初始文本、预设音频之间的匹配度以及各自对应的权重确定目标匹配度,基于目标匹配度确定ai人物。匹配度可以通过向量间相似度表示。例如,ai人物和唇形的匹配度可以通过ai人物特征标签向量和唇形标签向量的相似度表示,相似度越高,匹配度越高。向量间的相似度可以通过向量距离表示。匹配度可以通过数字或者其他形式表示。数字越高,匹配度越高。在一些实施例中,唇形、初始文本、预设音频与ai人物之间的匹配度对应的权重可以人工设定。在一些实施例中,唇形于ai人物的匹配度的权重最高。示例性地,目标匹配度可以通过公式(1)确定。α=β1×
γ1+β2×
γ2+β3×
γ3其中,α为目标匹配度,β1、β2、β3可以分别表示唇形与ai人物的匹配度、初始文本与ai人物的匹配度、预设音频与ai人物的匹配度。γ1、γ2、γ3可以分别表示唇形、初始文本、预设音频的匹配度对应的权重。
62.在一些实施例中,目标匹配度最高的ai人物为选定的ai人物。
63.在一些实施例中,处理器可以基于选定的ai人物确定对应的目标面部信息。如图5所示,通过face-alienment算法520获取选定的ai人物510的目标面部信息530,基于目标面部信息530与唇形匹配视频540,通过deepfake算法550对当前ai人物进行面部置换,确定具有目标面部信息的目标ai人物对应的无声视频560;基于目标合成音频570确定有声音频580,将具有目标面部信息的目标ai人物对应的无声视频560和有声音频580合并,确定目标视频590。其中,face-alienment算法和deepfake算法都可以通过训练获取。
64.目标ai人物可以指面部置换过的ai人物。目标ai人物可以具有和选定ai人物一样目标面部信息。
65.在本说明书的一些实施中,通过使用deepfake网络实现ai人物换脸,用极少的时间与人工成本实现了ai人物的外形变化,并且实现了音画同步。
66.在一些实施例中,处理器还可以基于选定的ai人物通过局部更换嘴部动作生成目标音频。
67.在一些实施例中,处理器可以通过图像分割技术对ai人物对应的面部信息(例如,图片)进行分割,并确定ai人物的初始唇部对应的轮廓,去除该初始唇部。在一些实施例中,将目标音频分为至少一个帧,每帧对应一个帧图片,将每个帧图片与ai人物的去除初始唇部的面部信息进行合并,得到目标帧,将每个目标帧按照帧图片的顺序进行排序,合成无声视频。进一步地,基于唇形匹配视频提取有声音频;将无声视频和有声音频合并,确定目标视频。
68.在本说明书的一些实施例中,对于选定的ai人物,可以只通过添加ai人物的嘴部动作就可以确定出音画统一的目标ai人物以及对应的目标视频,使选定的ai人物的图片或者图像活灵活现,减少了时间和人工成本。
69.上文已对基本概念做了描述,显然,对于本领域技术人员来说,上述详细披露仅仅作为示例,而并不构成对本说明书的限定。虽然此处并没有明确说明,本领域技术人员可能会对本说明书进行各种修改、改进和修正。该类修改、改进和修正在本说明书中被建议,所以该类修改、改进、修正仍属于本说明书示范实施例的精神和范围。例如,上述实施例中只描述了对整个面部中嘴部进行局部更换,同理可以更换其他部位,从而得到更加丰富、互动
感更强的目标ai人物以及目标视频。
70.同时,本说明书使用了特定词语来描述本说明书的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本说明书至少一个实施例相关的某一特征、结构或特征。因此,应强调并注意的是,本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一个替代性实施例”并不一定是指同一实施例。此外,本说明书的一个或多个实施例中的某些特征、结构或特征可以进行适当的组合。
71.此外,除非权利要求中明确说明,本说明书所述处理元素和序列的顺序、数字字母的使用、或其他名称的使用,并非用于限定本说明书流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的实施例,但应当理解的是,该类细节仅起到说明的目的,附加的权利要求并不仅限于披露的实施例,相反,权利要求旨在覆盖所有符合本说明书实施例实质和范围的修正和等价组合。例如,虽然以上所描述的系统组件可以通过硬件设备实现,但是也可以只通过软件的解决方案得以实现,如在现有的服务器或移动设备上安装所描述的系统。
72.同理,应当注意的是,为了简化本说明书披露的表述,从而帮助对一个或多个实施例的理解,前文对本说明书实施例的描述中,有时会将多种特征归并至一个实施例、附图或对其的描述中。但是,这种披露方法并不意味着本说明书对象所需要的特征比权利要求中提及的特征多。实际上,实施例的特征要少于上述披露的单个实施例的全部特征。
73.一些实施例中使用了描述成分、属性数量的数字,应当理解的是,此类用于实施例描述的数字,在一些示例中使用了修饰词“大约”、“近似”或“大体上”来修饰。除非另外说明,“大约”、“近似”或“大体上”表明所述数字允许有
±
20%的变化。相应地,在一些实施例中,说明书和权利要求中使用的数值参数均为近似值,该近似值根据个别实施例所需特征可以发生改变。在一些实施例中,数值参数应考虑规定的有效数位并采用一般位数保留的方法。尽管本说明书一些实施例中用于确认其范围广度的数值域和参数为近似值,在具体实施例中,此类数值的设定在可行范围内尽可能精确。
74.针对本说明书引用的每个专利、专利申请、专利申请公开物和其他材料,如文章、书籍、说明书、出版物、文档等,特此将其全部内容并入本说明书作为参考。与本说明书内容不一致或产生冲突的申请历史文件除外,对本说明书权利要求最广范围有限制的文件(当前或之后附加于本说明书中的)也除外。需要说明的是,如果本说明书附属材料中的描述、定义、和/或术语的使用与本说明书所述内容有不一致或冲突的地方,以本说明书的描述、定义和/或术语的使用为准。
75.最后,应当理解的是,本说明书中所述实施例仅用以说明本说明书实施例的原则。其他的变形也可能属于本说明书的范围。因此,作为示例而非限制,本说明书实施例的替代配置可视为与本说明书的教导一致。相应地,本说明书的实施例不仅限于本说明书明确介绍和描述的实施例。
技术特征:
1.一种ai交互方法,其特征在于,所述方法包括:获取初始文本和预设音频,生成目标音频;基于所述目标音频,确定唇形匹配视频;基于所述唇形匹配视频,与当前ai人物进行面部置换,确定目标视频。2.根据权利要求1所述的ai交互方法,其特征在于,所述生成目标音频,包括:基于所述初始文本和所述预设音频,通过语音合成算法生成目标音频。3.根据权利要求1所述的ai交互方法,其特征在于,所述确定唇形匹配视频,包括:基于所述目标音频与参考视频通过唇形匹配算法确定唇形匹配视频。4.根据权利要求1所述的ai交互方法,其特征在于,所述基于所述唇形匹配视频,与当前ai人物进行面部置换,确定目标视频,包括:通过face-alienment算法获取选定的ai人物的目标面部信息;基于所述目标面部信息与所述唇形匹配视频,通过deepfake算法对所述当前ai人物进行面部置换,确定具有所述目标面部信息的目标ai人物对应的无声视频;基于所述唇形匹配视频提取有声音频;将所述无声视频和所述有声音频合并,确定目标视频。5.一种ai交互系统,其特征在于,所述系统包括:获取模块,用于获取初始文本和预设音频,生成目标音频;唇形匹配模块,用于基于所述目标音频,确定唇形匹配视频;目标视频确定模块,用于基于所述唇形匹配视频,与当前ai人物进行面部置换,确定目标视频。6.根据权利要求4所述的ai交互系统,其特征在于,所述获取模块包括音频生成模块,所述音频生成模块可以用于:基于所述初始文本和所述预设音频,通过语音合成算法生成目标音频。7.根据权利要求4所述的ai交互系统,其特征在于,所述唇形匹配模块包括匹配模块,所述匹配模块可以用于:基于所述目标音频与参考视频通过唇形匹配算法确定唇形匹配视频。8.根据权利要求4所述的ai交互系统,其特征在于,所述目标视频确定模块包括同步模块,所述同步模块可以用于,:通过face-alienment算法获取选定的ai人物的目标面部信息;基于所述目标面部信息与所述唇形匹配视频,通过deepfake算法对所述当前ai人物进行面部置换,确定具有所述目标面部信息的目标ai人物对应的无声视频;基于所述唇形匹配视频提取有声音频;将所述无声视频和所述有声音频合并,确定目标视频。9.一种ai交互装置,其特征在于,所述装置包括至少一个处理器以及至少一个存储器;所述至少一个存储器用于存储计算机指令;所述至少一个处理器用于执行所述计算机指令中的至少部分指令以实现如权利要求1至4中任意一项所述的ai交互方法。10.一种计算机可读存储介质,所述存储介质存储计算机指令,当计算机读取存储介质中的计算机指令后,计算机执行如权利要求1至4中任意一项所述的ai交互方法。
技术总结
本说明书实施例提供一种AI交互方法,该方法包括:获取初始文本和预设音频,生成目标音频;基于目标音频,确定唇形匹配视频;基于唇形匹配视频,与当前AI人物进行面部置换,确定目标视频。标视频。标视频。
技术研发人员:吴珂皓 刘超
受保护的技术使用者:珠海盈米基金销售有限公司
技术研发日:2023.05.15
技术公布日:2023/8/9
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
