动画生成方法、装置、设备及存储介质与流程

未命名 07-23 阅读：112 评论：0

1.本说明书实施例涉及数据处理技术领域，特别涉及动画生成方法。

背景技术：

2.虚拟数字人核心企业中，虚拟数字人产品大多应用于b端场景，如帮助互联网商家实现全天候轮播的虚拟主播、办事大厅内自助办理业务的虚拟前台、自动处理诉求的虚拟客服等。因此b端消费者是市场主要组成部分。
3.虚拟数字人的产品的c端应用场景仅占36%，如上传照片后重现逝去亲友的虚拟亲友、服务于儿童教育的虚拟陪读、监管自媒体公众号的虚拟小编等。c端应用市场仍有较大挖掘潜力。虚拟数字人企业的业务模块主要集中于形貌设计/定制于驱动，也即实现虚拟数字人拟人化的“样貌”，“表情”和“动作”，仍停留在单向传播的层面。ai交互功能仅占40%，虚拟数字人智能交互的实现涵盖知识库、自然语言处理等技术模块，对于技术研发和资金基础较薄弱的公司而言依然有门槛。
4.现有的虚拟数字人很难做到完全智能化匹配，他们的面部表情、嘴型都比较单一单板，在交互场景下语音理解时做出简单呆板的回应。

技术实现要素：

5.有鉴于此，本说明书实施例提供了动画生成方法。本说明书一个或者多个实施例同时涉及动画生成装置，一种计算设备，一种计算机可读存储介质以及一种计算机程序，以解决现有技术中存在的技术缺陷。
6.根据本说明书实施例的第一方面，提供了一种动画生成方法，包括：获取声音数据以及声音数据对应对的动画数据；对声音数据进行分析，确定声音数据对应的音源数据；其中，音源数据包括声音数据和音源数据的对齐点；基于音源数据将声音数据与动画数据进行映射，确定初始动画数据；对初始动画数据进行合成处理，确定目标动画数据。
7.在一种可能的实现方式中，在获取声音数据以及声音数据对应对的动画数据之前，还包括：获取初始声音数据，对初始声音数据进行降噪处理，确定降噪声音数据；对降噪声音数据进行基频分析，确定声音数据。
8.在一种可能的实现方式中，对声音数据进行分析，确定声音数据对应的音源数据，包括：基于傅里叶变换，将声音数据进行分解为至少两个子声音数据；提取子声音数据中的梅尔频率倒谱系数，确定声音数据的特征；基于声音数据的特征，确定声音数据和音源数据的对齐点；基于音源数据的对齐点确定声音数据对应的音源数据。
9.在一种可能的实现方式中，基于音源数据将声音数据与动画数据进行映射，确定初始动画数据，包括：对声音数据进行嘴唇轮廓检测，确定唇部边缘数据；基于唇部边缘数据确定对应的动画数据；基于对齐点，将动画数据与对应的声音数据进行映射，确定初始动画数据。
10.在一种可能的实现方式中，对声音数据进行嘴唇轮廓检测，确定唇部边缘数据，包括：使用边缘检测算法，对声音数据进行检测，得到初始唇部边缘数据；对初始唇部边缘数据进行曲线拟合，得到唇部边缘数据。
11.在一种可能的实现方式中，基于对齐点，将动画数据与对应的声音数据进行映射，确定初始动画数据，包括：确定动画数据的时间序列，以及确定动画数据对应的声音数据的时间序列；基于对齐点、动画数据的时间序列和声音数据的时间序列确定匹配信息；基于匹配信息将动画数据与对应的声音数据进行映射，确定初始动画数据。
12.在一种可能的实现方式中，对初始动画数据进行合成处理，确定目标动画数据，包括：对初始动画数据进行数据调制，确定视频数据包；基于视频数据包调用面部数据，并对面部数据和视频数据进行合成处理，确定目标动画数据。
13.根据本说明书实施例的第二方面，提供了一种动画生成装置，包括：数据获取模块，被配置为获取声音数据以及声音数据对应对的动画数据；数据分析模块，被配置为对声音数据进行分析，确定声音数据对应的音源数据；其中，音源数据包括声音数据和音源数据的对齐点；数据映射模块，被配置为基于音源数据将声音数据与动画数据进行映射，确定初始动画数据；数据生成模块，被配置为对初始动画数据进行合成处理，确定目标动画数据。
14.根据本说明书实施例的第三方面，提供了一种计算设备，包括：存储器和处理器；存储器用于存储计算机可执行指令，处理器用于执行计算机可执行指令，该计算机可执行指令被处理器执行时实现上述动画生成方法的步骤。
15.根据本说明书实施例的第四方面，提供了一种计算机可读存储介质，其存储有计算机可执行指令，该指令被处理器执行时实现上述动画生成方法的步骤。
16.根据本说明书实施例的第五方面，提供了一种计算机程序，其中，当计算机程序在计算机中执行时，令计算机执行上述动画生成方法的步骤。
17.本说明书实施例提供动画生成方法、装置、设备及存储介质，其中动画生成方法包括：获取声音数据以及声音数据对应对的动画数据，对声音数据进行分析，确定声音数据对应的音源数据，其中，音源数据包括声音数据和音源数据的对齐点，基于音源数据将声音数据与动画数据进行映射，确定初始动画数据，对初始动画数据进行合成处理，确定目标动画数据。通过获取声音数据以及声音数据对应对的动画数据，对声音数据进行分析，确定声音
数据对应的音源数据，基于音源数据将声音数据与动画数据进行映射，确定初始动画数据，对初始动画数据进行合成处理，确定目标动画数据。使得更加准确地将动画数据与声音数据进行匹配，生成更加真实的回应。
附图说明
18.图1是本说明书一个实施例提供的一种动画生成方法的场景示意图；图2是本说明书一个实施例提供的一种动画生成方法的流程图；图3是本说明书一个实施例提供的一种动画生成方法的处理过程示意图；图4是本说明书一个实施例提供的一种动画生成装置的结构示意图；图5是本说明书一个实施例提供的一种计算设备的结构框图。
具体实施方式
19.在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本说明书内涵的情况下做类似推广，因此本说明书不受下面公开的具体实施的限制。
20.在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
21.应当理解，尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。取决于语境，如在此所使用的词语“如果”可以被解释成为“在
……
时”或“当
……
时”或“响应于确定”。
22.首先，对本说明书一个或多个实施例涉及的名词术语进行解释。
23.虚拟数字人是指具有数字化外形的虚拟人物。与具备实体的机器人不同，虚拟数字人依赖显示设备存在，并且拥有类人的生理构造（模仿人的形象、肢体构造）、人的行为（能说话、能运动）以及人的思想（基本的逻辑能力、并可以出输出内容如书写、与人交谈）。
24.虚拟数字人ip的发展历程：设计形象从logo转变为吉祥物，从静态转变为动态，无论形象设计成动物或者其他物体等等，但都为这些形象赋予了拟人的能力，学习人类行为和语音。经过漫漫的发展，这些品牌ip开始冲2d转变为3d，从单向传播到可以互动，从能够互动到形象养成再到现在的破壁。已经衍生出和真人一模一样的形象与能力。经过ai，知识图谱，深度学习等能力的加持，再加上各种智能硬件赋予了视觉，声音，甚至嗅觉等感知能力。这些品牌ip已经变成了一个个活生生的虚拟数字人形象。
25.目前，虚拟数字人应用行业包括传媒、游戏、影视、金融、交通、医疗、教育、零售等多个行业领域。
26.现在技术的不足包括：算力耗费：在超写实“虚拟人”制作中，每根头发都要像真人般清晰可见，因此每根头发光线和运动轨迹的计算量都非常大。智能交互，如何让虚拟数字
人理解环境、构建意图推理能力、构建学习能力等问题。完全智能化匹配，在不同语境下，人的表情会发生变化。虚拟数字人的表情、嘴型、语言、内容等很难在如此复杂的情境下与真人完全匹配。高度情感化，多模态人机交互技术是满足人对外界信息获取逐渐升维的过程，人单纯的文字到语言，到现在融合计算机数视觉等技术。目前的虚拟人开发者依旧在其技术框架下各自为战，还未见通用、客观的行业标准对虚拟人的拟真程度进行统一、成体系的评估。成本控制，使用构建虚拟数字人的技术，如三维建模为核心的场景技术、以智能语音理解为核心的交互技术，成本非常高。
27.基于此，在本说明书中，提供了动画生成方法，本说明书同时涉及动画生成装置，一种计算设备，以及一种计算机可读存储介质，在下面的实施例中逐一进行详细说明。
28.参见图1，图1示出了根据本说明书一个实施例提供的一种动画生成方法的场景示意图。
29.在图1的应用场景中，计算设备101可以获取声音数据102以及声音数据102对应对的动画数据103。然后，计算设备101可以对声音数据102进行分析，确定声音数据103对应的音源数据104。之后，计算设备101可以基于音源数据104将声音数据102与动画数据103进行映射，确定初始动画数据105。最后，对初始动画数据105进行合成处理，确定目标动画数据，如附图标记106所示。
30.需要说明的是，上述计算设备101可以是硬件，也可以是软件。当计算设备101为硬件时，可以实现成多个服务器或终端设备组成的分布式集群，也可以实现成单个服务器或单个终端设备。当计算设备101体现为软件时，可以安装在上述所列举的硬件设备中。其可以实现成例如用来提供分布式服务的多个软件或软件模块，也可以实现成单个软件或软件模块。在此不做具体限定。
31.参见图2，图2示出了根据本说明书一个实施例提供的一种动画生成方法的流程图，具体包括以下步骤。
32.步骤201：获取声音数据以及声音数据对应对的动画数据。
33.具体的，参见图3，包含两种数据，分别是声音数据和声音对应的动画数据。可以定义使用音素的数量。声音数据主要是录制中文字母表的发音，以及一些特殊的爆破音。
34.在一种可能的实现方式中，在获取声音数据以及声音数据对应对的动画数据之前，还包括：获取初始声音数据，对初始声音数据进行降噪处理，确定降噪声音数据；对降噪声音数据进行基频分析，确定声音数据。
35.具体的，在获取声音数据之前，可以对原始的声音数据进行处理，从而得到更加好的识别效果。
36.例如，语音信号预处理:语音信号预处理的目的是减少语音信号的噪声，并提取特征，为后续的处理提供更好的数据基础。其数学公式通常包括短时傅里叶变换（short-time fourier transform，stft）、梅尔倒谱系数（mel frequency cepstral coefficients，mfcc）等。其中，stft可以通过下面的公式计算得到：
37.其中，x(m,n)表示第m个频率子带在第n帧的幅度和相位，x(n)表示原始语音信号的第n个采样值，w(k)表示窗函数，n表示窗长，m表示频率子带数。
38.基频分析:可以通过计算声道中每个时刻的基音周期来提取音频的基频，其中基音周期是基频的倒数。一种基本的计算基音周期的方法是通过估计自相关函数峰值的位置。假设x(n)是一个时长为n的音频信号，那么x(n)的自相关函数r(k)可以表示为：
39.然后通过查找自相关函数的局部峰值来计算基音周期。具体而言，可以在预先定义的范围内查找最大的局部峰值，其中每个峰值的位置表示音频信号的一个基音周期。通常，基音周期的长度在10毫秒到20毫秒之间。
40.步骤202：对声音数据进行分析，确定声音数据对应的音源数据；其中，音源数据包括声音数据和音源数据的对齐点。
41.在一种可能的实现方式中，对声音数据进行分析，确定声音数据对应的音源数据，包括：基于傅里叶变换，将声音数据进行分解为至少两个子声音数据；提取子声音数据中的梅尔频率倒谱系数，确定声音数据的特征；基于声音数据的特征，确定声音数据和音源数据的对齐点；基于音源数据的对齐点确定声音数据对应的音源数据。
42.具体的，音源识别可以使用识别算法的核心接口，主要负责从封装的程序集中导入口唇同步所需的接口。建立音源与识别的联系并返回一个独有的id，以便于音源识别的实现。当对应的节点上的audiosource组件有声音输出时，对应的数据会传递进来，从音源识别中获取唯一识别对象。对于音频信号的处理，可以通过短时傅里叶变换（stft）将语音信号分解为多个时频子带，并提取每个子带的梅尔频率倒谱系数（mfcc）。mfcc 是一种对语音信号的频率特征进行编码的方式，通常用于语音识别和语音合成任务。在口唇发音对齐中，mfcc 可以用于表示声音的特征。通过比较mfcc序列，我们可以找到语音信号和视频帧的对齐点。
43.步骤203：基于音源数据将声音数据与动画数据进行映射，确定初始动画数据。
44.在一种可能的实现方式中，基于音源数据将声音数据与动画数据进行映射，确定初始动画数据，包括：对声音数据进行嘴唇轮廓检测，确定唇部边缘数据；基于唇部边缘数据确定对应的动画数据；基于对齐点，将动画数据与对应的声音数据进行映射，确定初始动画数据。
45.进一步的，可以使用边缘检测算法进行嘴唇轮廓检测，如canny边缘检测算法，来检测唇部边缘。接着，可以使用曲线拟合算法，b样条曲线拟合算法，来拟合唇部轮廓并提取嘴唇的特征点。最终，可以使用这些特征点来对嘴唇轮廓进行建模并进行口唇发音对齐。
46.在一种可能的实现方式中，对声音数据进行嘴唇轮廓检测，确定唇部边缘数据，包括：使用边缘检测算法，对声音数据进行检测，得到初始唇部边缘数据；对初始唇部边缘数据进行曲线拟合，得到唇部边缘数据。
47.例如，一个视频帧可以表示为一个二维图像$i(x, y)，其中x和y表示图像中每个像素的位置。然后可以使用canny边缘检测算法来提取唇部的边缘，从而得到一个二值化的
图像i'(x, y)。canny算法的输出可以表示为：
48.其中t是一个预先定义的阈值。接着，可以使用b样条曲线拟合算法来拟合唇部轮廓，并提取特征点。b样条曲线可以表示为：
49.其中是控制点，是b样条基函数，k是曲线的阶数。b样条曲线可以通过最小化以下误差函数来进行拟合：
50.在一种可能的实现方式中，基于对齐点，将动画数据与对应的声音数据进行映射，确定初始动画数据，包括：确定动画数据的时间序列，以及确定动画数据对应的声音数据的时间序列；基于对齐点、动画数据的时间序列和声音数据的时间序列确定匹配信息；基于匹配信息将动画数据与对应的声音数据进行映射，确定初始动画数据。
51.具体的，可以进行口型对齐步骤，口型对齐的主要目的是将口型信息和语音信号对齐，从而使得两者的时间轴匹配。可以使用基于动态时间规整（dynamic time warping，dtw）的算法来实现。具体地，dtw算法通过计算两个时间序列的相似度，将其中一个时间序列映射到另一个时间序列上，从而实现对齐。dtw算法的数学公式为：
52.其中，dtw_{i,j}表示第一个时间序列的第i个元素和第二个时间序列的第j个元素对齐的最小代价，d(i,j)表示第一个时间序列的第i个元素和第二个时间序列的第j个元素之间的距离（如欧几里得距离、曼哈顿距离等）。
53.步骤204：对初始动画数据进行合成处理，确定目标动画数据。
54.在一种可能的实现方式中，对初始动画数据进行合成处理，确定目标动画数据，包括：对初始动画数据进行数据调制，确定视频数据包；基于视频数据包调用面部数据，并对面部数据和视频数据进行合成处理，确定目标动画数据。
55.具体的，参见图3，还包括数据调制和动画处理，其中，数据调制：通过lpc对音源识别数据做处理，将数据分割成与动画对应的帧数据。有音源数据传递时，调用分析接口，将分析结果封装到frame中，对应模型播放动画时通过接口来获取保存识别结果的frame对象。动画处理:口唇同步动画处理部分，主要是负责根据音源识别的语素内容实时调用模型的面部动画。用口唇同步模型的蒙皮网格渲染器的形式来实现唇同步动画的播放。播放唇同步动画是对语素的贴图实现不同比例的设置。实现口唇同步识别结果frame到语素图片的显示的对接。
56.本说明书实施例提供动画生成方法、装置、设备及存储介质，其中动画生成方法包括：获取声音数据以及声音数据对应对的动画数据，对声音数据进行分析，确定声音数据对应的音源数据，其中，音源数据包括声音数据和音源数据的对齐点，基于音源数据将声音数
据与动画数据进行映射，确定初始动画数据，对初始动画数据进行合成处理，确定目标动画数据。通过获取声音数据以及声音数据对应对的动画数据，对声音数据进行分析，确定声音数据对应的音源数据，基于音源数据将声音数据与动画数据进行映射，确定初始动画数据，对初始动画数据进行合成处理，确定目标动画数据。能够完成高度智能化匹配，为虚拟数字人赋予真实的语音内容与口型动作对齐的能力。让数字人从语音交互场景看起来更具真人的感觉，更加生动。
57.与上述方法实施例相对应，本说明书还提供了动画生成装置实施例，图4示出了本说明书一个实施例提供的一种动画生成装置的结构示意图。如图4所示，该装置包括：根据本说明书实施例的第二方面，提供了一种动画生成装置，包括：数据获取模块401，被配置为获取声音数据以及声音数据对应对的动画数据；数据分析模块402，被配置为对声音数据进行分析，确定声音数据对应的音源数据；其中，音源数据包括声音数据和音源数据的对齐点；数据映射模块403，被配置为基于音源数据将声音数据与动画数据进行映射，确定初始动画数据；数据生成模块404，被配置为对初始动画数据进行合成处理，确定目标动画数据。
58.在一种可能的实现方式中，数据获取模块401，还被配置为：获取初始声音数据，对初始声音数据进行降噪处理，确定降噪声音数据；对降噪声音数据进行基频分析，确定声音数据。
59.在一种可能的实现方式中，数据分析模块402，还被配置为：基于傅里叶变换，将声音数据进行分解为至少两个子声音数据；提取子声音数据中的梅尔频率倒谱系数，确定声音数据的特征；基于声音数据的特征，确定声音数据和音源数据的对齐点；基于音源数据的对齐点确定声音数据对应的音源数据。
60.在一种可能的实现方式中，数据分析模块402，还被配置为：对声音数据进行嘴唇轮廓检测，确定唇部边缘数据；基于唇部边缘数据确定对应的动画数据；基于对齐点，将动画数据与对应的声音数据进行映射，确定初始动画数据。
61.在一种可能的实现方式中，数据分析模块402，还被配置为：使用边缘检测算法，对声音数据进行检测，得到初始唇部边缘数据；对初始唇部边缘数据进行曲线拟合，得到唇部边缘数据。
62.在一种可能的实现方式中，数据映射模块403，还被配置为：确定动画数据的时间序列，以及确定动画数据对应的声音数据的时间序列；基于对齐点、动画数据的时间序列和声音数据的时间序列确定匹配信息；基于匹配信息将动画数据与对应的声音数据进行映射，确定初始动画数据。
63.在一种可能的实现方式中，数据生成模块404，还被配置为：对初始动画数据进行数据调制，确定视频数据包；基于视频数据包调用面部数据，并对面部数据和视频数据进行合成处理，确定目标动画数据。
64.本说明书实施例提供动画生成方法、装置、设备及存储介质，其中动画生成装置包
括：获取声音数据以及所述声音数据对应对的动画数据，对声音数据进行分析，确定声音数据对应的音源数据，其中，音源数据包括声音数据和音源数据的对齐点，基于音源数据将声音数据与动画数据进行映射，确定初始动画数据，对初始动画数据进行合成处理，确定目标动画数据。通过获取声音数据以及所述声音数据对应对的动画数据，对声音数据进行分析，确定声音数据对应的音源数据，基于音源数据将声音数据与动画数据进行映射，确定初始动画数据，对初始动画数据进行合成处理，确定目标动画数据。使得更加准确地将动画数据与声音数据进行匹配，生成更加真实的回应。
65.上述为本实施例的一种动画生成装置的示意性方案。需要说明的是，该动画生成装置的技术方案与上述的动画生成方法的技术方案属于同一构思，动画生成装置的技术方案未详细描述的细节内容，均可以参见上述动画生成方法的技术方案的描述。
66.图5示出了根据本说明书一个实施例提供的一种计算设备500的结构框图。该计算设备500的部件包括但不限于存储器510和处理器520。处理器520与存储器510通过总线530相连接，数据库550用于保存数据。
67.计算设备500还包括接入设备540，接入设备540使得计算设备500能够经由一个或多个网络560通信。这些网络的示例包括公用交换电话网（pstn，public switched telephone network）、局域网（lan，local area network）、广域网（wan，wide area network）、个域网（pan，personal area network）或诸如因特网的通信网络的组合。接入设备540可以包括有线或无线的任何类型的网络接口（例如，网络接口卡（nic，network interface controller））中的一个或多个，诸如ieee802.11无线局域网（wlan，wireless local area network）无线接口、全球微波互联接入（wi-max，worldwide interoperability for microwave access）接口、以太网接口、通用串行总线（usb，universal serial bus）接口、蜂窝网络接口、蓝牙接口、近场通信（nfc，near field communication）。
68.在本说明书的一个实施例中，计算设备500的上述部件以及图5中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图5所示的计算设备结构框图仅仅是出于示例的目的，而不是对本说明书范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。
69.计算设备500可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备（例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等）、移动电话（例如，智能手机）、可佩戴的计算设备（例如，智能手表、智能眼镜等）或其他类型的移动设备，或者诸如台式计算机或个人计算机（pc，personal computer）的静止计算设备。计算设备500还可以是移动式或静止式的服务器。
70.其中，处理器520用于执行如下计算机可执行指令，该计算机可执行指令被处理器执行时实现上述动画生成方法的步骤。上述为本实施例的一种计算设备的示意性方案。需要说明的是，该计算设备的技术方案与上述的动画生成方法的技术方案属于同一构思，计算设备的技术方案未详细描述的细节内容，均可以参见上述动画生成方法的技术方案的描述。
71.本说明书一实施例还提供一种计算机可读存储介质，其存储有计算机可执行指令，该计算机可执行指令被处理器执行时实现上述动画生成方法的步骤。
72.上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述的动画生成方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述动画生成方法的技术方案的描述。
73.本说明书一实施例还提供一种计算机程序，其中，当所述计算机程序在计算机中执行时，令计算机执行上述动画生成方法的步骤。
74.上述为本实施例的一种计算机程序的示意性方案。需要说明的是，该计算机程序的技术方案与上述的动画生成方法的技术方案属于同一构思，计算机程序的技术方案未详细描述的细节内容，均可以参见上述动画生成方法的技术方案的描述。
75.上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。
76.所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器（rom，read-only memory）、随机存取存储器（ram，random access memory）、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。
77.需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本说明书实施例并不受所描述的动作顺序的限制，因为依据本说明书实施例，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本说明书实施例所必须的。
78.在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。
79.以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书实施例的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本说明书实施例的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。

技术特征：
1.一种动画生成方法，其特征在于，包括：获取声音数据以及所述声音数据对应对的动画数据；对所述声音数据进行分析，确定所述声音数据对应的音源数据；其中，所述音源数据包括所述声音数据和所述音源数据的对齐点；基于所述音源数据将所述声音数据与所述动画数据进行映射，确定初始动画数据；对所述初始动画数据进行合成处理，确定目标动画数据。2.根据权利要求1所述的方法，其特征在于，在所述获取声音数据以及所述声音数据对应对的动画数据之前，还包括：获取初始声音数据，对所述初始声音数据进行降噪处理，确定降噪声音数据；对所述降噪声音数据进行基频分析，确定所述声音数据。3.根据权利要求1所述的方法，其特征在于，所述对所述声音数据进行分析，确定所述声音数据对应的音源数据，包括：基于傅里叶变换，将所述声音数据进行分解为至少两个子声音数据；提取所述子声音数据中的梅尔频率倒谱系数，确定所述声音数据的特征；基于所述声音数据的特征，确定所述声音数据和所述音源数据的对齐点；基于所述音源数据的对齐点确定所述声音数据对应的音源数据。4.根据权利要求1所述的方法，其特征在于，所述基于所述音源数据将所述声音数据与所述动画数据进行映射，确定初始动画数据，包括：对所述声音数据进行嘴唇轮廓检测，确定唇部边缘数据；基于所述唇部边缘数据确定对应的动画数据；基于所述对齐点，将所述动画数据与对应的声音数据进行映射，确定初始动画数据。5.根据权利要求4所述的方法，其特征在于，所述对所述声音数据进行嘴唇轮廓检测，确定唇部边缘数据，包括：使用边缘检测算法，对所述声音数据进行检测，得到初始唇部边缘数据；对所述初始唇部边缘数据进行曲线拟合，得到唇部边缘数据。6.根据权利要求1所述的方法，其特征在于，所述基于所述对齐点，将所述动画数据与对应的声音数据进行映射，确定初始动画数据，包括：确定所述动画数据的时间序列，以及确定所述动画数据对应的声音数据的时间序列；基于所述对齐点、所述动画数据的时间序列和所述声音数据的时间序列确定匹配信息；基于所述匹配信息将所述动画数据与对应的声音数据进行映射，确定初始动画数据。7.根据权利要求1所述的方法，其特征在于，所述对所述初始动画数据进行合成处理，确定目标动画数据，包括：对所述初始动画数据进行数据调制，确定视频数据包；基于所述视频数据包调用面部数据，并对所述面部数据和所述视频数据进行合成处理，确定目标动画数据。8.一种动画生成装置，其特征在于，包括：数据获取模块，被配置为获取声音数据以及所述声音数据对应对的动画数据；数据分析模块，被配置为对所述声音数据进行分析，确定所述声音数据对应的音源数
据；其中，所述音源数据包括所述声音数据和所述音源数据的对齐点；数据映射模块，被配置为基于所述音源数据将所述声音数据与所述动画数据进行映射，确定初始动画数据；数据生成模块，被配置为对所述初始动画数据进行合成处理，确定目标动画数据。9.一种计算设备，其特征在于，包括：存储器和处理器；所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令，该计算机可执行指令被处理器执行时实现权利要求1至7任意一项所述动画生成方法的步骤。10.一种计算机可读存储介质，其存储有计算机可执行指令，该计算机可执行指令被处理器执行时实现权利要求1至7任意一项所述动画生成方法的步骤。

技术总结
本说明书实施例提供动画生成方法、装置、设备及存储介质，其中动画生成方法包括：获取声音数据以及所述声音数据对应对的动画数据，对声音数据进行分析，确定声音数据对应的音源数据，其中，音源数据包括声音数据和音源数据的对齐点，基于音源数据将声音数据与动画数据进行映射，确定初始动画数据，对初始动画数据进行合成处理，确定目标动画数据。通过获取声音数据以及所述声音数据对应对的动画数据，对声音数据进行分析，确定声音数据对应的音源数据，基于音源数据将声音数据与动画数据进行映射，确定初始动画数据，对初始动画数据进行合成处理，确定目标动画数据。使得更加准确地将动画数据与声音数据进行匹配，生成更加真实的回应。回应。回应。

技术研发人员：陈冠伟徐锋袁礼程姚尧
受保护的技术使用者：北京好心情互联网医院有限公司
技术研发日：2023.06.13
技术公布日：2023/7/22

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

上一篇：一种基于非均匀栅格划分进行台风轨迹路径模拟的方法 下一篇：一种基于大数据的冷链食品运输智能管理系统的制作方法

动画生成方法、装置、设备及存储介质与流程

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

动画生成方法、装置、设备及存储介质与流程

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表