数字人表情包生成方法、装置及存储介质与流程

未命名 07-20 阅读：97 评论：0

1.本技术涉及互联网技术领域，尤其涉及一种数字人表情包生成方法、装置及存储介质。

背景技术：

2.近年来，伴随着即时通信社交的普及，互联网中用户原创内容的不断丰富，文字输入场景下的富媒体化趋势愈发明显，而表情包作为一种特殊的图像语言，被广泛使用在输入场景下。
3.现在的大多数表情包都是采用人工p图等手段实现，成本高而且还需要一定的ps技术，不仅需要繁琐的手工操作，而且做出的表情包也不一定能满足用户的需求。

技术实现要素：

4.本技术的主要目的在于提供一种数字人表情包生成方法、装置、设备及存储介质，旨在解决现有技术中需要手工制作表情包，费时费力的技术问题。
5.为实现上述目的，本技术实施例提供了一种数字人表情包生成方法，所述数字人表情包生成方法包括以下步骤：确定用户制作表情包的模式；获取所采集的不同视频帧中用户的情绪信息和行为信息；根据所述模式，根据不同视频帧中用户的所述情绪信息和行为信息确定表情包素材；基于所述表情包素材和用户所对应的数字人，生成数字人表情包。
6.在本技术的一种可能的实施方式中，所述用户制作表情包的模式包括单人制作模式；所述根据所述模式，根据不同视频帧中用户的所述情绪信息和行为信息确定表情包素材的步骤，包括：确定每个视频帧的人脸点位特征值和特征骨骼点位特征值；根据所述人脸点位特征值和特征骨骼点位特征值对不同视频帧进行分簇处理，得到多个视频簇类；从每个视频簇类中选取视频帧，对选取的不同视频帧之间的人脸点位特征值进行方差计算，得到情绪状态方差，并对选取的不同视频帧之间的特征骨骼点位特征值进行方差计算，得到行为状态方差；根据所述情绪状态方差和所述行为状态方差，确定当前视频帧的表情包素材。
7.在本技术的一种可能的实施方式中，所述根据所述情绪状态方差和所述行为状态方差，确定当前视频帧的表情包素材的步骤，包括：根据情绪状态方差、所述行为状态方差以及最大似然函数，确定当前视频帧所对应的最大似然值；
其中，f是与的比值，是情绪状态方差，是行为状态方差，、为基于人脸点位特征值和特征骨骼点位特征值确定的单帧特征值；从预设表情包素材的预设标记参数值中，选取与最大似然值最相近的预设个数的预设标记参数值，将所述预设个数的预设标记参数值所对应的表情包素材作为当前视频帧的表情包素材。
8.在本技术的一种可能的实施方式中，所述用户制作表情包的模式包括多人联动模式；所述基于所述表情包素材和用户所对应的数字人，生成数字人表情包的步骤，包括：根据多人联动模式下，不同用户的情绪信息和行为信息，确定主角和配角，其中，主角从多人联动模式所对应单人表情包素材中优先选择第一素材，配角从剩余的表情包素材中选择第二素材，所述第一素材和第二素材存在联动关系；基于所述第一素材、第二素材与不同用户所对应的数字人，得到数字人表情包。
9.在本技术的一种可能的实施方式中，所述基于所述第一素材、第二素材与不同用户所对应的数字人，得到数字人表情包的步骤，包括：确定多人联动模式下不同用户的客户端所在的经纬度信息，确定场景布局；根据所述场景布局、基于所述第一素材、第二素材与不同用户所对应的数字人，得到数字人表情包。
10.在本技术的一种可能的实施方式中，所述用户制作表情包的模式包括合拍模式；所述根据所述模式，根据不同视频帧中用户的所述情绪信息和行为信息确定表情包素材的步骤，还包括：确定用于合拍的合拍表情包；根据不同视频帧中用户的所述情绪信息、行为信息和所述合拍表情包，确定表情包素材；所述基于所述表情包素材和用户所对应的数字人，生成数字人表情包的步骤，包括：根据所述表情包素材、所述合拍表情包与用户所对应的数字人，得到数字人表情包。
11.在本技术的一种可能的实施方式中，所述根据所述表情包素材、所述合拍表情包与用户所对应的数字人，得到数字人表情包的步骤，包括：根据合拍表情包中数字人的第一行为状态，确定其第一运动偏移情况；从所述表情包素材中确定需要的目标表情包；基于所述第一运动偏移情况，确定目标表情包中数字人的第二运动偏移情况，其中，所述合拍表情包中数字人和所述目标表情包中数字人不会碰撞；基于所述第一运动偏移情况、所述第二运动偏移情况，所述目标表情包和所述合拍表情包与用户所对应的数字人，得到数字人表情包；
其中，所述数字人表情包在显示屏幕内显示。
12.在本技术的一种可能的实施方式中，所述基于所述表情包素材和用户所对应的数字人，生成数字人表情包的步骤，包括：获取用户的视频信息，其中，所述视频信息包括用户的脸部特征和身体特征；根据所述脸部特征和身体特征，生成用户所对应的数字人；从所述数字人的多个槽位中选取与所述表情包素材的至少一个槽位标签关联的目标槽位，并将所述表情包素材应用至所述目标槽位，生成数字人表情包；其中，每个槽位标签只与所述数字人的一个槽位相关联。
13.本技术还提供一种数字人表情包生成装置，所述数字人表情包生成装置包括：第一确定模块，用于确定用户制作表情包的模式；获取模块，用于根据所述模式，获取所采集的不同视频帧中用户的情绪信息和行为信息；第二确定模块，用于根据不同视频帧中用户的所述情绪信息和行为信息确定表情包素材；生成模块，用于基于所述表情包素材和用户所对应的数字人，生成数字人表情包。
14.为实现上述目的，还提供一种存储介质，所述存储介质上存储有数字人表情包生成程序，所述数字人表情包生成程序被处理器执行时实现上述任一所述的数字人表情包生成方法的步骤。
15.本技术提供了一种数字人表情包生成方法、装置、设备及存储介质，与现有技术中使用人工p图制作表情包的方式，致使表情包制作费时费力相比，在本技术中，确定用户制作表情包的模式；根据所述模式，获取所采集的不同视频帧中用户的情绪信息和行为信息；根据不同视频帧中用户的所述情绪信息和行为信息确定表情包素材；基于所述表情包素材和用户所对应的数字人，生成数字人表情包。在本技术中，不需要人工p图制作表情包，而是在用户端选取制作表情包的模式后，直接根据采集的视频帧中用户的情绪信息和行为信息所确定的表情包素材，并将确定的表情包素材和用户所对应的数字人相结合，生成数字人表情包，可以理解，客户端根据用户的情绪信息和行为信息确定表情包素材，并与用户所对应的数字人相结合，从而生成数字人表情包，而不是用户手动人工p图制作表情包，避免表情包制作费时费力。
附图说明
16.图1为本技术数字人表情包生成方法的第一实施例的流程示意图；图2为本技术数字人表情包生成方法第一实施例中步骤s30的细化流程示意图；图3为本技术实施例方案涉及的硬件运行环境的设备结构示意图；图4为本技术数字人表情包生成方法实施例中视频帧中人脸点位示意图；图5为本技术数字人表情包生成方法实施例中的最大似然值与预设标记参数值的对比示意图；图6为本技术数字人表情包生成方法实施例中单人制作模式的第一示意图；图7为本技术数字人表情包生成方法实施例中多人联动模式的第一示意图；图8为本技术数字人表情包生成方法实施例中多人联动模式的第二示意图；
图9为本技术数字人表情包生成方法实施例中合拍模式的第三示意图；图10为本技术数字人表情包生成方法实施例中合拍模式的第四流程图；图11为本技术数字人表情包生成方法实施例中合拍模式的第五示意图；图12为本技术数字人表情包生成方法实施例中单人制作模式的第二示意图。
具体实施方式
17.应当理解，此处所描述的具体实施例仅仅用以解释本技术，并不用于限定本技术。
18.本技术实施例提供一种数字人表情包生成方法，在本技术数字人表情包生成方法的第一实施例中，参照图1，所述方法包括：步骤s10，确定用户制作表情包的模式；步骤s20，根据所述模式，获取所采集的不同视频帧中用户的情绪信息和行为信息；步骤s30，根据不同视频帧中用户的所述情绪信息和行为信息确定表情包素材；步骤s40，基于所述表情包素材和用户所对应的数字人，生成数字人表情包。
19.本实施例旨在：可以根据用户需求，便捷地生成数字人表情包。
20.具体步骤如下：步骤s10，确定用户制作表情包的模式；作为一种示例，数字人表情包生成方法可以应用于数字人表情包生成装置，该数字人表情包生成装置属于数字人表情包生成设备，该数字人表情包生成设备可以是客户端。
21.作为一种示例，用户制作表情包的模式可以是单人制作模式、多人共同制作模式和合拍模式。
22.作为一种示例，单人制作模式是客户端用户不与其他用户合作，而是在客户端本地单独制作表情包。
23.作为一种示例，多人共同制作模式为客户端与其他客户端共同制作表情包。
24.作为一种示例，合拍模式为客户端选取已制作好的表情包，再次制作新的表情包。
25.作为一种示例，不同制作表情包的模式，可以满足用户的不同表情包制作要求。
26.步骤s20，根据所述模式，获取所采集的不同视频帧中用户的情绪信息和行为信息；作为一种示例，在确定用户制作表情包的模式后，用户会启动表情包制作指令，根据该制作指令，客户端采集客户端用户多张视频帧。
27.作为一种示例，客户端获取所采集的不同视频帧中用户的情绪信息和行为信息。
28.作为一种示例，客户端根据不同视频帧中用户的人脸信息，确定其情绪信息。
29.作为一种示例，客户端根据不同视频帧中用户的行为信息，确定其行为信息。
30.作为一种示例，情绪信息为开心、痛苦和惊讶等。
31.作为一种示例，行为信息为用户的行为信息，例如捂住肚子，大展双臂等行为。
32.作为一种示例，客户端的情绪信息和行为信息用于选取表情包素材。
33.步骤s30，根据不同视频帧中用户的所述情绪信息和行为信息确定表情包素材；作为一种示例，客户端根据不同视频帧中用户的所述情绪信息和行为信息确定用
户情绪变化情况以及行为变化情况，根据用户情绪变化情况以及行为变化情况确定匹配的表情包素材。
34.作为一种示例，如图6，图12所示，所述用户制作表情包的模式包括单人制作模式；如图2所示，所述根据不同视频帧中用户的所述情绪信息和行为信息确定表情包素材的步骤，包括：步骤s31，确定每个视频帧的人脸点位特征值和特征骨骼点位特征值；作为一种示例，在获取到视频帧后，定位视频帧中的人脸，并按照预设的点位划分方式对视频帧中的人脸进行点位的划分，如图4所示，通过对视频帧中人脸进行17-21，22-26，36-41，42-47，48-67的划分，然后确定当前视频帧人脸点位位置与对应预设人脸点位位置均值（基于之前的视频帧确定）之间的偏移情况，进而得到人脸点位特征值。
35.作为一种示例，还在获取到视频帧后，定位视频帧中的骨骼，并按照预设的点位划分方式对视频帧中的骨骼进行特征点位的划分，然后确定当前视频帧骨骼特征点位位置与对应预设骨骼点位位置均值（基于之前的视频帧确定）之间的偏移情况，进而得到骨骼特征点位特征值。
36.步骤s32，根据所述人脸点位特征值和特征骨骼点位特征值对不同视频帧进行分簇处理，得到多个视频簇类；作为一种示例，根据所述人脸点位特征值和特征骨骼点位特征值对不同视频帧进行聚类处理，得到多个视频簇类。
37.作为一种示例，视频簇类内部具有较高的相似度，而不同簇类之间的相似度相对于簇内较低。
38.作为一种示例，每个视频簇类内部包括有多个视频帧，在同一个视频簇类内的每个视频帧中情绪信息和行为信息的变化程度相近，在不同视频簇类之间的视频帧中情绪信息和行为信息的变化程度相差较大。
39.步骤s33，从每个视频簇类中选取视频帧，对选取的不同视频帧之间的人脸点位特征值进行方差计算，得到情绪状态方差，并对选取的不同视频帧之间的特征骨骼点位特征值进行方差计算，得到行为状态方差；作为一种示例，从每个视频簇类中选取一个视频帧，对选取的不同视频帧之间的人脸点位特征值进行方差计算，得到情绪状态方差。
40.作为一种示例，从每个视频簇类中选取一个视频帧，对选取的不同视频帧之间的特征骨骼点位特征值进行方差计算，得到行为状态方差。
41.作为一种示例，计算情绪状态方差时，k个簇分别记为，依次取个簇里的任一视频帧为，通过人脸点位特征值计算方法依次获取到，则之前不同视频帧中情绪信息的人脸点位特征值均值为：作为一种示例，情绪状态方差的计算公式为：
其中，为情绪状态方差，k为所选取簇的数量，为当前视频帧的人脸点位特征值，为之前不同视频帧中人脸点位特征值均值。
42.作为一种示例，计算行为状态方差时，k个簇分别记为，依次取个簇里的任一视频帧为，通过特征骨骼点位特征值计算方法依次获取到，则之前不同视频帧中行为信息的特征骨骼点位特征值均值为：作为一种示例，行为状态方差的计算公式为：其中，为行为状态方差，k为所选取簇的数量，为当前视频帧的特征骨骼点位特征值，为之前每个视频帧中行为信息的特征骨骼点位特征值均值。
43.作为一种示例，情绪状态方差反映了用户情绪的变化程度，行为状态方差反映了用户行为或者行为的变化程度。
44.步骤s34，根据所述情绪状态方差和所述行为状态方差，确定当前视频帧的表情包素材。
45.根据所述情绪状态方差和所述行为状态方差，获得比重。
46.作为一种示例，根据所述情绪状态方差和所述行为状态方差，以及比重，确定当前视频帧的表情包素材。
47.作为一种示例，确定当前视频帧的表情包素材可以是只考虑情绪（只有情绪变化），也可以两者都考虑。
48.作为一种示例，根据所述情绪状态方差和所述行为状态方差，确定当前视频帧的表情包素材的方式可以是：根据最大似然函数，所述情绪状态方差和所述行为状态方差，确定当前视频帧的表情包素材。
49.作为一种示例，最大似然函数为：其中，与情绪信息关联，与行为信息关联，表示所选取的视频帧。
50.作为一种示例，最大似然值反映了与相应的相应表情包素材匹配的概率值。
51.作为一种示例，所述根据所述情绪状态方差和所述行为状态方差，确定当前视频帧的表情包素材的步骤，包括：步骤a1，根据情绪状态方差、所述行为状态方差以及最大似然函数，确定当前视频帧所对应的最大似然值；
；其中，f是和的比值，是情绪状态方差，是行为状态方差，、为基于人脸点位特征值和特征骨骼点位特征值确定的单帧特征值；作为一种示例，，其中，为对应视频帧中人脸点位特征值，为对应视频帧中特征骨骼点位特征值。
52.作为一种示例，表示情绪状态方差所占的权重，表示行为状态方差所占的权重。
53.步骤a2，从预设表情包素材的预设标记参数值中，选取与最大似然值最相近的预设个数的预设标记参数值，将所述预设个数的预设标记参数值所对应的表情包素材作为当前视频帧的表情包素材（如图5所示）。
54.作为一种示例，计算最大似然值与素材（预设标记参数的参数值）之间的差值的绝对值，按照绝对值从小到大排列，选出前五组素材为当前视频帧的表情包素材。
55.作为一种示例，素材都有特征标记参数t，t不是指代唯一的数字，而是与用户行为的概率值，用户表情的概率值，素材关联的概率值等关联。
56.作为一种示例，t为一个通用的指代符号，t由人工标记和/或者ai标记，并记录于服务器中。
57.作为一种示例，客户端从服务器获取对应的素材，例如服装、妆容、行为、字幕/贴纸、背景等素材。
58.作为一种示例，客户端基于自身所选择的用户标签，偏好，以及客户端通过设备传感摄像头捕捉脸部和躯体特征，生成该客户端特征标记参数t。
59.步骤s40，基于所述表情包素材和用户所对应的数字人，生成数字人表情包。
60.作为一种示例，所述表情包素材可以是奥特曼表情包素材或者怪兽表情包素材。
61.作为一种示例，用户所对应的数字人为用户预设的数字人模型，可以根据需要进行更改，具体不做限定。
62.作为一种示例，用户对应的数字人由获取的用户的身体特征生成，作为用户的唯一标识，便于在后续的生成表情包的过程中使用。
63.作为一种示例，将表情包素材与用户所对应的数字人结合，生成满足用户需求的数字人表情包。
64.其中，所述基于所述表情包素材和用户所对应的数字人，生成数字人表情包的步骤，包括：步骤s41，获取用户的视频信息，其中，所述视频信息包括用户的脸部特征和身体特征；作为一种示例，客户端通过传感摄像头获取用户的脸部特征和身体特征。
65.步骤s42，根据所述脸部特征和身体特征，生成用户所对应的数字人；作为一种示例，用户的脸部特征和身体特征可以作为塑造的数字人身体特征的依
据，生成的数字人作为每个用户对应的唯一标识。
66.作为一种示例，客户端生成用户对应的数字人时，仅需要用户录制一次相应的视频信息，生成的数字人作为用户的唯一标识，并用于后续的数字人表情包生成，不需要用户重复录制视频信息来生成数字人。
67.作为一种示例，用户也可以根据需要更改已生成的数字人形象，来替代当前已生成的数字人。
68.步骤s43，从所述数字人的多个槽位中选取与所述表情包素材的至少一个槽位标签关联的目标槽位，并将所述表情包素材应用至所述目标槽位，生成数字人表情包；其中，每个槽位标签只与所述数字人的一个槽位相关联。
69.作为一种示例，每个表情包素材都有至少一个槽位标签，槽位标签由服务器下发至客户端的表情包素材中。
70.作为一种示例，数字人包括骨骼模型，骨骼模型上设置有多个槽位，其中，骨骼模型的每个身体部位（比如头部、手部、手臂以及腿部等）上都设有一个槽位，槽位用于与表情包素材的槽位标签相匹配。
71.作为一种示例，目标槽位为与确定的表情包素材的槽位标签关联的槽位，目标槽位可以是一个或者多个，具体不做限定。
72.作为一种示例，在确定表情包素材之后，通过表情包素材的槽位标签与对应数字人的槽位相匹配，表情包素材可以包括多个槽位标签（比如，脸部表情、上衣、下衣、鞋子等都有一个槽位标签），槽位标签与对应的槽位匹配完成之后，再将带有槽位标签的表情包素材分别应用到各自的槽位上。从而生成数字人表情包。
73.作为一种示例，每个槽位标签只与所述数字人的一个槽位相关联，在匹配完成后，可以准确无误地将各个位置的表情包素材应用到相匹配的槽位上。
74.本技术提供了一种数字人表情包生成方法、装置、设备及存储介质，与现有技术中使用人工p图制作表情包的方式，致使表情包制作费时费力相比，在本技术中，确定用户制作表情包的模式；根据所述模式，获取所采集的不同视频帧中用户的情绪信息和行为信息；根据不同视频帧中用户的所述情绪信息和行为信息确定表情包素材；基于所述表情包素材和用户所对应的数字人，生成数字人表情包。在本技术中，不需要人工p图制作表情包，而是在用户端选取制作表情包的模式后，直接根据采集的视频帧中用户的情绪信息和行为信息所确定的表情包素材，并将确定的表情包素材和用户所对应的数字人相结合，生成数字人表情包，可以理解，客户端根据用户的情绪信息和行为信息确定表情包素材，并与用户所对应的数字人相结合，从而生成数字人表情包，而不是用户手动人工p图制作表情包，避免表情包制作费时费力。
75.进一步地，基于本技术中第一实施例，提供本技术的另一实施例，在该实施例中，所述用户制作表情包的模式包括多人联动模式；所述基于所述表情包素材和用户所对应的数字人，生成数字人表情包的步骤，包括：步骤b1，根据多人联动模式下，不同用户的情绪信息和行为信息，确定主角和配角，其中，主角从多人联动模式所对应单人表情包素材中优先选择第一素材，配角从剩余的表情包素材中选择第二素材，所述第一素材和第二素材存在联动关系；
步骤b2，基于所述第一素材、第二素材与不同用户所对应的数字人，得到数字人表情包。
76.作为一种示例，如图7所示，图8所示，本地客户端（a客户端）与其他第二客户端（b客户端）联合生成数字人表情包。
77.作为一种示例，客户端可以进行本地组网匹配或者线上随机匹配方式，确定第二客户端，并与第二客户端联合生成数字人表情包。
78.作为一种示例，第二客户端可以为多个。
79.作为一种示例，每个客户端均通过上述单独生成表情包的方案，得到相应的表情包素材。
80.作为一种示例，根据多人联动模式下，不同用户的情绪信息和行为信息，确定主角和配角。
81.作为一种示例，基于用户的情绪信息和行为信息对用户的表演欲进行评分，基于该评分，确定主角和配角。
82.作为一种示例，在a客户端和b客户端同意开始合拍后，触发录制，会在不同客户端界面均实时展示当前评分（根据不同客户端用户的情绪信息和行为信息）。
83.作为一种示例，a客户端和b客户端在进入多人联动模式后，两用户分别进行屏幕录制，此时会在用户所使用的终端界面展示当前的主角评分，设置为a客户端的评分为：g/（1+g），b客户端的评分为：1/（1+g）。
84.作为一种示例，在界面提示3秒倒计时结束后，评分比例高的则为主角。
85.作为一种示例，主角享有素材优先素材选取权，例如主角从多人联动模式所对应单人表情包素材中优先选择第一素材，配角从剩余的表情包素材中选择第二素材。
86.作为一种示例，所述第一素材和第二素材存在联动关系。
87.作为一种示例，第一素材为奥特曼，第二素材为怪兽。
88.作为一种示例，a客户端会优先按规则优先配置5套素材（从多人联动模式所对应单人表情包素材中匹配），b客户端匹配的素材都不能与a重复。
89.作为一种示例，多人联动模式所对应单人表情包素材为a客户端在单人制作模式下的素材和b客户端在单人制作模式下素材的总和。
90.作为一种示例，a客户端成为主角后，a客户端对应生成形象比如奥特曼装扮，b客户端可对其进行配合，如生成怪兽装扮，若b用户对此比较冷漠，则根据素材匹配规则，可能伴上字幕贴纸之类的（沙雕、战五渣...等）。
91.作为一种示例，所述基于所述第一素材、第二素材与不同用户所对应的数字人，得到数字人表情包的步骤，包括：步骤c1，确定多人联动模式下不同用户的客户端所在的经纬度信息，确定场景布局；步骤c2，根据所述场景布局、基于所述第一素材、第二素材与不同用户所对应的数字人，得到数字人表情包。
92.作为一种示例，确定多人联动模式下不同用户的客户端所在的经纬度信息，进而，得到不同客户端的相对位置，得到数字人表情包的场景布局。
93.作为一种示例，如图9所示，客户端a和客户端b相对位置为东北方向，则在a的视角
中，将数字人a面向用户，同理b的视角将数字人b面向用户。
94.根据所述场景布局确定数字人表情包的显示方式。
95.即根据所述场景布局、基于所述第一素材、第二素材与不同用户所对应的数字人，得到数字人表情包。
96.在本实施例中，通过根据多人联动模式下，不同用户的情绪信息和行为信息，确定主角和配角，其中，主角从多人联动模式所对应单人表情包素材中优先选择第一素材，配角从剩余的表情包素材中选择第二素材，所述第一素材和第二素材存在联动关系；结合所述第一素材、第二素材与不同用户所对应的数字人，得到数字人表情包。在本实施例中，实现联动数字人表情包，拓宽了用户制作表情包的应用场景。
97.进一步地，基于本技术中第一实施例和第二实施例，提供本技术的另一实施例，在该实施例中，所述用户制作表情包的模式包括合拍模式；所述根据所述模式，根据不同视频帧中用户的所述情绪信息和行为信息确定表情包素材的步骤，还包括：步骤d1，确定用于合拍的合拍表情包；作为一种示例，用于合拍的合拍表情包为客户端中已生成的数字人表情包。
98.步骤d2，根据不同视频帧中用户的所述情绪信息、行为信息和所述合拍表情包，确定表情包素材；作为一种示例，客户端获取不同视频帧中用户的情绪信息和行为信息，并通过选取得合拍表情包来匹配用户对应的表情包素材。作为一种示例，客户端获取合拍表情包的t值，并按照一定的权重比例来确定表情包素材的t值，从而表情包素材。
99.作为一种示例，若合拍表情包的t值为t1，用户对应的表情包素材的t值为t
2，
权重比例t1：t2=7:3，则用户对应的表情包素材的t值即为t
1*
3/7，从而确定表情包素材。
100.所述基于所述表情包素材和用户所对应的数字人，生成数字人表情包的步骤，包括：步骤e1，根据所述表情包素材、所述合拍表情包与用户所对应的数字人，得到数字人表情包。
101.作为一种示例，如图10所示，客户端将用户所对应的数字人与表情包素材进行结合，在同屏幕中展示两个数字人表情包，其中，一个表情包为合拍表情包，另一个数字人表情包为生成的表情包。
102.其中，所述根据所述表情包素材、所述合拍表情包与用户所对应的数字人，得到数字人表情包的步骤，包括：步骤m1，根据合拍表情包中数字人的第一行为状态，确定其第一运动偏移情况；作为一种示例，第一行为状态为合拍表情包中数字人在屏幕中的运动情况，客户端可以根据数字人（以下称数字人m）的运动情况来确定数字人移动距离，从而可以得出数字人m的第一运动偏移情况，确定数字人m的相对坐标为(a.x,a.y,a.z)，如图11所示。
103.步骤m2，从所述表情包素材中确定需要的目标表情包；作为一种示例，目标表情包（数字人b）即为基于合拍表情包确定的用户相应的表情包素材中的一个，从用户相应的表情包素材中选取一个表情包素材作为目标表情包素
材。
104.步骤m3，基于所述第一运动偏移情况，确定目标表情包中数字人的第二运动偏移情况，其中，所述合拍表情包中数字人和所述目标表情包中数字人不会碰撞；作为一种示例，客户端从数字人m的第一运动偏移情况，得到数字人b的相对坐标为。
105.作为一种示例，第二运动偏移情况即为数字人m的第一运动偏移情况加上偏移量得到的，增加偏移量的目的是为了数字人m和数字人b不会在屏幕中发生碰撞，避免数字人重叠穿模的情况发生。
106.步骤m4，基于所述第一运动偏移情况、所述第二运动偏移情况，所述目标表情包和所述合拍表情包与用户所对应的数字人，得到数字人表情包；其中，所述数字人表情包在显示屏幕内显示。
107.作为一种示例，客户端通过确定第一运动偏移情况和所述第二运动偏移情况来确定数字人m和数字人b的相对坐标，从而根据数字人m和数字人b的相对坐标使得两个数字人表情包进行同屏展示。
108.作为一种示例，当两个数字人表情包在进行同屏展示时，将两个数字人表情包应用于画布，其中，画布的尺寸小于屏幕尺寸，若数字人表情包超出屏幕，则按照缩放比例对生成的表情包进行缩放展示。
109.作为一种示例，如果已生成的数字人表情包超过了最右边的屏幕，则以最大横坐标为基准计算缩放比例，计算方式如下所示：其中为两个已生成的数字人表情包的宽度，为屏幕坐标的最大横坐标，为屏幕坐标的最小横坐标，为缩放比例，为画布的大小。
110.作为一种示例，如果已生成的数字人表情包超过了最左边的屏幕，则以最小横坐标为基准计算缩放比例，计算方式如下所示：其中为两个已生成的数字人表情包的宽度，为屏幕坐标的最大横坐标，为屏幕坐标的最小横坐标，为缩放比例，为画布的大小。
111.作为一种示例，将生成的数字人表情包按照进行缩小，以保证两个数字人表情包能够同屏展示，当数字人表情包的最右边和最左边都超过了屏幕时，以较大的k值将生成的数字人表情包进行缩放，从而产生合拍表情包。
112.在本实施例中，适用于用户与其他数字人表情包合拍的场景，保证用户对应生成的数字人表情包能够与合拍表情包同屏展示，从而在用户没有多人互动的情况下也能产生合拍的表情包。
113.参照图3，图3是本技术实施例方案涉及的硬件运行环境的设备结构示意图。
114.如图3所示，该数字人表情包生成设备可以包括：处理器1001，存储器1005，通信总线1002。通信总线1002用于实现处理器1001和存储器1005之间的连接通信。
115.可选地，该数字人表情包生成设备还可以包括用户接口、网络接口、摄像头、rf（radio frequency，射频）电路，传感器、wifi模块等等。用户接口可以包括显示屏（display）、输入子模块比如键盘（keyboard），可选用户接口还可以包括标准的有线接口、无线接口。网络接口可以包括标准的有线接口、无线接口（如wi-fi接口）。
116.本领域技术人员可以理解，图3中示出的数字人表情包生成设备结构并不构成对数字人表情包生成设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。
117.如图3所示，作为一种存储介质的存储器1005中可以包括操作系统、网络通信模块以及数字人表情包生成程序。操作系统是管理和控制数字人表情包生成设备硬件和软件资源的程序，支持数字人表情包生成程序以及其它软件和/或程序的运行。网络通信模块用于实现存储器1005内部各组件之间的通信，以及与数字人表情包生成系统中其它硬件和软件之间通信。
118.在图3所示的数字人表情包生成设备中，处理器1001用于执行存储器1005中存储的数字人表情包生成程序，实现上述任一项所述的数字人表情包生成方法的步骤。
119.本技术数字人表情包生成设备具体实施方式与上述数字人表情包生成方法各实施例基本相同，在此不再赘述。
120.本技术还提供一种数字人表情包生成装置，所述数字人表情包生成装置包括：第一确定模块，用于确定用户制作表情包的模式；获取模块，用于获取所采集的不同视频帧中用户的情绪信息和动作信息；第二确定模块，用于根据所述模式，根据不同视频帧中用户的所述情绪信息和动作信息确定表情包素材；生成模块，用于基于所述表情包素材和用户所对应的数字人，生成数字人表情包。
121.在本技术的一种可能的实施方式中，所述用户制作表情包的模式包括单人制作模式；所述第二确定模块包括：第一确定单元，用于确定每个视频帧的人脸点位特征值和特征骨骼点位特征值；分簇单元，用于根据所述人脸点位特征值和特征骨骼点位特征值对不同视频帧进行分簇处理，得到多个视频簇类；计算单元，用于从每个视频簇类中选取视频帧，对选取的不同视频帧之间的人脸点位特征值进行方差计算，得到情绪状态方差，并对选取的不同视频帧之间的特征骨骼点位特征值进行方差计算，得到行为状态方差；第二确定单元，用于根据所述情绪状态方差和所述行为状态方差，确定当前视频帧的表情包素材。
122.在本技术的一种可能的实施方式中，所述第二确定单元用于实现：根据情绪状态方差、所述行为状态方差以及最大似然函数，确定当前视频帧所对应的最大似然值；
其中，f是与的比值，是情绪状态方差，是行为状态方差，、为基于人脸点位特征值和特征骨骼点位特征值确定的单帧特征值；从预设表情包素材的预设标记参数值中，选取与最大似然值最相近的预设个数的预设标记参数值，将所述预设个数的预设标记参数值所对应的表情包素材作为当前视频帧的表情包素材。
123.在本技术的一种可能的实施方式中，所述用户制作表情包的模式包括多人联动模式；所述生成模块，用于实现：根据多人联动模式下，不同用户的情绪信息和行为信息，确定主角和配角，其中，主角从多人联动模式所对应单人表情包素材中优先选择第一素材，配角从剩余的表情包素材中选择第二素材，所述第一素材和第二素材存在联动关系；基于所述第一素材和第二素材，生成数字人表情包。
124.在本技术的一种可能的实施方式中，所述生成模块，用于实现：确定多人联动模式下不同用户的客户端所在的经纬度信息，确定场景布局；根据所述场景布局、基于所述第一素材和第二素材，生成数字人表情包。
125.在本技术的一种可能的实施方式中，所述用户制作表情包的模式包括合拍模式；所述第二确定模块用于实现：确定用于合拍的合拍表情包；根据不同视频帧中用户的所述情绪信息、行为信息和所述合拍表情包，确定表情包素材；所述生成模块，用于实现：根据所述表情包素材、所述合拍表情包与用户所对应的数字人，得到数字人表情包。
126.在本技术的一种可能的实施方式中，所述生成模块，用于实现：根据合拍表情包中数字人的第一行为状态，确定其第一运动偏移情况；从所述表情包素材中确定需要的目标表情包；基于所述第一运动偏移情况，确定目标表情包中数字人的第二运动偏移情况，其中，所述合拍表情包中数字人和所述目标表情包中数字人不会碰撞；基于所述第一运动偏移情况、所述第二运动偏移情况，所述目标表情包和所述合拍表情包与用户所对应的数字人，得到数字人表情包；其中，所述数字人表情包在显示屏幕内显示。
127.在本技术的一种可能的实施方式中，所述生成模块还包括：第一获取单元，用于获取用户的视频信息，其中，所述视频信息包括用户的脸部特征和身体特征；第一生成单元，用于根据所述脸部特征和身体特征，生成用户所对应的数字人；第二生成单元，用于从所述数字人的多个槽位中选取与所述表情包素材的至少一
个槽位标签关联的目标槽位，并将所述表情包素材应用至所述目标槽位，生成数字人表情包；其中，每个槽位标签只与所述数字人的一个槽位相关联。
128.需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
129.上述本技术实施例序号仅仅为了描述，不代表实施例的优劣。
130.通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本技术的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如rom/ram、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本技术各个实施例所述的方法。
131.以上仅为本技术的优选实施例，并非因此限制本技术的专利范围，凡是利用本技术说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本技术的专利保护范围内。

技术特征：
1.一种数字人表情包生成方法，其特征在于，所述数字人表情包生成方法包括以下步骤：确定用户制作表情包的模式；获取所采集的不同视频帧中用户的情绪信息和行为信息；根据所述模式，根据不同视频帧中用户的所述情绪信息和行为信息确定表情包素材；基于所述表情包素材和用户所对应的数字人，生成数字人表情包。2.如权利要求1所述的数字人表情包生成方法，其特征在于，所述用户制作表情包的模式包括单人制作模式；所述根据所述模式，根据不同视频帧中用户的所述情绪信息和行为信息确定表情包素材的步骤，包括：确定每个视频帧的人脸点位特征值和特征骨骼点位特征值；根据所述人脸点位特征值和特征骨骼点位特征值对不同视频帧进行分簇处理，得到多个视频簇类；从每个视频簇类中选取视频帧，对选取的不同视频帧之间的人脸点位特征值进行方差计算，得到情绪状态方差，并对选取的不同视频帧之间的特征骨骼点位特征值进行方差计算，得到行为状态方差；根据所述情绪状态方差和所述行为状态方差，确定当前视频帧的表情包素材。3.如权利要求2所述的数字人表情包生成方法，其特征在于，所述根据所述情绪状态方差和所述行为状态方差，确定当前视频帧的表情包素材的步骤，包括：根据情绪状态方差、所述行为状态方差以及最大似然函数，确定当前视频帧所对应的最大似然值；其中，所述最大似然函数为其中，所述最大似然函数为其中，f是a1与a2的比值，a1是情绪状态方差，a2是行为状态方差，z1、z2、、、z
m
为基于人脸点位特征值和特征骨骼点位特征值确定的单帧特征值；从预设表情包素材的预设标记参数值中，选取与最大似然值最相近的预设个数的预设标记参数值，将所述预设个数的预设标记参数值所对应的表情包素材作为当前视频帧的表情包素材。4.如权利要求1所述的数字人表情包生成方法，其特征在于，所述用户制作表情包的模式包括多人联动模式；所述基于所述表情包素材和用户所对应的数字人，生成数字人表情包的步骤，包括：根据多人联动模式下，不同用户的情绪信息和行为信息，确定主角和配角，其中，主角从多人联动模式所对应单人表情包素材中优先选择第一素材，配角从剩余的表情包素材中选择第二素材，所述第一素材和第二素材存在联动关系；基于所述第一素材和第二素材与不同用户所对应的数字人，生成数字人表情包。5.如权利要求4所述的数字人表情包生成方法，其特征在于，所述基于所述第一素材和第二素材与不同用户所对应的数字人，生成数字人表情包的步骤，包括：确定多人联动模式下不同用户的客户端所在的经纬度信息，确定场景布局；
根据所述场景布局、基于所述第一素材和第二素材与不同用户所对应的数字人，生成数字人表情包。6.如权利要求1所述的数字人表情包生成方法，其特征在于，所述用户制作表情包的模式包括合拍模式；所述根据所述模式，根据不同视频帧中用户的所述情绪信息和行为信息确定表情包素材的步骤，还包括：确定用于合拍的合拍表情包；根据不同视频帧中用户的所述情绪信息、行为信息和所述合拍表情包，确定表情包素材；所述基于所述表情包素材和用户所对应的数字人，生成数字人表情包的步骤，包括：根据所述表情包素材、所述合拍表情包与用户所对应的数字人，得到数字人表情包。7.如权利要求6所述的数字人表情包生成方法，其特征在于，所述根据所述表情包素材、所述合拍表情包与用户所对应的数字人，得到数字人表情包的步骤，包括：根据合拍表情包中数字人的第一行为状态，确定其第一运动偏移情况；从所述表情包素材中确定需要的目标表情包；基于所述第一运动偏移情况，确定目标表情包中数字人的第二运动偏移情况，其中，所述合拍表情包中数字人和所述目标表情包中数字人不会碰撞；基于所述第一运动偏移情况、所述第二运动偏移情况，所述目标表情包和所述合拍表情包与用户所对应的数字人，得到数字人表情包；其中，所述数字人表情包在显示屏幕内显示。8.如权利要求1所述的数字人表情包生成方法，其特征在于，所述基于所述表情包素材和用户所对应的数字人，生成数字人表情包的步骤，包括：获取用户的视频信息，其中，所述视频信息包括用户的脸部特征和身体特征；根据所述脸部特征和身体特征，生成用户所对应的数字人；从所述数字人的多个槽位中选取与所述表情包素材的至少一个槽位标签关联的目标槽位，并将所述表情包素材应用至所述目标槽位，生成数字人表情包；其中，每个槽位标签只与所述数字人的一个槽位相关联。9.一种数字人表情包生成装置，其特征在于，所述数字人表情包生成装置包括：第一确定模块，用于确定用户制作表情包的模式；获取模块，用于获取所采集的不同视频帧中用户的情绪信息和行为信息；第二确定模块，用于根据所述模式，根据不同视频帧中用户的所述情绪信息和行为信息确定表情包素材；生成模块，用于基于所述表情包素材和用户所对应的数字人，生成数字人表情包。10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有数字人表情包生成程序，所述数字人表情包生成程序被处理器执行时实现如权利要求1至8中任一项所述的数字人表情包生成方法的步骤。

技术总结
本申请公开了一种数字人表情包生成方法、装置、设备及存储介质，该方法包括步骤：确定用户制作表情包的模式；获取所采集的不同视频帧中用户的情绪信息和行为信息；根据所述模式，根据不同视频帧中用户的所述情绪信息和行为信息确定表情包素材；基于所述表情包素材和用户所对应的数字人，生成数字人表情包。本申请客户端根据用户的情绪信息和行为信息确定表情包素材，并与用户所对应的数字人相结合，从而生成数字人表情包，而不是用户手动人工P图制作表情包，避免表情包制作费时费力。避免表情包制作费时费力。避免表情包制作费时费力。

技术研发人员：季焕文于芹刘超何林高山
受保护的技术使用者：中国移动通信集团有限公司
技术研发日：2023.02.03
技术公布日：2023/7/19

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

上一篇：一种智慧码头运输系统及搭建方法与流程 下一篇：一种基于语义约束的Transformer多模态影像分割方法

数字人表情包生成方法、装置及存储介质与流程

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

数字人表情包生成方法、装置及存储介质与流程

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表