语音连麦的合流方法及设备与流程

未命名 09-16 阅读：115 评论：0

1.本技术涉及网络技术领域，尤其涉及一种语音连麦的合流方法及设备。

背景技术：

2.直播连麦场景是指主播与连麦嘉宾进行双向音视频互动，观众可以观看主播与连麦嘉宾的音视频互动的场景。在直播连麦场景中，连麦嘉宾可以通过语音连麦方式与主播连麦。
3.当连麦嘉宾使用语音连麦方式与主播进行连麦时，为了让观众端感知到连麦嘉宾的存在，如图1所示，一种实现方式为：连麦嘉宾端101先在本地生成包括用户图像和声波动效的图像画面，然后将该生成的图像画面和连麦用户的声音通过转发服务器102转发至主播端，主播端通过合成器103对该图像画面、连麦用户的声音、主播的图像画面和主播声音合成，得到合流图像画面和合流声音。这样，观众端获得的合流图像画面中就会包括连麦嘉宾的图像画面，从而使得观众可以从合流图像画面中看到连麦嘉宾的图像，即可以使得观众端感知到连麦嘉宾的存在。
4.但是，上述实现方式需要消耗连麦嘉宾端较多上行带宽资源、中央处理器(central processing unit，cpu)资源或图形处理器(graphics processing unit，gpu)资源。从另一个角度说，连麦嘉宾端的上行带宽资源、cpu资源和gpu资源中任意一个不能够满足的情况下，连麦嘉宾端都不能高质量地与主播连麦。
5.因此，如何在连麦嘉宾通过语音连麦方式与主播连麦的场景下，既能让观众端感知到连麦嘉宾的存在，还能够减少连麦嘉宾端的上行带宽压力大、cpu和gpu消耗大的问题，成为亟待解决的技术问题。

技术实现要素：

6.本技术提供一种语音连麦的合流方法，能够在连麦嘉宾通过语音连麦方式与主播连麦的场景下，既能让观众端感知到连麦嘉宾的存在，还能够减少连麦嘉宾端的上行带宽压力大、cpu和gpu消耗大的问题。
7.第一方面，本技术实施例提供一种语音连麦的合流方法，应用于语音连麦的合流设备，包括：获取第一语音流，所述第一语音流包括连麦端对应的连麦用户的语音信息；获取第二语音流和第一图像画面，所述第二语音流包括主播端对应的主播用户的语音信息，所述第一图像画面包括所述主播端对应的主播用户的图像画面信息；对所述第一语音流、所述第二语音流以及所述第一图像画面进行合成处理，得到第一合流数据；获取第二图像画面，所述第二图像画面指示所述连麦用户的图像画面信息；对所述第二图像画面和所述第一合流数据进行编码，得到第二合流数据。
8.本实施例提供的语音连麦的合流方法及设备。该方法中，语音连麦的合流设备获取第一语音流，第一语音流包括连麦端对应的连麦用户的语音信息；语音连麦的合流设备获取第二语音流和第一图像画面，第二语音流包括主播端对应的主播用户的语音信息，第
一图像画面包括主播端对应的主播用户的图像画面信息；对第一语音流、第二语音流以及第一图像画面进行合成处理，得到第一合流数据；获取第二图像画面，第二图像画面指示所述连麦用户的图像画面信息；对第二图像画面和第一合流数据进行编码，得到第二合流数据。由于在本实施例提供的语音连麦的合流方法中，是通过语音连麦的合流设备获取的连麦用户对应的第二图像画面，以及是通过语音连麦的合流设备将第一合流数据和第二图像画面进行编码，最终获得的第二合流数据。因此，不再需要连麦端生成连麦用户的第二图像画面，从而可以在满足观众端能够感知到连麦用户的存在的情况下，还能够减少连麦端的上行带宽压力大、cpu和gpu消耗大的问题。
9.结合第一方面，在一种可能的实现方式中，所述获取第一语音流，包括：从转发服务器中获取所述第一语音流，所述转发服务器用于转发所述连麦用户的语音信息。
10.由于连麦用户的语音信息会先发送到转发服务器中，因此，该实现方式中，语音连麦的合流设备可以从转发服务器中获取到连麦用户的语音信息。
11.结合第一方面，在一种可能的实现方式中，所述语音连麦的合流设备包含于所述主播端中。
12.结合第一方面，在一种可能的实现方式中，所述语音连麦的合流设备包含于合成服务器中。
13.结合第一方面，在一种可能的实现方式中，所述获取第二语音流和第一图像画面，包括：从所述转发服务器中获取所述第二语音流和第一图像画面，所述转发服务器还用于转发所述主播用户的图像画面信息和语音信息。
14.该实现方式中，当语音连麦的合流设备包含于合成服务器中时，由于主播端的语音信息和主播端对应的第一图像画面也会先发送到转发服务器中，因此，语音连麦的合流设备可以从转发服务器中第二语音流和第一图像画面。
15.结合第一方面，在一种可能的实现方式中，所述第二图像画面包括目标图像和声波动效，所述目标图像用于指示所述连麦用户。
16.结合第一方面，在一种可能的实现方式中，在所述获得第二合流数据之后，所述方法还包括：将所述第二合流数据发送至流媒体服务器。
17.该实现方式中，由于语音连麦的合流设备将第二合流数据发送至流媒体服务器，而第二合流数据中包括了连麦用户对应的第二图像画面，因此，可以使得观众端能够感知到连麦用户的存在。
18.第二方面，本技术提供一种语音连麦的合流设备，包括：获取模块，用于获取第一语音流，所述第一语音流包括连麦端对应的连麦用户的语音信息；所述获取模块，还用于获取第二语音流和第一图像画面，所述第二语音流包括主播端对应的主播用户的语音信息，所述第一图像画面包括所述主播端对应的主播用户的图像画面信息；合成模块，用于对所述第一语音流、所述第二语音流以及所述第一图像画面进行合成处理，获得第一合流数据；所述获取模块，还用于获取第二图像画面，所述第二图像画面指示所述连麦用户的图像画面信息；编码模块，用于对所述第二图像画面和所述第一合流数据进行编码，获得第二合流数据。
19.结合第二方面，在一种可能的实现方式中，所述获取模块具体用于：从转发服务器中获取所述第一语音流，所述转发服务器用于转发所述连麦用户的语音信息。
20.结合第一方面，在一种可能的实现方式中，所述语音连麦的合流设备包含于所述主播端中。
21.结合第一方面，在一种可能的实现方式中，所述语音连麦的合流设备包含于合成服务器中。
22.结合第一方面，在一种可能的实现方式中，所述获取模块具体用于：从所述转发服务器中获取所述第二语音流和第一图像画面，所述转发服务器还用于转发所述主播用户的图像画面信息和语音信息。
23.结合第一方面，在一种可能的实现方式中，所述第二图像画面包括目标图像和声波动效，所述目标图像用于指示所述连麦用户。
24.结合第一方面，在一种可能的实现方式中，所述语音连麦的合流设备还包括发送模块，所述发送模块用于在所述获得第二合流数据之后，将所述第二合流数据发送至流媒体服务器。
25.第三方面，本技术提供一种电子设备，包括：存储器和处理器；所述存储器用于存储程序指令；所述处理器用于调用所述存储器中的程序指令执行如上第一方面以及第一方面各种可能的设计所述的语音连麦的合流方法。
26.第四方面，本技术提供一种计算机可读介质，所述计算机可读介质存储用于计算机执行的程序代码，该程序代码包括用于执行如上第一方面以及第一方面各种可能的设计所述的语音连麦的合流方法。
27.第五方面，本技术提供一种计算机程序产品，所述计算机程序产品中包括计算机程序代码，当所述计算机程序代码在计算机上运行时，使得所述计算机实现如上第一方面以及第一方面各种可能的设计所述的语音连麦的合流方法。
附图说明
28.为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。
29.图1为现有技术中的语音连麦系统的结构性示意图；
30.图2为本公开实施例提供的语音连麦的合流方法的流程性示意图；
31.图3为本公开实施例提供的语音连麦的合流方法的结构性示意图；
32.图4为本公开实施例提供的语音连麦的合流方法的结构性示意图；
33.图5为本公开实施例提供的语音连麦的合流设备的结构性示意图；
34.图6为本公开实施例提供的电子设备的结构性示意图。
具体实施方式
35.为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本公开一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。
36.近年来，直播从最初形态的单向视频展示场景，即观众只能单向观看主播的视频展示，发展到如今的视频直播多人连麦的场景，即主播与连麦嘉宾进行双向音视频互动，观众可以观看主播与连麦嘉宾的音视频互动过程。在视频直播多人连麦的场景中，连麦嘉宾可以通过语音连麦方式与主播连麦。
37.参考图1，图1为现有技术中一种语音连麦的示例图。现有技术中，当连麦嘉宾使用语音连麦方式与主播进行连麦时，为了让观众端感知到连麦嘉宾的存在，如图1所示，一种实现方式为：连麦嘉宾端101先在本地生成包括用户图像和声波动效的图像画面，然后将该生成的图像画面和连麦用户的声音通过转发服务器102转发至主播端，主播端通过合成器103对该图像画面、连麦用户的声音、主播的图像画面和主播声音合成，得到合流图像画面和合流声音。进一步地，当主播端获得了合流图像画面和合流声音后，在使用编码器104对合流图像画面以及合流声音进行编码，获得可以上传到流媒体服务器的最终的合流图像画面以及最终的合流声音。这样，观众端获得的合流图像画面中就会包括连麦嘉宾的图像画面，从而使得观众可以从合流图像画面中看到连麦嘉宾的图像，即可以使得观众端感知到连麦嘉宾的存在。
38.但是，上述实现方式需要消耗连麦嘉宾端较多上行带宽资源、中央处理器(central processing unit，cpu)资源或图形处理器(graphics processing unit，gpu)资源。从另一个角度说，连麦嘉宾端的上行带宽资源、cpu资源和gpu资源中任意一个不能够满足的情况下，连麦嘉宾端都不能高质量地与主播连麦。
39.因此，如何在连麦嘉宾通过语音连麦方式与主播连麦的场景下，既能让观众端感知到连麦嘉宾的存在，还能够减少连麦嘉宾端的上行带宽压力大、cpu和gpu消耗大的问题，成为亟待解决的技术问题。本公开实施例提供一种语音连麦的合流方法以解决上述问题。
40.参考图2，图2为本公开实施例提供的语音连麦的合流方法流程示意图。本实施例的方法可以应用在语音连麦的合流设备中，该语音连麦的合流方法包括：
41.s201：获取第一语音流，第一语音流包括连麦端对应的连麦用户的语音信息。
42.本实施例中，连麦用户是指通过语音连麦方式与主播进行连麦的用户，例如也可以称为连麦嘉宾。其中，连麦端是指连麦用户使用的终端设备。
43.第一语音流可以认为是连麦用户在通过语音连麦方式与主播进行连麦时连麦用户的语音信息。
44.在具体实施时，该语音连麦的合流设备可以包含在主播端或者合成服务器中。其中，主播端是指用于直播的终端。在这种情况下，语音连麦的合流设备获取第一语音流的一种可实现方式为：语音连麦的合流设备从转发服务器中获取第一语音流，转发服务器用于转发连麦用户的语音信息。可以理解的是，在语音连麦过程中，连麦端通常会将连麦用户的语音流先发送至转发服务器，因此，在该实现方式中，语音连麦的合流设备可以直接从转发服务器中获取到第一语音流。
45.s202：获取第二语音流和第一图像画面，第二语音流包括主播端对应的主播用户的语音信息，第一图像画面包括主播端对应的主播用户的图像画面信息。
46.其中，第二语音流可以认为是主播端与连麦端在通过语音连麦方式进行连麦时主播用户产生的语音信息。第一图像画面为主播用户的图像画面信息。
47.在具体实施时，语音连麦的合流设备可以包含在主播端中。在这种情况下，主播端
可以通过摄像头采集主播用户对应的第一图像画面，通过麦克风采集主播用户对应的第二语音流。
48.在具体实施例，语音连麦的合流设备也可以包含在合成服务器中。在这种情况下，一种语音连麦的合流设备获取第二语音流和第一图像画面的可实现方式为：语音连麦的合流设备从转发服务器中获取第二语音流和第一图像画面，转发服务器还用于转发主播用户的图像画面信息和语音信息。可以理解的是，在语音连麦过程中，主播端通常会将主播用户的语音流和图像画面信息先发送至转发服务器，因此，在该实现方式中，合成服务器可以直接从转发服务器中获取到主播用户对应的第二语音流和第一图像画面。
49.在此说明的是，本实施例对第一图像画面、第一语音流以及第二语音流的获取方式不做限定。例如，可以先获取第一图像画面，再获取第一语音流以及第二语音流，又或者可以同时获取第一图像画面、第一语音流以及第二语音流。
50.s203：对第一语音流、第二语音流以及第一图像画面进行合成处理，得到第一合流数据。
51.无论语音连麦的合流设备是主播端还是合成服务器，通常，当连麦用户是通过视频连麦的方式与主播用户进行连麦的过程中，在语音连麦的合流设备接收到了主播用户对应的图像画面和语音流以及连麦用户对应的图像画面和语音流后，会将主播用户的图像画面与连麦用户的图像画面做合成，将主播用户的语音流与连麦用户的语音流做合成，最后将混合的语音和图像画面推向到流媒体服务器。
52.然而，当连麦用户通过语音连麦方式与主播用户进行连麦的过程中，由于连麦端通常不会采集连麦用户的图像画面，因此就不会产生对应的图像画面。即，在本实施例中，语音连麦的合流设备在合成时，该语音连麦的合流设备的输入信息包括：连麦用户对应的第一语音流，主播用户对应的第二语音流以及主播用户对应的第一图像画面。而不包括连麦用户对应的图像画面。
53.本实施例中，将语音连麦的合流设备对第一语音流、第二语音流以及第一图像画面进行合成处理后得到的数据称为第一合流数据。可以理解的是，该第一合流数据可以分为两部分，一部分是第一语音流和第二语音流混合之后的合流语音数据，另一部分是仅包括主播用户对应的图像画面的图像数据。
54.s204：获取第二图像画面，所述第二图像画面指示连麦用户的图像画面信息。
55.可以理解的是，由于语音连麦的合流设备在进行合成处理时，其输入数据只包括第一语音流、第二语音流以及第一图像画面，因此，在合成后的第一合流数据中是不包括连麦用户的图像画面信息的。这样，将会导致观众在使用观众端观看主播与连麦用户的音视频互动过程时，无法感知到连麦用户的存在。因此，为了解决观众端无法感知连麦用户的存在的问题，本实施例在获得第一合流数据之后，还获取连麦用户的图像画面信息(即第二图像画面)。
56.在此说明的是，本实施例对语音连麦的合流设备如何获取第二图像画面的具体实现方式不做限定。
57.在一种可能的实现方式中，语音连麦的合流设备可以从第一合流数据中获取到连麦用户的语音流信息，然后基于连麦用户的语音流信息分别确定出连麦端对应的网际互连协议(internet protocol，ip)地址，然后去业务服务器中获取该ip地址对应的连麦端中的
用户的图像信息。
58.在另一种可能的实现方式中，语音连麦的合流设备可以从第一合流数据中获取到连麦用户的语音流信息，然后自动为该连麦用户生成图像画面。可以理解的是，在这种实现方式中，当连麦用户包括多个时，语音连麦的合流设备可以为该多个连麦用户分别生成对应的图像画面。
59.作为一种示例，第二图像画面可以包括连麦用户的图像和声波动效。
60.s205：对第二图像画面和第一合流数据进行编码，得到第二合流数据。
61.可以理解的是，通常情况下，当语音连麦的合流设备获得了第一合流数据之后，便会对该第一合流数据再进行编码获得最终的合流数据。然后再将该最终的合流数据发送到流媒体服务器上。在此说明的是，有关编码的具体概念以及详细解释可以参考相关技术中的描述，此处不再赘述。
62.本实施例中，当语音连麦的合流设备获取到了第一合流数据之后，将该第一合流数据与连麦用户对应的第二图像画面一块进行编码。可以理解的是，由于第一合流数据中包括主播用户的图像画面信息，因此，当语音连麦的合流设备将第一合流数据与第二图像画面进行编码之后，最终获得的合流数据(即第二合流数据)中除了主播用户的图像画面，还包括连麦用户的图像画面，从而可以使得观众端感知到连麦用户的存在。
63.在此说明的是，本实施例对语音连麦的合流设备对第一合流数据与连麦用户对应的第二图像画面一块进行编码的具体实现方式不做限定。
64.作为一种示例，语音连麦的合流设备可以先对第一合流数据进行编码(也就包括了对第一合流数据中的第一图像画面的编码)，本实施例中，将第一图像画面在经过编码后对应的图像画面称为编码后的主播图像画面；然后再对第二图像画面进行编码，本实施例中，将第二图像画面再经过编码后对应的图像画面称为编码后的连麦用户图像；最后将编码后的连麦用户图像放在编码后的主播图像画面中的某个区域中。
65.作为另一种示例，语音连麦的合流设备可以同时对第一合流数据和第二图像画面进行编码，然后将编码后的第二图像数据放在编码后的第一图像画面中的某个区域中。
66.可以理解的是，在本实施例提供的语音连麦的合流方法中，由于是通过语音连麦的合流设备获取的连麦用户对应的第二图像画面，以及是通过语音连麦的合流设备将第一合流数据和第二图像画面进行编码，最终获得的第二合流数据。因此，不再需要连麦端生成连麦用户的图像画面，因此可以减小连麦端的cpu或gpu消耗，以及可以减少连麦端在传输数据时的上行带宽资源。此外，由于是在语音连麦的合流设备的编码阶段将连麦用户的图像画面与合成器获得的第一合流数据一块进行编码的，那么对于连麦用户的图像画面，也就不需要经过连麦端将该连麦用户的图像画面发送至转发服务器，然后转发服务器再发送至主播端的通信过程，因此最终获得的第二合流数据中的连麦用户的图像画面的清晰度更高。
67.从上述描述可知，本实施例中语音连麦的合流设备获取第一语音流，第一语音流包括连麦端对应的连麦用户的语音信息；语音连麦的合流设备获取第二语音流和第一图像画面，第二语音流包括主播端对应的主播用户的语音信息，第一图像画面包括主播端对应的主播用户的图像画面信息；语音连麦的合流设备对第一语音流、第二语音流以及第一图像画面进行合成处理，得到第一合流数据；语音连麦的合流设备获取第二图像画面，第二图
像画面包括所述连麦用户的图像画面信息；语音连麦的合流设备对第二图像画面和第一合流数据进行编码，得到第二合流数据。本实施例能够在连麦用户通过语音连麦方式与主播连麦的场景下，既能让观众端感知到连麦嘉宾的存在，还能够减少连麦嘉宾端的上行带宽压力大、cpu和gpu消耗大的问题。
68.在本公开的一个实施例中，在上述图2实施例的基础上，在步骤s205之后，还可以包括：语音连麦的合流设备将第二合流数据发送至流媒体服务器。
69.本实施例中，当语音连麦的合流设备获得第二合流数据后，便可以将该第二合流数据发送至流媒体服务器。进一步地，流媒体服务器就可以将该第二合流数据发送至观众端。可以理解的是，当语音连麦的合流设备在获得了第二合流数据后，该第二合流数据中既包括连麦用户的图像画面信息，也包括主播用户的图像画面信息，以及包括连麦用户的语音信息，也包括主播用户的语音信息。因此，当流媒体服务器将该第二合流数据发送至观众端后，观众端可以看到连麦用户的图像画面信息以及主播用户的图像画面信息，从而使得观众端可以感知到连麦用户的存在。
70.作为一个可选的实施例，上述所述的语音连麦的合流设备包含在主播端中。示例性地，图3为本公开实施例提供的语音连麦的合流设备包含在主播端时的语音连麦的合流方法的结构性示意图。如图3所示，连麦端301将连麦用户的语音流推送到转发服务器302中，主播端可以从转发服务器302中拉取连麦用户的语音流，然后通过主播端中的合成器303将主播用户的语音流、主播用户的图像画面以及连麦用户的语音流进行合成，获得合流数据。具体地，可以理解的是，该合流数据中包括合流语音数据(图中未示出)和合流图像数据(即图中的合流图像画面)。在主播端合流完成之后，进入编码阶段。具体地，先通过编码器304获取到连麦用户的图像画面，例如该图像画面包括连麦用户的图像和声波动效，然后将该连麦用户的图像画面与合流数据一块进行编码。可以理解的是，由于该编码器在编码时既包括对连麦用户的图像画面的编码，也包括对合流数据的编码，因此，最终获得的合流数据中会包括主播画面和连麦用户画面(即图中所示的最终的合流图像画面)。此时，观众端就会感知到连麦嘉宾的存在。
71.作为一个可选的实施例，上述所述的语音连麦的合流设备包含在合成服务器。示例性地，图4为本公开实施例提供的语音连麦的合流设备包含在合成服务器时的语音连麦的合流方法的结构性示意图。如图4所示，连麦端401将连麦用户的语音流推送到转发服务器402中，主播端406也将主播用户的语音流和主播用户的图像画面推送到转发服务器402中，然后合成服务器中的合成器403从转发服务器402中分别获取到连麦用户的语音流、主播用户的语音流和主播用户的图像画面并进行合成，获得合流数据。具体地，可以理解的是，该合流数据中包括合流语音数据(图中未示出)和合流视频数据(即图中的合流图像画面)。在合成服务器合流完成之后，进入编码阶段。具体地，先通过编码器404获取到连麦用户的图像画面，例如该图像画面包括连麦用户的图像和声波动效，然后将该连麦用户的图像画面与合流数据一块进行编码。可以理解的是，由于该编码器在编码时既包括对连麦用户的图像画面的编码，也包括对合流数据的编码，因此，最终获得的合流数据中会包括主播画面和连麦用户画面(即图中所示的最终的合流图像画面)。此时，观众端就会感知到连麦嘉宾的存在。所述连麦用户的图像可以是用户上传并设置作为连麦时显示的图像画面，也可以是基于用户预设的原始图像及用户预设的图像模板生成的目标图像作为所述连麦时
display，简称lcd)、扬声器、振动器等的输出设备607；包括例如磁带、硬盘等的存储设备608；以及通信设备609。通信设备609可以允许电子设备600与其他设备进行无线或有线通信以交换数据。虽然图6示出了具有各种设备的电子设备600，但是应理解的是，并不要求实施或具备所有示出的设备。可以替代地实施或具备更多或更少的设备。
86.特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信设备609从网络上被下载和安装，或者从存储设备608被安装，或者从rom602被安装。在该计算机程序被处理设备601执行时，执行本公开实施例的方法中限定的上述功能。
87.需要说明的是，本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、设备或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、设备或者器件使用或者与其结合使用。而在本公开中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、设备或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、rf(射频)等等，或者上述的任意合适的组合。
88.上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。
89.上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备执行上述实施例所示的方法。
90.可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码，上述程序设计语言包括面向对象的程序设计语言—诸如java、smalltalk、c++，还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(local area network，简称lan)或广域网(wide area network，简称wan)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
91.附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代
表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。
92.描述于本公开实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。其中，单元的名称在某种情况下并不构成对该单元本身的限定，例如，第一获取单元还可以被描述为“获取至少两个网际协议地址的单元”。
93.本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：现场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、片上系统(soc)、复杂可编程逻辑设备(cpld)等等。
94.在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、设备或设备使用或与指令执行系统、设备或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、设备或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
95.第一方面，根据本公开的一个或多个实施例，提供了一种语音连麦的合流方法，包括：
96.获取第一语音流，所述第一语音流包括连麦端对应的连麦用户的语音信息；
97.获取第二语音流和第一图像画面，所述第二语音流包括主播端对应的主播用户的语音信息，所述第一图像画面包括所述主播端对应的主播用户的图像画面信息；
98.对所述第一语音流、所述第二语音流以及所述第一图像画面进行合成处理，得到第一合流数据；
99.获取第二图像画面，所述第二图像画面指示所述连麦用户的图像画面信息；
100.对所述第二图像画面和所述第一合流数据进行编码，得到第二合流数据。
101.根据本公开的一个或多个实施例，所述获取第一语音流，包括：
102.备从转发服务器中获取所述第一语音流，所述转发服务器用于转发所述连麦用户的语音信息。
103.根据本公开的一个或多个实施例，所述语音连麦的合流设备包含于所述主播端中。
104.根据本公开的一个或多个实施例，所述语音连麦的合流设备包含于合成服务器中。
105.根据本公开的一个或多个实施例，所述获取第二语音流和第一图像画面，包括：
106.从所述转发服务器中获取所述第二语音流和第一图像画面，所述转发服务器还用于转发所述主播用户的图像画面信息和语音信息。
107.根据本公开的一个或多个实施例，所述第二图像画面包括目标图像和声波动效，所述目标图像用于指示所述连麦用户。
108.根据本公开的一个或多个实施例，在所述获得第二合流数据之后，所述方法还包括：
109.将所述第二合流数据发送至流媒体服务器
110.第二方面，根据本公开的一个或多个实施例，提供了一种语音连麦的合流方法，包括：
111.获取模块，用于获取第一语音流，所述第一语音流包括连麦端对应的连麦用户的语音信息；
112.所述获取模块，还用于获取第二语音流和第一图像画面，所述第二语音流包括主播端对应的主播用户的语音信息，所述第一图像画面包括所述主播端对应的主播用户的图像画面信息；
113.合成模块，用于对所述第一语音流、所述第二语音流以及所述第一图像画面进行合成处理，得到第一合流数据；
114.所述获取模块，还用于获取第二图像画面，所述第二图像画面指示所述连麦用户的图像画面信息；
115.编码模块，用于对所述第二图像画面和所述第一合流数据进行编码，得到第二合流数据。
116.根据本公开的一个或多个实施例，所述获取模块具体用于：
117.从转发服务器中获取所述第一语音流，所述转发服务器用于转发所述连麦用户的语音信息。
118.根据本公开的一个或多个实施例，所述语音连麦的合流设备包含于所述主播端中。
119.根据本公开的一个或多个实施例，所述语音连麦的合流设备包含于所述主播端中。
120.根据本公开的一个或多个实施例，所述获取模块具体用于：
121.从所述转发服务器中获取所述第二语音流和第一图像画面，所述转发服务器还用于转发所述主播用户的图像画面信息和语音信息。
122.根据本公开的一个或多个实施例，所述第二图像画面包括目标图像和声波动效，所述目标图像用于指示所述连麦用户。
123.根据本公开的一个或多个实施例，所述语音连麦的合流设备还包括：
124.发送模块，用于在所述获得第二合流数据之后，将所述第二合流数据发送至流媒体服务器。
125.第三方面，根据本公开的一个或多个实施例，提供了一种电子设备，包括：至少一个处理器和存储器；
126.所述存储器存储计算机执行指令；
127.所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述至少一个
处理器执行如上第一方面以及第一方面各种可能的设计所述的信息显示方法。
128.第四方面，根据本公开的一个或多个实施例，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如上第一方面以及第一方面各种可能的设计所述的语音连麦的合流方法。
129.第五方面，根据本公开的一个或多个实施例，提供了一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上第一方面以及第一方面各种可能的设计所述的语音连麦的合流方法。
130.以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开中所涉及的公开范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述公开构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
131.此外，虽然采用特定次序描绘了各操作，但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地，在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。
132.尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

技术特征：
1.一种语音连麦的合流方法，应用于语音连麦的合流设备，其特征在于，包括：获取第一语音流，所述第一语音流包括连麦端对应的连麦用户的语音信息；获取第二语音流和第一图像画面，所述第二语音流包括主播端对应的主播用户的语音信息，所述第一图像画面包括所述主播端对应的主播用户的图像画面信息；对所述第一语音流、所述第二语音流以及所述第一图像画面进行合成处理，得到第一合流数据；获取第二图像画面，所述第二图像画面指示所述连麦用户的图像画面信息；对所述第二图像画面和所述第一合流数据进行编码，得到第二合流数据。2.根据权利要求1所述的方法，其特征在于，所述获取第一语音流，包括：从转发服务器中获取所述第一语音流，所述转发服务器用于转发所述连麦用户的语音信息。3.根据权利要求2所述的方法，其特征在于，所述语音连麦的合流设备包含于所述主播端中。4.根据权利要求2所述的方法，其特征在于，所述语音连麦的合流设备包含于合成服务器中。5.根据权利要求4所述的方法，其特征在于，所述获取第二语音流和第一图像画面，包括：从所述转发服务器中获取所述第二语音流和第一图像画面，所述转发服务器还用于转发所述主播用户的图像画面信息和语音信息。6.根据权利要求1至5中任一项所述的方法，其特征在于，所述第二图像画面包括目标图像和声波动效，所述目标图像用于指示所述连麦用户。7.根据权利要求6所述的方法，其特征在于，在所述获得第二合流数据之后，所述方法还包括：将所述第二合流数据发送至流媒体服务器。8.一种语音连麦的合流设备，其特征在于，所述设备包括：获取模块，用于获取第一语音流，所述第一语音流包括连麦端对应的连麦用户的语音信息；所述获取模块，还用于获取第二语音流和第一图像画面，所述第二语音流包括主播端对应的主播用户的语音信息，所述第一图像画面包括所述主播端对应的主播用户的图像画面信息；合成模块，用于对所述第一语音流、所述第二语音流以及所述第一图像画面进行合成处理，得到第一合流数据；所述获取模块，还用于获取第二图像画面，所述第二图像画面指示所述连麦用户的图像画面信息；编码模块，用于对所述第二图像画面和所述第一合流数据进行编码，得到第二合流数据。9.一种电子设备，其特征在于，处理器和存储器；所述存储器存储计算机执行指令；所述处理器执行所述存储器存储的计算机执行指令，使得所述处理器执行如权利要求
1至7中任一项所述的方法。10.一种计算机可读存储介质，其特征在于，所述计算机可读介质存储用于计算机执行的程序代码，该程序代码包括用于执行如权利要求1至7中任一项所述的方法的指令。11.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的方法。

技术总结
本申请提供一种语音连麦的合流方法及设备。该方法中，语音连麦的合流设备获取第一语音流，所述第一语音流包括连麦端对应的连麦用户的语音信息；获取第二语音流和第一图像画面，所述第二语音流包括主播端对应的主播用户的语音信息，第一图像画面包括主播端对应的主播用户的图像画面信息；网络设备对第一语音流、第二语音流以及所述第一图像画面进行合成处理得到第一合流数据；网络设备获取第二图像画面，第二图像画面指示连麦用户的图像画面信息；网络设备对第二图像画面和第一合流数据进行编码，得到第二合流数据。该方法在能够让观众端感知到连麦用户存在的情况下，还能够减少连麦端的上行带宽压力大、CPU或GPU消耗大的问题。题。题。

技术研发人员：吕鹏
受保护的技术使用者：北京字跳网络技术有限公司
技术研发日：2022.03.03
技术公布日：2023/9/13

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

上一篇：一种涂层涂装智能控制装置和方法与流程 下一篇：跨应用的账号互通处理方法、装置、设备及存储介质与流程

语音连麦的合流方法及设备与流程

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

语音连麦的合流方法及设备与流程

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表