回声消除方法、装置、计算机存储介质及电子设备与流程

未命名 08-26 阅读：101 评论：0

1.本技术涉及数据处理技术领域，特别涉及一种回声消除方法、回声消除装置、计算机可读存储介质及电子设备。

背景技术：

2.回声消除可以减少音视频通话、音视频会议过程中的通话回声、杂音和啸音，提升声音的清晰度，保证通话/会议的业务质量，多端协同允许电视、摄像机等终端通过能力互助提供视频通话或视频会议。
3.目前通常采用传统回声消除技术对音视频通话、音视频会议中的回声、杂音和啸音进行消除，但是由于存在网络抖动导致回声预测信号失真，同时由于存在网络延迟导致回声信号误差，回声预测信号失真和回声信号误差会引起回声消除失败，使得传统回声消除技术无法直接应用与多端协同视频通话或视频会议。
4.需要说明的是，上述背景技术部分公开的信息仅用于加强对本技术的背景的理解。

技术实现要素：

5.本技术的目的在于提供一种回声消除方法、回声消除装置、计算机可读存储介质及电子设备，进而至少在一定程度上提高了回声消除效果，保证通话质量。
6.本技术的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本技术的实践而习得。
7.根据本技术的第一方面，提供一种回声消除方法，应用于回声消除系统中的第一终端，包括：获取空间声音传输时延，所述空间声音传输时延是通过时间对齐的所述第一终端和第二终端确定的；接收对端音频信号，对所述对端音频信号进行解码和播放，在播放过程中对所述对端音频信号添加播放时间戳和音频帧确认戳，并根据所述播放时间戳和所述音频帧确认戳确定回声预测信号；获取采集音频信号和与所述采集音频信号对应的采集时间戳，所述采集音频信号为所述第二终端对本端用户的音频信号和与所述对端音频信号对应的回声信号进行采集得到的；根据所述空间声音传输时延、所述播放时间戳和所述采集时间戳对所述回声预测信号和所述采集音频信号进行对齐，并根据对齐后的所述回声预测信号对所述采集音频信号进行回声消除，以获取目标音频信号。
8.根据本技术的第二方面，提供一种回声消除装置，配置于回声消除系统中的第一终端，包括：获取模块，用于获取空间声音传输时延，所述空间声音传输时延是通过所述第一终端和第二终端确定的；预测模块，用于接收对端音频信号，对所述对端音频信号进行解码和播放，在播放过程中对所述对端音频信号添加播放时间戳和音频帧确认戳，并根据所述播放时间戳和所述音频帧确认戳确定回声预测信号；所述获取模块，还用于获取采集音频信号和与所述采集音频信号对应的采集时间戳，所述采集音频信号为所述第二终端对本端用户的音频信号和与所述对端音频信号对应的回声信号进行采集得到的；消除模块，用
于根据所述空间声音传输时延、所述播放时间戳和所述采集时间戳对所述回声预测信号和所述采集音频信号进行对齐，并根据对齐后的所述回声预测信号对所述采集音频信号进行回声消除，以获取目标音频信号。
9.根据本技术的第三方面，提供一种回声消除系统，包括：第一终端，用于获取空间声音传输时延和对端音频信号，解码并播放所述对端音频信号，在播放过程中对所述对端音频信号添加播放时间戳和音频帧确认戳，并根据所述播放时间戳和所述音频帧确认戳确定回声预测信号；在获取采集音频信号和与所述采集音频信号对应的采集时间戳后，根据所述空间声音传输时延、所述播放时间戳和所述采集时间戳对所述回声预测信号和所述采集音频信号进行对齐，并根据对齐后的所述回声预测信号对所述采集音频信号进行回声消除，以获取目标音频信号；第二终端，与所述第一终端连接，用于协同所述第一终端确定所述空间声音传输时延，采集本端用户的音频信号和与所述对端音频信号对应的回声信号生成所述采集音频信号，并确定与所述采集音频信号对应的采集时间戳。
10.根据本技术的第三方面，提供一种计算机存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现上述的回声消除方法。
11.根据本技术的第四方面，提供一种电子设备，包括：处理器；以及存储器，用于存储所述处理器的可执行指令；其中，所述处理器配置为经由执行所述可执行指令来执行上述的回声消除方法。
12.由上述技术方案可知，本技术示例性实施例中的回声消除方法、回声消除装置、计算机可读存储介质及电子设备至少具备以下优点和积极效果：
13.本技术实施例中的回声消除方法，应用于回声消除系统中的第一终端，第一终端首先获取空间声音传输时延，接着在获取对端音频信号后，解码对端音频信号进行播放，在播放过程中对对端音频信号添加播放时间戳和音频帧确认戳，并根据播放时间戳和音频帧确认戳确定回声预测信号，然后获取第二终端发送的采集音频信号和对应的采集时间戳，最后根据空间声音传输时延、播放时间戳和采集时间戳对回声预测信号和采集音频信号进行对齐，并根据对齐后的回声预测信号对采集音频信号进行回声消除，以获取目标音频信号。本技术的回声消除方法能够通过时间对齐使回声预测信号更准确地与采集音频信号匹配，实现更精准的回声消除，减少杂音和回声，从而提升通话质量。
14.本技术应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本技术。
附图说明
15.此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本技术的实施例，并与说明书一起用于解释本技术的原理。显而易见地，下面描述中的附图仅仅是本技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
16.图1示意性示出了相关技术中传统回声消除方法的流程示意图。
17.图2示意性示出了本技术实施例中应用回声消除方法的系统架构图。
18.图3示意性示出了本技术实施例中回声消除系统的架构示意图。
19.图4示意性示出了本技术实施例中回声消除方法的流程示意图。
20.图5示意性示出了本技术实施例中多端协同音频通话的流程示意图。
21.图6示意性示出了本技术实施例中回声消除装置的结构示意图。
22.图7示意性示出了适于用来实现本技术实施例的电子设备的计算机系统结构框图。
具体实施方式
23.现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本技术将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。
24.此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本技术的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本技术的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本技术的各方面。
25.本说明书中使用用语“一个”、“一”、“该”和“所述”用以表示存在一个或多个要素/组成部分/等；用语“包括”和“具有”用以表示开放式的包括在内的意思并且是指除了列出的要素/组成部分/等之外还可存在另外的要素/组成部分/等；用语“第一”和“第二”等仅作为标记使用，不是对其对象的数量限制。
26.附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
27.附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。
28.在本领域的相关技术中，对于多端协同允许电视、摄像机等终端通过能力互助提供音视频通话或音视频会议等场景而言，在通话过程中通常存在回声、杂音和啸音等影响通话质量，对于存在的异常音频信号，通常采用传统的回声消除方法进行回声消除，图1示意性示出了传统回声消除方法的流程示意图，如图1所示，在步骤s101中，第一终端接收对端通话终端发送的对端音频信号；在步骤s102中，解码对端音频信号，并播放；在步骤s103中，根据对端音频信号确定回声预测信号；在步骤s104中，第二终端采集当前用户的语音信号和回声信号，生成采集音频信号；在步骤s105中，将采集音频信号发送至第一终端；在步骤s106中，第一终端根据回声预测信号对采集音频信号进行回声消除，得到目标音频信号；在步骤s107中，对目标音频信号进行编码、打包，并发送至对端通话终端。
29.但是，传统的回声消除方法存在相应地问题，具体有两方面：第一，多端协同之间网络抖动导致回声信号失真：造成播放声音与输入到声学回声消除器的声音数据不一致，导致回声预测信号失真，难以满足麦克风输入信号中回声的消除；第二，多端协同之间网络传输延迟导致回声信号误差：传输延迟导致声音播放到麦克风捕获存在不确定时延，原有回声消除模型难以进行时间对齐，回声预测信号未能与收音信号对齐，造成回声消除失败。
30.针对相关技术中存在的技术问题，本技术实施例中提出了一种回声消除方法，以
准确消除收音信号中的回声、杂音和啸音等，提高终端之间的通话质量。在对本技术实施例中的技术方案进行详细说明之前，首先对本技术实施例中可能涉及到的技术名词进行解释和说明。
31.(1)回声：声波在传播过程中，碰到大的反射面(如建筑物的墙壁、大山里面等)在界面将发生反射，人们把能够与原声区分开的反射声波叫做回声。
32.(2)多端协同：指两个或三个以上设备发生联系并相互协作完成任务的方式。
33.在介绍完本技术实施例中可能涉及到的技术名词后，对本技术中的回声消除方法进行详细说明。
34.图2示意性示出了应用本技术技术方案的硬件系统的系统架构框图。
35.如图2所示，系统架构200可以包括当前通话终端201、对端通话终端202和通信网络203。其中，当前通话终端201和/或对端通话终端202可以是多端协同通话终端，多端协同通话终端根据通话场景的不同而不同，当通话场景为视频通话时，多端协同通话终端可以包括智能电视、具有语音采集功能的智能摄像头，或者可以包括用于显示视频画面的显示器(例如：电视等)、机顶盒、具有语音采集功能的智能摄像头，当然还可以包括其它的终端；当通话场景为语音通话时，多端协同通话终端可以包括具有语音采集功能的麦克风等、具有数据处理能力实现回声消除的处理器和具有语音播放功能的扬声器(例如：音箱等)，还可以是智能电视和具有语音采集功能的麦克风，等等；进一步地，若当前通话终端201或者对端通话终端202为多端协助通话终端时，另一个通话终端可以是包括智能手机、平板电脑、台式电脑、智能车载终端等电子设备；通信网络203用于在当前通话终端201和对端通话终端202之间提供数据传输通路。
36.在本技术的一个实施例中，设定当前通话终端201为多端协同通话终端，当前通话终端201中的电视+机顶盒或者智能电视为第一终端，具有语音采集功能的智能摄像头为第二终端。首先对第一终端和第二终端进行初始化，通过对第一终端和第二终端进行时间对齐以获取空间声音传输时延，接着第一终端接收对端通话终端202发送的对端音频信号，对其进行解析并播放，在播放过程中以预设时间间隔添加一播放时间戳，并判断对端音频信号是否缺失，根据判断结果添加音频帧确认戳，然后将播放时间戳和音频帧确认戳输入至回声预测模型以获取回声预测信号，接着通过第二终端采用使用当前通话终端的用户的音频信号以及第一终端播放对端音频信号产生的回声，生成采集音频信号，并根据上述的预设时间间隔添加采集时间戳，最后第一终端接收到采集音频信号和采集时间戳后，根据空间声音传输时延、播放时间戳和采集时间戳对回声预测信号和采集音频信号进行对齐，并根据对齐后的回声预测信号对采集音频信号进行回声消除，以获取目标音频信号，该目标音频信号即为去除回声后的用户音频信号，编码后通过通信网络203将其发送至对端通话终端202即可。
37.本技术实施例提供的技术方案可以应用于本端通话终端201或者对端通话终端202。
38.本技术中的回声消除方法可以应用于任意涉及多端协同通话的场景，例如多端协同音视频通话、多端协同音视频会议等场景。下面以多端协同视频通话场景为例，结合具体实施方式对本技术提供的回声消除方法进行详细说明。
39.在对回声消除方法进行说明之前，首先对本技术中的回声消除系统进行说明。值
得说明的是，本技术的回声消除系统只针对多端协同通话终端而言。
40.图3示意性示出了回声消除系统的架构示意图，如图3所示，回声消除系统300包括第一终端301和第二终端302，第一终端301和第二终端302通过无线网络或者有线网络连接，第一终端301用于进行对端音频信号进行播放和回声消除，第二终端302用于对用户的音频信号和第一终端301播放对端音频信号时产生的回声进行采集。
41.进一步地，第一终端301包括软时钟同步模块301-1、音频解码模块301-2、播放模块301-3、网络模块301-4、完整性校验模块301-5、回声信号预测模块301-6、音频对齐模块301-7和回声消除模块301-8，第二终端302包括软时钟同步模块302-1、收音模块302-2、音频编码模块302-3和网络模块302-4。具体地：软时钟同步模块302-1，用于终端协同时多终端的软时钟同步，以保证终端的时间保持一致；音频解码模块301-2，用于解码从对端通话终端传输来的音频流，交给播放模块301-3播放；播放模块301-3，用于播放从对端通话终端传输来的音频流，并对播放的内容打上播放时间戳，播放时间戳是在播放过程中间隔预设时间间隔标记的；通信网络模块301-4，用于接收从对端通话终端传输来的音频流，并将回声消除后的目标音频信号发送到对端通话终端，以及接收第二终端302录制的音频流；完整性校验模块301-5，用于检测从对端通话终端传输来的音频流的完整性，检测是否存在丢包或错误；回声信号预测模块301-6，用于根据对端通话终端传输来的音频流和其完整性，根据回声信号生成算法生成回声预测信号；音频对齐模块301-7，用于计算初始化时的空间声音传输时延，并根据空间声音传输时延和采集时间戳、播放时间戳对回声预测信号和第二终端302采集的音频信号进行时间对齐；回声消除模块301-8，用于在时间对齐后，从采集音频信号中，通过去除回声预测信号将回声消除，输出理想的目标音频信号。软时钟同步模块302-1的功能与软时钟同步模块301-1的功能相同；收音模块302-2，用于接收用户语音输入，但同时会收集到环境回声；音频编码模块302-3，用于将用户语音输入封装为音频流，并打上采集时间戳，采集时间戳和播放时间戳一样，也是以相同预设时间间隔设置的；网络模块302-4，用于将用户的音频流发送到第一终端301进行处理。
42.图4示出了回声消除方法的流程图，该方法应用于第一终端，该第一终端可以是图3中的第一终端301，如图4所示，回声消除方法包括：
43.步骤s410：获取空间声音传输时延，所述空间声音传输时延是通过时间对齐的所述第一终端和第二终端确定的；
44.步骤s420：接收对端音频信号，对所述对端音频信号进行解码和播放，在播放过程中对所述对端音频信号添加播放时间戳和音频帧确认戳，并根据所述播放时间戳和所述音频帧确认戳确定回声预测信号；
45.步骤s430：获取采集音频信号和与所述采集音频信号对应的采集时间戳，所述采集音频信号为所述第二终端对本端用户的音频信号和与所述对端音频信号对应的回声信号进行采集得到的；
46.步骤s440：根据所述空间声音传输时延、所述播放时间戳和所述采集时间戳对所述回声预测信号和所述采集音频信号进行对齐，并根据对齐后的所述回声预测信号对所述采集音频信号进行回声消除，以获取目标音频信号。
47.本技术的回声消除方法，应用于回声消除系统中的第一终端，第一终端首先获取空间声音传输时延，接着在获取对端音频信号后，解码对端音频信号进行播放，在播放过程
中对对端音频信号添加播放时间戳和音频帧确认戳，并根据播放时间戳和音频帧确认戳确定回声预测信号，然后获取第二终端发送的采集音频信号和对应的采集时间戳，最后根据空间声音传输时延、播放时间戳和采集时间戳对回声预测信号和采集音频信号进行对齐，并根据对齐后的回声预测信号对采集音频信号进行回声消除，以获取目标音频信号。本技术的回声消除方法能够通过时间对齐使回声预测信号更准确地与采集音频信号匹配，实现更精准的回声消除，减少杂音和回声，从而提升通话质量。
48.接下来，基于图3示出的回声消除系统的架构，对图4所示的回声消除方法的各个步骤进行详细说明。
49.在步骤s410中，获取空间声音传输时延，所述空间声音传输时延是通过时间对齐的所述第一终端和第二终端确定的。
50.在本技术的示例性实施例中，第一终端接收到对端音频信号后，对其进行解析和播放，播放后的对端音频信息在空气中会传播，当遇到障碍物时还会产生回声，如果当前用户通过第二终端进行语音输入时，第二终端除了会采集到用户的音频信号，还会采集到的对端音频信号对应的回声信号，如果直接将包含回声信号的音频信号发送至对端通话终端的话，会导致视频通话质量下降，对端用户无法清晰获取当前用户的语音内容，因此需要对第二终端采集的音频信号中的回声信号进行消除，以提高发送至对端通话终端的音频信号的质量。在进行回声消除时，由于产生回声信号的时间和第二终端采集音频信号的时间并不是同步的，二者之间存在时延，因此有必要对回声信号从产生到被第二终端采集到的时延进行计算，然后基于该时延将回声信号和采集音频信号进行对齐，这样才能保证从采集音频信号中将回声信号精准的去除掉。
51.在本技术的示例性实施例中，可以通过第一终端和第二终端共同确定得到该时延，该时延由于是音频信号在空气中传播导致的时延，因此又称为空间声音传输时延。在确定空间声音传输时延时，首先可以通过第一终端和第二终端中的软时钟同步模块对第一终端和第二终端进行软时钟同步，例如可以采用1588v2(ieee p1588 dm2.2)技术进行软时钟同步，以使第一终端和第二终端的时间对齐，然后由第一终端在时间t1播放特定声音，例如“嘟”声，由第二终端采集该特定声音，打上时间戳t2，那么根据t1和t2即可得到空间声音传输时延为t’＝t2-t1。
52.在步骤s420中，接收对端音频信号，对所述对端音频信号进行解码和播放，在播放过程中对所述对端音频信号添加播放时间戳和音频帧确认戳，并根据所述播放时间戳和所述音频帧确认戳确定回声预测信号。
53.在本技术的示例性实施例中，视频通话过程中，第一终端、第二终端和对端通话终端之间通过收发音频信号保证当前用户和对端用户进行语音通话。对于本端通话终端(第一终端+第二终端)而言，第一终端在接收到对端音频信号后，能够对其进行解码并播放，为了实现回声预测信号与第二终端采集的音频信号的时间对齐，可以在播放过程中对播放的对端音频信号添加播放时间戳，在本技术的实施例中，可以以预设时间间隔对对端音频信号添加播放时间戳，该预设时间间隔可以是1s～10s之间的任意值，具体数值可以根据实际需要进行设置，如果想要提高回声消除的效果，可以将预设时间间隔设置为1s、2s等较小的值，如果想要提高回声消除的效率，可以将预设时间间隔设置为9s、10s等较大的值，当然还可以将预设时间间隔设置为其它值，本技术实施例对此不作具体限定。
54.根据预设时间间隔添加播放时间戳，相当于根据预设时间间隔将对端音频信号分为了多个音频分段，每个音频分段对应一个播放时间戳。
55.在本技术的示例性实施例中，在添加播放时间戳的同时，还需要通过完整性校验模块对对端音频信号的完整性进行校验，由于根据预设时间间隔添加播放时间戳，那么相对应地可以对每个音频分段进行完整性校验，判断音频分段中是否存在丢包或错误，当音频分段不完整，存在丢包或错误时，对该音频分段添加第一音频帧确认戳，当音频分段完整，不存在丢包或错误时，对该音频分段添加第二音频帧确认戳，第二音频帧确认戳不同于第一音频帧确认戳。该第一音频帧确认戳和第二音频帧确认戳实质是一个标识符，用于标记音频是否完整，例如可以将1作为第一音频帧确认戳，0作为第二音频帧确认戳，当然还可以是其它的标识符，本技术实施例对此不作具体限定。
56.在本技术的示例性实施例中，在对每个音频分段进行完整性校验时，当音频分段不完整，存在丢包或错误时，可以对该音频分段添加第一音频帧确认戳，当音频分段完整，不存在丢包或错误时，则不对该音频分段添加音频帧确认戳。
57.在本技术的示例性实施例中，在播放对端音频信号时，第一终端还可以将已播放的音频片段和对应的音频帧确认戳输入至回声预测模型，通过回声预测模型对音频片段进行处理，以输出回声预测信号。当然第一终端还可以在对整个音频信号添加完播放时间戳和音频帧确认戳之后，将对端音频信号和音频帧确认戳输入至回声预测模型进行处理，得到回声预测信号。该回声预测模型可以采用自适应滤波算法对音频片段进行处理，进一步地，自适应滤波算法可以是lms自适应滤波算法、rls自适应滤波算法，等等，本技术实施例对此不作具体限定。
58.进一步地，当音频片段不存在音频帧确认戳时，可以只将音频片段或者对端音频信号输入至回声预测模型，通过回声预测模型基于自适应滤波算法对音频片段进行处理，得到对应的回声预测信号。
59.在步骤s430中，获取采集音频信号和与所述采集音频信号对应的采集时间戳，所述采集音频信号为所述第二终端对本端用户的音频信号和与所述对端音频信号对应的回声信号进行采集得到的。
60.在本技术的示例性实施例中，在第一终端播放完对端音频信号后，可以通过第二终端中的收音模块采集当前用户的语音音频信号，在第二终端采集本端用户的音频信号的同时，还可能采集到对端音频信号经障碍物反射回来的回声信号，也就是说，第二终端采集得到的采集音频信号包含用户的音频信号和对端音频信号对应的回声信号。
61.在本技术的示例性实施例中，第二终端中的收音模块采集用户音频信号和回声信号之后，可以通过音频编码模块对采集音频信号进行封装形成音频流，并对音频流以预设时间间隔添加采集时间戳，该预设时间间隔和添加播放时间戳时采用的预设时间间隔相同，这样在采集音频信号与回声预测信号时间对齐后，能够将各个音频片段完美匹配，实现精准的回声消除。
62.在本技术的示例性实施例中，第二终端完成对采集音频信号的编码和采集时间戳的添加后，可以将包含采集音频信号的音频流和采集时间戳发送至第一终端，以便第一终端对其中的采集音频信号进行回声消除，得到不包含回声的用户音频信号。
63.在步骤s440中，根据所述空间声音传输时延、所述播放时间戳和所述采集时间戳
对所述回声预测信号和所述采集音频信号进行对齐，并根据对齐后的所述回声预测信号对所述采集音频信号进行回声消除，以获取目标音频信号。
64.在本技术的示例性实施例中，第一终端获取包含采集音频信号的音频流和采集时间戳后，可以对音频流解码得到采集音频信号，然后根据空间声音传输时延、播放时间戳和采集时间戳对回声预测信号和采集音频信号进行时间对齐，然后根据对齐后的回声预测信号对采集音频信号进行回声消除，以获取目标音频信号。
65.其中，在对回声预测信号和采集音频信号进行时间对齐时，由于回声预测信号是根据第一终端播放的对端音频信号预测得到的，因此回声预测信号与播放时间戳对应，而音频信号的播放时间和回声信号的采集时间之间相差空间声音传输时延，也就是说，同一音频片段对应的播放时间戳t1+t’＝采集时间戳t2，因此想要将回声预测信号与采集音频信号时间对齐，可以根据空间声音传输时延对回声预测信号的播放时间戳进行更新，然后根据更新后的播放时间戳对回声预测信号进行更新，获取与采集音频信号时间对齐的待去除回声预测信号。
66.由于存在多个播放时间戳和多个采集时间戳，因此可以根据播放时间戳、空间声音传输时延和采集时间戳确定目标回声预测信号和与其对应的目标采集音频信号，值得说明的是，目标回声预测信号和目标采集音频信号并不是严格依次匹配的，例如当目标回声预测信号为对端音频信号中对应第一个播放时间戳的音频片段对应的回声预测信号时，该目标采集音频信号并不一定是采集音频信号中对应第一个采集时间戳的音频片段，有可能是第二个采集时间戳对应的音频片段，等等，这取决于回声信号到达第二终端的时间。另外，由于设置播放时间戳和采集时间戳的预设时间间隔相同，因此目标回声预测信号和目标采集音频信号的长度相同，可以完美匹配。在确定目标回声预测信号和目标采集音频信号后，可以根据空间声音传输时延对目标回声预测信号的播放时间戳进行更新，并根据更新后的播放时间戳对目标回声预测信号进行更新，以获取待去除回声预测信号，实质上也就是对目标回声预测信号的相位进行更新，例如将目标回声预测信号的波形根据空间声音传输时延在时间上后移，得到后移后的回声预测信号，即为与目标采集音频信号时间对齐的待去除回声预测信号。
67.在本技术的示例性实施例中，在获取待去除回声预测信号后，从目标采集音频信号中去除待去除回声预测信号，即可获取去除回声信号的目标音频信号。在完成所有音频片段的回声消除后，将所有的目标音频信号按序连接并编码，即可得到最终的可发送至对端通话终端的音频信号，该音频信号即为当前用户输入至第二终端的音频信号。
68.值得说明的是，由于回声预测信号和实际的回声信号是存在些许差异的，因此本技术实施例中的回声消除方法只是最大程度消除采集音频信号中的回声信号，而不是完成消除，但是最终获得的目标音频信号中包含的回声信号很少，基本无法被人耳识别，所以在对端用户听来也是只有本端用户的语音，而不存在回声、杂音或啸音。
69.本技术中的回声消除方法可以应用于任意涉及到使用多端协同通话，需要进行回声消除的场景中，例如多端协同音视频通话等场景。以多端协同音频通话为例，本端用户使用智能音箱和麦克风与对端用户进行通话，对端用户可以使用任意的通话终端，例如智能手机、笔记本电脑、多端协同通话终端等等。
70.本端用户在与对端用户进行通话的过程中，本端用户使用的多端协同通话终端可
以播放对端用户的音频信号，对本端终端采集的音频信号进行回声消除，并将消除回声后的音频信号发送至对端用户，提高了多端协同音频通话的质量。
71.图5示意性示出了多端协同音频通话的流程示意图，如图5所示，在步骤s501中，智能音箱和麦克风通过无线网络连接后，进行软时钟对齐；在步骤s502中，智能音箱根据其发出特定音频信号的时间戳和麦克风采集特定音频信号的时间戳确定空间声音传输时延；在步骤s503中，智能音箱接收对端通话终端发送的音频信号；在步骤s504中，解码并播放该音频信号，在播放过程中以预设时间间隔添加播放时间戳；在步骤s505中，判断音频信号是否完整；在步骤s506中，当音频信号不完整时，添加第一音频帧确认戳；当音频信号完整时，不添加音频帧确认戳；在步骤s507中，将音频信号和第一音频帧确认戳输入至回声预测模型，基于自适应滤波算法计算回声预测信号；在步骤s508中，麦克风采集用户语音和环境中的回声，形成采集音频信号；在步骤s509中，对采集音频信号进行编码，根据预设时间间隔添加采集时间戳；在步骤s510中，将采集音频信号和采集时间戳发送至智能音箱；在步骤s511中，根据播放时间戳、采集时间戳和空间声音传输延时对回声预测信号和采集音频信号进行时间对齐；在步骤s512中，从采集音频信号中去除对齐后的回声预测信号，得到目标音频信号；在步骤s513中，对目标音频信号进行编码，并将编码后的目标音频信号发送至对端通话终端。
72.本技术实施例中的回声消除方法，应用于回声消除系统中的第一终端，第一终端首先获取空间声音传输时延，接着在获取对端音频信号后，解码对端音频信号进行播放，在播放过程中对对端音频信号添加播放时间戳和音频帧确认戳，并根据播放时间戳和音频帧确认戳确定回声预测信号，然后获取第二终端发送的采集音频信号和对应的采集时间戳，最后根据空间声音传输时延、播放时间戳和采集时间戳对回声预测信号和采集音频信号进行对齐，并根据对齐后的回声预测信号对采集音频信号进行回声消除，以获取目标音频信号。本技术的回声消除方法在多端协同进行音视频通话或音视频会议时，各协同终端进行时间同步与空间回声测定，声音播放终端与声音采集终端在播放与采集声音时同步生成确认戳和时间戳，用于回声预测信号的生成和时间对齐；采用该方法生成的回声预测信号可以更好满足多端协同下的回声消除，降低因网络抖动、不确定时延导致的回声消除失效，实现了更精准的回声消除，进而提升了通话质量。
73.本技术还提供了一种回声消除装置，图6示出了回声消除装置的结构示意图，该回声消除装置600配置于回声消除系统中的第一终端，如图6所示，回声消除装置600可以包括获取模块601、预测模块602和消除模块603，具体地：
74.获取模块601，用于获取空间声音传输时延，所述空间声音传输时延是通过所述第一终端和第二终端确定的；
75.预测模块602，用于接收对端音频信号，对所述对端音频信号进行解码和播放，在播放过程中对所述对端音频信号添加播放时间戳和音频帧确认戳，并根据所述播放时间戳和所述音频帧确认戳确定回声预测信号；
76.所述获取模块601，还用于获取采集音频信号和与所述采集音频信号对应的采集时间戳，所述采集音频信号为所述第二终端对本端用户的音频信号和与所述对端音频信号对应的回声信号进行采集得到的；
77.消除模块603，用于根据所述空间声音传输时延、所述播放时间戳和所述采集时间
戳对所述回声预测信号和所述采集音频信号进行对齐，并根据对齐后的所述回声预测信号对所述采集音频信号进行回声消除，以获取目标音频信号。
78.在本技术的示例性实施例中，所述获取模块601配置为：获取所述第二终端录制预设音频信号时生成的录制时间戳；根据播放所述预设音频信号时生成的播放时间戳和所述录制时间戳确定所述空间声音传输时延。
79.在本技术的示例性实施例中，所述预测模块602配置为：在播放过程中，根据预设时间间隔对所述对端音频信号进行分段，并根据分段后各音频片段对应的播放时间确定与各所述音频片段对应的播放时间戳；对所述音频片段进行完整性校验；当所述音频片段不完整时，对所述音频片段添加第一音频帧确认戳；当所述音频片段完整时，对所述音频片段不添加音频帧确认戳或者添加不同于所述第一音频帧确认戳的第二音频帧确认戳。
80.在本技术的示例性实施例中，所述预测模块602配置为：将所述播放时间戳和所述音频帧确认戳输入至回声预测模型中，通过所述回声预测模型基于自适应滤波算法对所述对端音频信号进行处理，以获取所述回声预测信号。
81.在本技术的示例性实施例中，所述播放时间戳和所述采集时间戳的数量为多个，且相邻两所述播放时间戳之间的时间长度和相邻两所述采集时间戳之间的距离相同；所述消除模块603配置为：根据所述播放时间戳、所述空间声音传输时延和所述采集时间戳确定目标回声预测信号和与所述目标回声预测信号对应的目标采集音频信号；根据所述空间声音传输时延对所述目标回声预测信号的播放时间戳进行更新，并根据更新后的播放时间戳对所述目标回声预测信号进行更新，以获取与所述目标采集音频信号时间对齐的待去除回声预测信号；从所述目标采集音频信号中去除所述待去除回声预测信号，以获取所述目标音频信号。
82.应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本技术的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
83.此外，尽管在附图中以特定顺序描述了本技术中方法的各个步骤，但是，这并非要求或者暗示必须按照该特定顺序来执行这些步骤，或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的，可以省略某些步骤，将多个步骤合并为一个步骤执行，以及/或者将一个步骤分解为多个步骤执行等。
84.通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件结合必要的硬件的方式来实现。因此，根据本技术实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是cd-rom，u盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根据本技术实施方式的方法。
85.图7示意性地示出了用于实现本技术实施例的电子设备的计算机系统结构框图，该电子设备可以是设置于终端设备101或者服务器102中。
86.需要说明的是，图7示出的电子设备的计算机系统700仅是一个示例，不应对本技术实施例的功能和使用范围带来任何限制。
87.如图7所示，计算机系统700包括中央处理器701(central processing unit，
cpu)，其可以根据存储在只读存储器702(read-only memory，rom)中的程序或者从存储部分708加载到随机访问存储器703(random access memory，ram)中的程序而执行各种适当的动作和处理。在随机访问存储器703中，还存储有系统操作所需的各种程序和数据。中央处理器701、在只读存储器702以及随机访问存储器703通过总线704彼此相连。输入/输出接口705(input/output接口，即i/o接口)也连接至总线704。
88.在一些实施例中，以下部件连接至输入/输出接口705：包括键盘、鼠标等的输入部分706；包括诸如阴极射线管(cathode ray tube，crt)、液晶显示器(liquid crystal display，lcd)等以及扬声器等的输出部分707；包括硬盘等的存储部分708；以及包括诸如局域网卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至输入/输出接口705。可拆卸介质711，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器710上，以便于从其上读出的计算机程序根据需要被安装入存储部分708。
89.特别地，根据本技术的实施例，各个方法流程图中所描述的过程可以被实现为计算机软件程序。例如，本技术的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分709从网络上被下载和安装，和/或从可拆卸介质711被安装。在该计算机程序被中央处理器701执行时，执行本技术的系统中限定的各种功能。
90.需要说明的是，本技术实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读介质或者是上述两者的任意组合。计算机可读介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(erasable programmable read only memory，eprom)、闪存、光纤、便携式紧凑磁盘只读存储器(compact disc read-only memory，cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本技术中，计算机可读介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本技术中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、有线等等，或者上述的任意合适的组合。
91.附图中的流程图和框图，图示了按照本技术各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要
注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。
92.应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本技术的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
93.通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件结合必要的硬件的方式来实现。因此，根据本技术实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是cd-rom，u盘，移动硬盘等)中或网络上，包括若干指令以使得一台电子设备执行根据本技术实施方式的方法。
94.应当理解的是，本技术并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本技术的范围仅由所附的权利要求来限制。

技术特征：
1.一种回声消除方法，应用于回声消除系统中的第一终端，其特征在于，包括：获取空间声音传输时延，所述空间声音传输时延是通过时间对齐的所述第一终端和第二终端确定的；接收对端音频信号，对所述对端音频信号进行解码和播放，在播放过程中对所述对端音频信号添加播放时间戳和音频帧确认戳，并根据所述播放时间戳和所述音频帧确认戳确定回声预测信号；获取采集音频信号和与所述采集音频信号对应的采集时间戳，所述采集音频信号为所述第二终端对本端用户的音频信号和与所述对端音频信号对应的回声信号进行采集得到的；根据所述空间声音传输时延、所述播放时间戳和所述采集时间戳对所述回声预测信号和所述采集音频信号进行对齐，并根据对齐后的所述回声预测信号对所述采集音频信号进行回声消除，以获取目标音频信号。2.根据权利要求1所述的方法，其特征在于，在获取空间声音传输时延之前，所述方法还包括：对所述第一终端和所述第二终端进行软时钟同步，以使所述第一终端和所述第二终端的时间对齐。3.根据权利要求1或2所述的方法，其特征在于，所述获取空间声音传输时延，包括：获取所述第二终端录制预设音频信号时生成的录制时间戳；根据播放所述预设音频信号时生成的播放时间戳和所述录制时间戳确定所述空间声音传输时延。4.根据权利要求1所述的方法，其特征在于，所述在播放过程中对所述对端音频信号添加播放时间戳和音频帧确认戳，包括：在播放过程中，根据预设时间间隔对所述对端音频信号进行分段，并根据分段后各音频片段对应的播放时间确定与各所述音频片段对应的播放时间戳；对所述音频片段进行完整性校验；当所述音频片段不完整时，对所述音频片段添加第一音频帧确认戳；当所述音频片段完整时，对所述音频片段不添加音频帧确认戳或者添加不同于所述第一音频帧确认戳的第二音频帧确认戳。5.根据权利要求1或4所述的方法，其特征在于，所述根据所述播放时间戳和所述音频帧确认戳确定回声预测信号，包括：将所述播放时间戳和所述音频帧确认戳输入至回声预测模型中，通过所述回声预测模型基于自适应滤波算法对所述对端音频信号进行处理，以获取所述回声预测信号。6.根据权利要求1所述的方法，其特征在于，所述播放时间戳和所述采集时间戳的数量为多个，且相邻两所述播放时间戳之间的时间长度和相邻两所述采集时间戳之间的距离相同；所述根据所述空间声音传输时延、所述播放时间戳和所述采集时间戳对所述回声预测信号和所述采集音频信号进行对齐，并根据对齐后的所述回声预测信号对所述采集音频信号进行回声消除，以获取目标音频信号，包括：根据所述播放时间戳、所述空间声音传输时延和所述采集时间戳确定目标回声预测信
号和与所述目标回声预测信号对应的目标采集音频信号；根据所述空间声音传输时延对所述目标回声预测信号的播放时间戳进行更新，并根据更新后的播放时间戳对所述目标回声预测信号进行更新，以获取与所述目标采集音频信号时间对齐的待去除回声预测信号；从所述目标采集音频信号中去除所述待去除回声预测信号，以获取所述目标音频信号。7.一种回声消除装置，配置于回声消除系统中的第一终端，其特征在于，包括：获取模块，用于获取空间声音传输时延，所述空间声音传输时延是通过所述第一终端和第二终端确定的；预测模块，用于接收对端音频信号，对所述对端音频信号进行解码和播放，在播放过程中对所述对端音频信号添加播放时间戳和音频帧确认戳，并根据所述播放时间戳和所述音频帧确认戳确定回声预测信号；所述获取模块，还用于获取采集音频信号和与所述采集音频信号对应的采集时间戳，所述采集音频信号为所述第二终端对本端用户的音频信号和与所述对端音频信号对应的回声信号进行采集得到的；消除模块，用于根据所述空间声音传输时延、所述播放时间戳和所述采集时间戳对所述回声预测信号和所述采集音频信号进行对齐，并根据对齐后的所述回声预测信号对所述采集音频信号进行回声消除，以获取目标音频信号。8.一种回声消除系统，其特征在于，包括：第一终端，用于获取空间声音传输时延和对端音频信号，解码并播放所述对端音频信号，在播放过程中对所述对端音频信号添加播放时间戳和音频帧确认戳，并根据所述播放时间戳和所述音频帧确认戳确定回声预测信号；在获取采集音频信号和与所述采集音频信号对应的采集时间戳后，根据所述空间声音传输时延、所述播放时间戳和所述采集时间戳对所述回声预测信号和所述采集音频信号进行对齐，并根据对齐后的所述回声预测信号对所述采集音频信号进行回声消除，以获取目标音频信号；第二终端，与所述第一终端连接，用于协同所述第一终端确定所述空间声音传输时延，采集本端用户的音频信号和与所述对端音频信号对应的回声信号生成所述采集音频信号，并确定与所述采集音频信号对应的采集时间戳。9.一种计算机存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1～7中任意一项所述的回声消除方法。10.一种电子设备，其特征在于，包括：处理器；以及存储器，用于存储所述控制器的可执行指令；其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1～7中任意一项所述的回声消除方法。

技术总结
本申请属于数据处理技术领域，涉及回声消除方法、装置、存储介质及电子设备。该方法应用于回声消除系统中的第一终端，包括：获取空间声音传输时延；接收对端音频信号，对对端音频信号进行解码和播放，在播放过程中对对端音频信号添加播放时间戳和音频帧确认戳，并根据播放时间戳和音频帧确认戳确定回声预测信号；获取采集音频信号和与采集音频信号对应的采集时间戳；根据空间声音传输时延、播放时间戳和采集时间戳对所述回声预测信号和所述采集音频信号进行对齐，并根据对齐后的回声预测信号对采集音频信号进行回声消除，以获取目标音频信号。本申请能够保证回声预测信号的正确性，提升回声消除效果，进而提高通话质量。进而提高通话质量。进而提高通话质量。

技术研发人员：林健苏军根
受保护的技术使用者：中国电信股份有限公司
技术研发日：2023.05.26
技术公布日：2023/8/23

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

回声消除方法、装置、计算机存储介质及电子设备与流程

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

回声消除方法、装置、计算机存储介质及电子设备与流程

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表