使用参数转换来处理编码音频场景的装置、方法或计算机程序与流程

未命名 08-05 阅读：97 评论：0

1.本发明涉及音频处理，具体涉及对编码音频场景进行的处理以便生成经处理的音频场景用于渲染、传输或存储。

背景技术：

2.传统上，提供用于用户通信(如电话或电话会议)手段的音频应用已经主要局限于单声道录制和回放。然而，近年来，新的沉浸式vr/ar技术的出现已经引发了人们对通信场景的空间渲染的兴趣。为了满足这种兴趣，当前正在开发被称为沉浸式语音和音频服务(ivas)的新3gpp音频标准。基于最近发布的增强型语音服务(evs)标准，ivas提供能够渲染沉浸式音频场景的多声道和vr扩展，用于例如空间电话会议，同时仍然满足流畅音频通信的低延迟要求。这种在不牺牲回放质量的情况下将编解码器的总延迟保持在最低水平的持续需求为下文中所述的工作提供了动力。
3.使用在低比特率(例如，32kbps及以下)下使用参数音频编码(如定向音频编码(dirac)[1][2])的系统对基于场景的音频(sba)材料(如三阶环绕声内容)进行编码仅允许直接编码单个(传输)声道，同时经由滤波器组域中的解码器处的侧边参数恢复空间信息。在解码器处的扬声器设置仅能够进行立体声回放的情况下，不需要3d音频场景的完全恢复。由于对两个或更多个传输声道的较高比特率编码是可能的，因此在这些情况下，可以直接提取并回放场景的立体声再现，而无需任何参数空间上混(完全跳过空间渲染器)和伴随它而来的额外延迟(例如由于附加的滤波器组分析/合成，如复数值低延迟滤波器组(cldfb))。然而，在仅一个传输声道的低速率情况下，这是不可能的。因此，在dirac的情况下，直到现在为止，立体声输出需要具有后续l/r转换的foa(一阶环绕声)上混。这是有问题的，因为这种情况现在比系统中其他可能的立体声输出配置具有更高的总延迟，并且将期望所有立体声输出配置的对齐。
[0004]
具有高延迟的dirac立体声渲染的示例
[0005]
图12示出了用于具有高延迟的dirac立体声上混的常规解码器处理的框图示例。
[0006]
例如，在未描绘的编码器处，单个下混声道经由dirac编码器处理中的空间下混来导出，并且随后使用核心编码器(如增强型语音服务(evs))来编码[3]。
[0007]
在解码器处，例如，使用图12中描绘的常规dirac上混过程，将首先通过使用单声道或ivas单声道解码器1210从比特流1212中解码一个可用传输声道，从而生成可以被看作是原始音频场景的解码单声道下混1214的时域信号。
[0008]
解码单声道信号1214被输入到cldfb 1220，用于分析引起延迟的信号1214(将信号转换到频域中)。显著延迟的输出信号1222进入dirac渲染器1230。dirac渲染器1230处理延迟的输出信号1222，并且发送的侧边信息(即，dirac侧边参数1213)用于将信号1222变换为foa表示(即，原始场景的foa上混1232，其具有从dirac侧边参数1213恢复的空间信息)。
[0009]
所发送的参数1213可以包括方向角(例如，针对水平面的一个方位角值和针对竖
直平面的一个仰角)和每个频带的一个扩散值，以感知地描述整个3d音频场景。由于dirac立体声上混的按频带处理，参数1213每帧发送多次，即针对每个频带一组。此外，每个组包括(例如，20ms长度的)整个帧内针对各个子帧的多个方向参数，用于提高时间分辨率。
[0010]
dirac渲染器1230的结果可以是例如foa格式的全3d场景(即，foa上混1232)，现在可以使用矩阵变换1240将该全3d场景转换为适合于在立体声扬声器设置上进行回放的l/r信号1242。换言之，l/r信号1242可以被输入到立体声扬声器或者可以被输入到使用预定义声道权重的cldfb合成1250。cldfb合成1250将频域中所输入的两个输出声道(l/r信号1242)转换到时域中，从而生成准备好立体声回放的输出信号1252。
[0011]
备选地，可以使用相同的dirac立体声上混来直接生成针对立体声输出配置的渲染，这避免生成foa信号的中间步骤。这将降低框架的潜在复杂化的算法复杂度。然而，两种方法都需要在核心编码之后使用附加的滤波器组，这会导致附加的5ms延迟。可以在[2]中找到dirac渲染的其他示例。
[0012]
dirac立体声上混方法在延迟方面和复杂度方面都是相当次优的。由于cldfb滤波器组的使用，输出显著被延迟(在dirac示例中延迟附加的5ms)，因此具有与完整sba上混相同的总延迟(与其中不需要渲染的附加步骤的立体声输出配置的延迟相比)。这也是合理的假设，即就系统复杂度而言，进行完整sba上混以生成立体声信号并不理想。
[0013]
本发明的目的是提供一种用于处理编码音频场景的改进构思。
[0014]
该目的通过权利要求1的用于处理编码音频场景的装置、权利要求32的处理编码音频场景的方法或权利要求33的计算机程序来实现。
[0015]
本发明基于以下发现：根据与参数转换相关的第一方面，通过将与虚拟听者位置相关的编码音频场景中的给定参数转换为与给定输出格式的声道表示相关的转换参数来获得用于处理编码音频场景的改进构思。该过程在基于声道的环境中处理并最终渲染经处理的音频场景时提供了高度的灵活性。
[0016]
根据本发明的第一方面的实施例包括一种用于处理表示与虚拟听者位置相关的声场的编码音频场景的装置，该编码音频场景包括关于传输信号的信息(例如，核心编码音频信号)和与虚拟听者位置相关的第一参数集。该装置包括：参数转换器，用于将第一参数集(例如，b格式或一阶环绕声(foa)格式的定向音频编码(dirac)侧边参数)转换为与包括两个或更多个声道的声道表示相关的第二参数(例如，立体声参数)集，用于在预定义的空间位置处再现该两个或更多个声道；以及输出接口，用于使用第二参数集和关于传输信号的信息来生成经处理的音频场景。
[0017]
在实施例中，短时傅立叶变换(stft)滤波器组用于上混，而不是定向音频编码(dirac)渲染器。因此，可以将一个下混声道(包括在比特流中)上混为立体声输出，而无需任何附加的总延迟。通过在解码器处使用具有非常短重叠的窗口进行分析，该上混允许保持在通信编解码器或即将到来的沉浸式语音和音频服务(ivas)所需的总延迟内。该值例如可以是32毫秒。在这种实施例中，可以避免以带宽扩展为目的的任何后处理，因为这种处理可以与参数转换或参数映射并行进行。
[0018]
通过将针对低频带(lb)信号的特定于听者的参数映射到针对低频带的特定于声道的立体声参数集中，可以实现dft域内针对低频带的低延迟上混。对于高频带，单个立体声参数集允许在时域中执行高频带的上混，优选地与针对低频带的频谱分析、频谱上混和
频谱合成并行执行。
[0019]
示例性地，参数转换器被配置为使用用于平移的单侧边增益参数、以及与立体声宽度密切相关且还与定向音频编码(dirac)中使用的扩散参数密切相关的残差预测参数。
[0020]
在实施例中，在处理编码音频场景(基于场景的音频)以获得立体声输出的情况下，该“dft-立体声”方法允许ivas编解码器保持在与evs中相同的总延迟(具体地，32毫秒)内。通过经由dft立体声而不是空间dirac渲染来实现直接处理，实现了参数立体声上混的较低复杂度。
[0021]
本发明基于以下发现：根据与带宽扩展相关的第二方面，获得了用于处理编码音频场景的改进构思。
[0022]
根据本发明第二方面的实施例包括一种用于处理表示声场的音频场景的装置，该音频场景包括关于传输信号的信息和参数集。该装置还包括：输出接口，用于使用参数集和关于传输信号的信息来生成经处理的音频场景，其中，输出接口被配置为使用参数集和传输信号来生成两个或更多个声道的原始表示；多声道增强器，用于使用传输信号来生成两个或更多个声道的增强表示；以及信号组合器，用于将两个或更多个声道的原始表示和两个或更多个声道的增强表示进行组合以获得经处理的音频场景。
[0023]
一方面两个或更多个声道的原始表示的生成以及另一方面两个或更多个声道的增强表示的单独生成允许在针对原始表示和增强表示选择算法时有很大的灵活性。对于一个或多个输出声道中的每一个，即在多声道输出域中而不是在较低声道输入或编码场景域中，最终组合已经发生。因此，在组合之后，两个或更多个声道被合成并且可以用于其他过程，例如渲染、传输或存储。
[0024]
在实施例中，核心处理的一部分(例如，针对增强表示的代数码本激励线性预测(acelp)语音编码器的带宽扩展(bwe))可以与针对原始表示的dft立体声处理并行执行。因此，由两种算法引起的任何延迟都不累积，而仅由一种算法引起的给定延迟将是最终延迟。在实施例中，仅传输信号(例如低频带(lb)信号(声道))被输入到输出接口中，例如dft立体声处理，而高频带(hb)例如通过使用多声道增强器在时域中单独地上混，使得可以在32毫秒的目标时间窗口内处理立体声解码。通过使用宽带平移，例如，基于例如来自参数转换器的映射侧边增益，获得针对整个高频带的直接时域上混，而没有任何显著延迟。
[0025]
在实施例中，dft立体声中的延迟减少可能不完全由两个变换的重叠的差异引起，例如，由cldfb引起的5ms的变换延迟和由stft引起的3.125ms的变换延迟。相反，dft立体声利用了32ms的evs编码器目标延迟的最后3.25ms基本上来自acelp bwe的事实。其他一切(达到evs编码器目标延迟之前的剩余毫秒数)仅是人工地延迟，以在最后再次实现两个转换信号(hb立体声上混信号和具有lb立体声核心信号的hb填充信号)的对齐。因此，为了避免dft立体声中的附加延迟，例如在非常短的dft窗口重叠内，仅变换编码器的所有其他分量，而例如使用多声道增强器的acelp bwe在时域中被上混得几乎没有延迟。
[0026]
本发明基于以下发现：根据与参数平滑相关的第三方面，通过根据平滑规则对时间执行参数平滑来获得用于处理编码音频场景的改进构思。因此，通过将平滑参数而不是原始参数应用于传输声道而获得的经处理的音频场景将具有改善的音频质量。当平滑参数是上混参数时尤其如此，但对于任何其他参数(例如，包络参数或lpc参数或噪声参数或缩放因子参数)，通过平滑规则获得的使用或平滑参数将导致所获得的经处理的音频场景的
主观音频质量改善。
[0027]
根据本发明第三方面的实施例包括一种用于处理表示声场的音频场景的装置，该音频场景包括关于传输信号的信息和第一参数集。该装置还包括：参数处理器，用于处理第一参数集以获得第二参数集，其中，参数处理器被配置为使用针对输入时间帧的第一参数集中的至少一个参数来计算每个输入时间帧的至少一个原始参数、根据平滑规则计算平滑信息(例如，针对每个原始参数的因子)、以及将对应平滑信息应用于对应原始参数以导出针对输出时间帧的第二参数集的参数；以及输出接口，用于使用第二参数集和关于传输信号的信息来生成经处理的音频场景。
[0028]
通过随时间平滑原始参数，避免了从一帧到下一帧的增益或参数的强烈波动。平滑因子决定了平滑的强度，该强度在优选实施例中由参数处理器自适应地计算，该参数处理器在实施例中还具有用于将听者位置相关参数转换为声道相关参数的参数转换器的功能。自适应计算允许每当音频场景突然改变时获得更快的响应。自适应平滑因子是根据当前频带中能量的变化按频带计算的。按频带能量是在帧中包括的所有子帧中计算的。此外，能量随时间的变化以两个平均值(短期平均值和长期平均值)为特征，因此极端情况对平滑没有影响，而能量的不太快的增加不会如此强烈地降低平滑。因此，根据平均值的商，针对当前帧中的每个dtf立体声子帧计算平滑因子。
[0029]
这里要提及的是，之前讨论和随后讨论的所有备选方案或方面都可以单独地使用，即，无需任何方面。然而，在其他实施例中，两个或更多个方面彼此组合，并且在其他实施例中，所有方面彼此组合以获得总延迟、可实现的音频质量和所需的实现努力之间的改进折衷。
附图说明
[0030]
本发明的优选实施例随后参考附图进行讨论，在附图中：
[0031]
图1是根据实施例的使用参数转换器来处理编码音频场景的装置的框图；
[0032]
图2a示出了根据实施例的第一参数集和第二参数集的示意图；
[0033]
图2b是用于计算原始参数的参数转换器或参数处理器的实施例；
[0034]
图2c是用于组合原始参数的参数转换器或参数处理器的实施例；
[0035]
图3是用于执行原始参数的加权组合的参数转换器或参数处理器的实施例；
[0036]
图4是用于生成侧边增益参数和残差预测参数的参数转换器的实施例；
[0037]
图5a是用于计算针对原始参数的平滑因子的参数转换器或参数处理器的实施例；
[0038]
图5b是用于计算针对频带的平滑因子的参数转换器或参数处理器的实施例；
[0039]
图6示出了根据实施例的针对平滑因子对传输信号进行平均的示意图；
[0040]
图7是用于计算递归平滑的参数转换器或参数处理器的实施例；
[0041]
图8是用于对传输信号进行解码的装置的实施例；
[0042]
图9是使用带宽扩展来处理编码音频场景的装置的实施例；
[0043]
图10是用于获得经处理的音频场景的装置的实施例；
[0044]
图11是多声道增强器的实施例的框图；
[0045]
图12是常规dirac立体声上混过程的框图；
[0046]
图13是使用参数映射来获得经处理的音频场景的装置的实施例；以及
[0047]
图14是使用带宽扩展来获得经处理的音频场景的装置的实施例。
具体实施方式
[0048]
图1示出了用于处理例如表示与虚拟听者位置相关的声场的编码音频场景130的装置。编码音频场景130包括关于传输信号122的信息(例如，比特流)和与虚拟听者位置相关的第一参数集112(例如，也包括在该比特流中的多个dirac参数)。第一参数集112输入到参数转换器110或参数处理器中，该参数转换器110或参数处理器将第一参数集112转换为第二参数集114，该第二参数集114与包括至少两个或更多个声道的声道表示相关。该装置能够支持不同的音频格式。音频信号本质上可以是声学的，由麦克风拾取，或者本质上是电的，它们应该被发送给扬声器。所支持的音频格式可以是单声道信号、低频带信号、高频带信号、多声道信号、一阶和高阶环绕声分量、以及音频对象。音频场景还可以通过组合不同的输入格式来描述。
[0049]
参数转换器110被配置为计算第二参数集114作为被输入到输出接口120的参数立体声或多声道(例如，两个或更多个声道)参数。输出接口120被配置为通过如下方式生成经处理的音频场景124：将传输信号122或关于传输信号的信息与第二参数集114进行组合，以获得经转码的音频场景作为经处理的音频场景124。另一实施例包括使用第二参数集114将传输信号122上混为包括两个或更多个声道的上混信号。换言之，参数转换器120将例如用于dirac渲染的第一参数集112映射到第二参数集114。第二参数集可以包括用于平移的侧边增益参数以及当应用于上混时导致音频场景的空间图像改善的残差预测参数。例如，第一参数集112的参数可以包括到达方向参数、扩散参数、与以虚拟收听位置作为球体原点的球体相关的方向信息参数、以及距离参数中的至少一个。例如，第二参数集114的参数可以包括侧边增益参数、残差预测增益参数、声道间电平差参数、声道间时间差参数、声道间相位差参数和声道间相干性参数中的至少一个。
[0050]
图2a示出了根据实施例的第一参数集112和第二参数集114的示意图。具体地，描绘了针对两个参数(第一参数和第二参数)的参数分辨率。图2a的每个横坐标表示时间，并且图2a的每个纵坐标表示频率。如图2a中所示，与第一参数集112相关的输入时间帧210包括两个或更多个输入时间子帧212和213。在正下方，与第二参数集114相关的输出时间帧220在与顶部图相关的对应图中示出。这指示输出时间帧220与输入时间帧210相比更小，并且输出时间帧220与输入时间子帧212或213相比更长。注意，输入时间子帧212或213和输出时间帧220可以包括多个频率作为频带。输入频带230可以包括与输出频带240相同的频率。根据实施例，输入频带230和输出频带240的频带可以不彼此连接或相关。
[0051]
应当注意，图4中描述的侧边增益和残差增益通常是针对帧计算的，使得针对每个输入帧210，计算单侧边增益和单残差增益。然而，在其他实施例中，不仅针对每个帧计算单侧边增益和单残差增益，而且针对输入时间帧210计算一组侧边增益和一组残差增益，其中，每个侧边增益和每个残差增益与例如频带的某个输入时间子帧212或213相关。因此，在实施例中，参数转换器110针对第一参数集112和第二参数集114的每个帧计算一组侧边增益和一组残差增益，其中，针对输入时间帧210的侧边增益和残差增益的数量通常等于输入频带230的数量。
[0052]
图2b示出了用于计算250第二参数集114的原始参数252的参数转换器110的实施
例。参数转换器110以时间相继方式针对两个或更多个输入时间子帧212和213中的每一个计算原始参数252。例如，针对每个输入频带230和时间实例(输入时间子帧212、213)，该计算250导出方位角θ的主要到达方向(doa)和仰角φ的主要到达方向以及扩散参数ψ。
[0053]
对于方向分量(如x、y和z)，给出了中心位置处的一阶球面谐波可以使用以下等式通过全向分量w(b，n)和dirac参数导出：
[0054][0055][0056][0057][0058]
w声道表示信号的非定向单声道分量，其对应于全向麦克风的输出。x、y和z声道是三维方向分量。从这四个foa声道，能够使用参数转换器110通过涉及w声道和y声道的解码来获得立体声信号(立体声版本，立体声输出)，这导致两个心形指向方位角+90度和
–
90度。由于该事实，下面的等式示出了左立体声信号和右立体声信号的关系，其中通过将y声道添加到w声道来表示左声道l，并且其中通过从w声道减去y声道来表示右声道r。
[0059][0060]
换言之，这种解码对应于指向两个方向的一阶波束成形，这可以使用以下等式来表示：
[0061][0062]
因此，在立体声输出(左声道和右声道)和第一参数集112(即，dirac参数)之间存在直接关联。
[0063]
但是，另一方面，第二参数集114(即，dft参数)依赖于基于中间信号m和侧边信号的左声道l和右声道r模型，这可以使用以下等式来表示：
[0064][0065]
这里，m是作为单声道信号(声道)发送的，该单声道信号(声道)在基于场景的音频(sba)模式情况下对应于全向声道w。此外，在dft立体声中，s是使用侧边增益参数从m预测的，这将在下文中说明。
[0066]
图4示出了用于例如使用计算过程450来生成侧边增益参数455和残差预测参数456的参数转换器110的实施例。参数转换器110优选地处理计算250和450，以使用以下等式来计算针对输出频带241的原始参数252(例如，侧边参数455)：
[0067][0068]
根据该等式，b是输出频带，sidegain是侧边增益参数455，azimuth是到达方向参数的方位角分量，以及elevation是到达方向参数的仰角分量。如图4中所示，第一参数集112包括针对如前所述的输入频带231的到达方向(doa)参数456，并且第二参数集114包括每个输入频带230的侧边增益参数455。然而，如果第一参数集112附加地包括输入频带231的扩散参数ψ453，则参数转换器110被配置为使用以下等式来计算250针对输出频带241的侧边增益参数455：
[0069][0070]
根据该等式，diff(b)是针对输入频带b 230的扩散参数ψ453。应当注意，第一参数集112的方向参数456可以包括不同的值范围，例如方位角参数451是[0；360]，仰角参数452是[0；180]，以及结果侧边增益参数455是[-1；1]。如图2c中所示，参数转换器110使用组合器260来组合至少两个原始参数252，从而导出第二参数集114中与输出时间帧220相关的参数。
[0071]
根据实施例，第二参数集114还包括输出频带240中针对输出频带241的残差预测参数456，这在图4中示出。参数转换器110可以使用来自输入频带231的扩散参数ψ453作为针对输出频带241的残差预测参数456，如残差选择器410所示。如果输入频带231和输出频带241彼此相等，则参数转换器110使用来自输入频带231的扩散参数ψ453。从针对输入频带231的扩散参数ψ453导出针对输出频带241的扩散参数ψ453，并且针对输出频带241的扩散参数ψ453用作针对输出频带241的残差预测参数456。然后参数转换器110可以使用来自输入频带231的扩散参数ψ453。
[0072]
在dft立体声处理中，使用残差选择器410预测的残差被假设并预期是不相干的，并且通过其能量和去往左声道l和右声道r的去相关残差信号来建模。侧边信号s与作为单声道信号(声道)的中间信号m一起预测的残差可以表示为：
[0073]
r(b)＝s(b)-sidegain[b]m(b)
[0074]
其能量在使用残差预测增益的dft立体声处理中使用以下等式进行建模：
[0075]
||r(b)||2＝residual prediction[b]||m(b)||2[0076]
由于残差增益表示立体声信号的声道间不相干分量和空间宽度，因此它直接关联到由dirac建模的扩散部分。因此，残余能量可以重写为dirac扩散参数的函数：
[0077]
||r(b)||2＝ψ(b)||m(b)||2[0078]
图3示出了根据实施例的用于执行原始参数252的加权组合310的参数转换器110。至少两个原始参数252被输入到加权组合310中，其中，针对加权组合310的加权因子324基于传输信号122在对应输入时间子帧212中的幅度相关测量320来导出。此外，参数转换器
110被配置为使用传输信号112在对应输入时间子帧212或213中的能量或功率值作为幅度相关测量320。幅度相关测量320例如测量传输信号122在对应输入时间子帧212中的能量或功率，使得与针对传输信号122在对应输入时间子帧212中的能量或功率较低的输入子帧212的加权因子324相比，在传输信号122在对应输入时间子帧212中的能量或功率较高的情况下，针对该输入子帧212的加权因子324更大。
[0079]
如前所述，方向参数、方位角参数和仰角参数具有对应的值范围。然而，第一参数集112的方向参数通常具有比第二参数集114高的时间分辨率，这意味着必须使用两个或更多个方位角值和仰角值来计算一个侧边增益值。根据实施例，该计算是基于能量相关权重的，其可以被获得作为幅度相关测量320的输出。例如，对于所有k输入时间子帧212和213，子帧的能量nrg使用以下等式来计算：
[0080][0081]
其中，x是时域输入信号，n是每个子帧中的样本数量，以及i是样本索引。此外，对于每个输出时间帧l230，然后每个输入时间子帧k212、213在每个输出时间帧l内的贡献的权重324可以计算为：
[0082][0083]
然后使用以下等式来最终计算侧边增益参数455：
[0084][0085]
由于参数之间的相似度，每个频带的扩散参数453被直接映射到同一频带中的所有子帧的残差预测参数456。相似度可以用以下等式来表示：
[0086]
residual prediction[l][b]＝diffuseness[b]
[0087]
图5a示出了用于根据平滑规则514来计算针对每个原始参数252的平滑因子512的参数转换器110或参数处理器的实施例。此外，参数转换器110被配置为将平滑因子512(针对一个原始参数的对应平滑因子)应用于原始参数252(与平滑因子相对应的一个原始参数)以导出针对输出时间帧220的第二参数集114的参数，即输出时间帧的参数。
[0088]
图5b示出了用于使用压缩函数540来计算针对频带的平滑因子522的参数转换器110或参数处理器的实施例。压缩函数540对于不同的频带可以是不同的，使得压缩函数540对于较低频带的压缩强度强于所述压缩函数对于较高频带的压缩强度。参数转换器110还被配置为使用最大界限选择550来计算平滑因子512、522。换言之，参数转换器110可以通过使用针对不同频带的不同最大界限来获得平滑因子512、522，使得针对较低频带的最大界限高于针对较高频带的最大界限。
[0089]
压缩函数540和最大界限选择550两者被输入到计算520，从而获得针对频带522的平滑因子522。例如，参数转换器110不限于使用两个计算510和520来计算平滑因子512和522，使得参数转换器110被配置为仅使用一个计算块来计算平滑因子512、522，该一个计算块可以输出平滑因子512和522。换言之，平滑因子是根据当前频带中的能量的变化(针对每个原始参数252)按频带计算的。例如，通过使用参数平滑处理，侧边增益参数455和残差预测参数456随时间被平滑以避免增益的强烈波动。由于这在大多数时间需要相对较强的平滑，但每当音频场景130突然改变时需要更快的响应，因此自适应地计算用于确定平滑强度的平滑因子512、522。
[0090]
因此，使用以下等式在所有子帧k中计算按频带的能量nrg：
[0091][0092]
其中，x是经dft变换的信号(实部和虚部)的频率区间，并且i是当前频带b中所有区间上的区间索引。
[0093]
为了捕捉能量随时间的变化，使用传输信号122的幅度相关测量320来计算两个平均值(一个短期平均值331和一个长期平均值332)，如图3中所示。
[0094]
图6示出了根据实施例的针对平滑因子512对传输信号122进行平均的幅度相关测量320的示意图。x轴表示时间，并且y轴表示(传输信号122的)能量。传输信号122示出了正弦函数122的示意性部分。如图6中所示，第二时间部分631短于第一时间部分632。根据以下等式针对每个频带b计算平均值331和332上的能量的变化：
[0095][0096]
以及
[0097][0098]
其中，n
short
和n
long
是先前时间子帧k的数量，针对这些子帧计算各个平均值。例如，在该特定实施例中，n
short
的值设置为3，并且n
long
的值设置为10。
[0099]
此外，参数转换器或参数处理器110被配置为使用计算510基于长期平均值332和短期平均值331之间的比率来计算平滑因子512、522。换言之，计算两个平均值331和332的商，使得较高短期平均值(其指示能量的近期增加)导致平滑的降低。以下等式示出了平滑因子512与两个平均值331和312的相关性。
[0100][0101]
由于指示能量降低的较高长期平均值332不会导致平滑降低的事实，平滑因子512
设置为最大值为1(针对目前)。因此，上述公式将fac
smooth
[b]的最小值限制为(在该实施例中为0.3)。然而，在极端情况下，该因子必须接近0，这就是使用以下等式将值从范围转换为范围[0；1]的原因：
[0102][0103]
在实施例中，与之前示出的平滑相比，平滑被过度降低，使得因子通过根函数向值1压缩。由于稳定性在最低频带中尤其重要，因此在频带b＝0和b＝1中使用四次方根。针对最低频带的等式是：
[0104][0105]
针对所有其他频带b》1的等式使用以下等式通过平方根函数执行压缩。
[0106][0107]
通过针对所有其他频带b》1应用平方根函数，能量可以呈指数增加的极端情况变得更小，而能量不太快的增加不会如此强烈地降低平滑。
[0108]
此外，针对以下等式取决于频带来设置最大平滑。注意，因子1将简单地重复先前值，而没有当前增益的贡献。
[0109]
fac
smooth
[b]＝min(fac
smooth
[b],bounds[b])
[0110]
这里，bounds[b]表示具有5个频带的给定实现，这5个频带根据下表来设置：
[0111][0112]
针对当前帧中的每个dft立体声子帧k计算平滑因子。
[0113]
图7示出了根据实施例的使用递归平滑710的参数转换器110，在递归平滑710中，根据以下等式对侧边增益参数g
side
[k][b]455和残差预测增益参数g
pred
[k][b]456进行递归平滑：
[0114]gside
[k][b]＝fac
smooth
[k][b]g
side
[k-1][b]+(1-fac
smooth
[k][b])g
side
[k][b]
[0115]
以及
[0116]gpred
[k][b]＝fac
smooth
[k][b]g
pred
[k-1][b]+(1-fac
smooth
[k][b])g
pred
[k][b]
[0117]
通过将由第一加权值加权的前一输出时间帧532的参数和由第二加权值加权的当前输出时间帧220的原始参数252进行组合，计算在时间上相继的输出时间帧上针对当前输出时间帧进行的递归平滑710。换言之，计算当前输出时间帧的平滑参数，从而从当前时间帧的平滑因子导出第一加权值和第二加权值。
[0118]
这些经映射和平滑的参数(g
side
、g
pred
)被输入到dft立体声处理，即输出接口120，其中，立体声信号(l/r)是根据下混dmx、残差预测信号pred和映射参数g
side
和g
pred
来生成。例如，下混dmx是通过增强立体声填充使用全通滤波器或通过立体声填充使用延迟从下混获得的。
[0119]
上混通过以下等式来描述：
[0120]
l[k][b][i]＝(1+g
side
[k][b])dmx[k][b][i]+g
pred
[k][b]g
norm
pred[k][b][i]
[0121]
以及
[0122]
r[k][b][i]＝(1-g
side
[k][b])dmx[k][b][i]-g
pred
[k][b]g
norm
pred[k][b][i]
[0123]
针对频带b中所有区间i中的每个子帧k处理上混，这在先前示出的表中进行了描述。此外，每个侧边增益g
side
由能量归一化因子g
norm
来加权，该能量归一化因子是根据下混dmx的能量以及残余预测增益参数pred或g
pred
[k][b](如上所述)来计算的。
[0124]
经映射和平滑的侧边增益755以及经映射和平滑的残差增益756被输入到输出接口120以获得经平滑的音频场景。因此，基于先前描述使用平滑参数来处理编码音频场景导致在可实现的音频质量与实现努力之间的折衷改进。
[0125]
图8示出了根据实施例的用于对传输信号122进行解码的装置。(编码的)音频信号816被输入到传输信号核心解码器810，以对(核心编码的)音频信号816进行核心解码从而获得(解码的原始)传输信号812，该传输信号812被输入到输出接口120。例如，传输信号122可以是从传输信号核心编码器810输出的编码传输信号812。将(解码的)传输信号812输入到输出接口120，该输出接口120被配置为使用包括第二参数集114的参数集814来生成两个或更多个声道(例如，左声道和右声道)的原始表示818。例如，用于对核心编码音频信号进行解码以获得传输信号122的传输信号核心解码器810是acelp解码器。此外，核心解码器810被配置为在两个并行分支中馈送解码原始传输信号812，两个并行分支中的第一分支包括输出接口120，并且两个并行分支中的第二分支包括传输信号增强器820或多声道增强器990或两者。信号组合器940被配置为接收来自第一分支的要组合的第一输入和来自第二分支的要组合的第二输入。
[0126]
如图9中所示，用于处理编码音频场景130的装置可以使用带宽扩展处理器910。低频带传输信号901被输入到输出接口120以获得传输信号的双声道低频带表示972。应当注意，输出接口120例如在上混过程960期间在频域955中处理传输信号901，并在时域966中转换双声道传输信号901。这是通过转换器970进行的，该转换器970将频域955中出现的上混频谱表示962转换到时域中以获得传输信号的双声道低频带表示972。
[0127]
如图8中所示，单声道低频带传输信号901被输入到转换器950，该转换器950执行例如传输信号901的与输出时间帧220相对应的时间部分到传输信号901的频谱表示952的转换，即从时域966到频域955的转换。例如，如图2中所描述的，(输出时间帧的)部分短于输入时间帧210，在该时间帧210中组织了第一参数集112的参数252。
[0128]
频谱表示952被输入到上混器960以使用例如第二参数集114对频谱表示952进行上混，从而获得上混频谱表示962，其(仍然)在频域955中被处理。如前所述，将上混频谱表示962输入到转换器970，用于将上混频谱表示962(即，两个或更多个声道中的每个声道)从频域955转换到时域966(时间表示)以获得低频带表示972。因此，计算了上混频谱表示962中的两个或更多个声道。优选地，输出接口120被配置为在复数离散傅立叶变换域中操作，其中，上混操作是在复数离散傅立叶变换域中执行的。使用转换器970进行从复数离散傅立叶变换域回到实数值时域表示的转换。换言之，输出接口120被配置为在第二域(即，频域955)中使用上混器960来生成两个或更多个声道的原始表示，其中，第一域表示时域966。
[0129]
在实施例中，上混器960的上混操作基于以下等式：
[0130][0131]
以及
[0132][0133]
其中，是针对帧t和频率区间k的传输信号901，其中，是针对帧t和子带b的侧边增益参数455，其中，是针对帧t和子带b的残差预测增益参数456，其中，g
norm
是可有可无的能量调整因子，以及其中，是针对帧t和频率区间k的原始残差信号。
[0134]
与低频带传输信号901相比，传输信号902、122在时域966中被处理。传输信号902被输入到带宽扩展处理器(bwe处理器)910以生成高频带信号912，并且被输入到多声道滤波器930以应用多声道填充操作。高频带信号912被输入到上混器920，用于使用第二参数集144(即，输出时间帧262、532的参数)将高频带信号912上混为上混高频带信号922。例如，上混器920可以使用来自第二参数集114的至少一个参数在时域966中将宽带平移处理应用于高频带信号912。
[0135]
低频带表示972、上混高频带信号922和多声道填充传输信号932被输入到信号组合器940，以便在时域966中将宽带平移922的结果、立体声填充932的结果和两个或更多个声道的低频带表示972进行组合。该组合导致时域966中的全频带多声道信号942作为声道表示。如前面所概述的，转换器970将频谱表示962中的两个或更多个声道的每个声道转换到时间表示中，以获得两个或更多个声道的原始时间表示972。因此，信号组合器940将两个或更多个声道的原始时间表示和两个或更多个声道的增强时间表示进行组合。
[0136]
在实施例中，仅低频带(lb)传输信号901被输入到输出接口120(dft立体声)处理中，而高频带(hb)传输信号912在时域中(使用上混器920)被单独地上混。使用bwe处理器910加上时域立体声填充(使用多声道填充器930)来生成环境贡献，经由平移操作来实现这种过程。平移过程包括基于每帧的映射侧边增益(例如，经映射和平滑的侧边增益755)的宽带平移。这里，每帧仅存在覆盖整个高频带频率区域的单个增益，这简化了基于以下等式对下混声道中的左高频带声道和右高频带声道的计算：
[0137]
hb
left
[k][i]＝hb
dmx
[k][i]+g
side,hb
[k]*hb
dmx
[k][i]
[0138]
以及
[0139]
hb
right
[k][i]＝hb
dmx
[k][i]-sidegain
hb
[k]*hb
dmx
[k][i]
[0140]
对于每个子帧k中的每个样本i。
[0141]
高频带立体声填充信号pred
hb
(即，多声道填充传输信号932)是通过延迟hb
dmx
并通过g
side,hb
对其加权以及附加地使用能量归一化因子g
norm
来获得的，如以下等式中描述的：
[0142]
pred
hb,left
[i]＝g
pred,hb
*g
norm
*hb
dmx
[i-d]
[0143]
以及
[0144]
pred
hb,right
[i]＝-g
pred,hb
*g
norm
*hb
dmx
[i-d]
[0145]
对于当前时间帧中的每个样本i(对完整时间帧210而不是对时间子帧213和213进行)。d是为生成由多声道填充器930获得的填充信号932而延迟高频带下混的样本数量。可以执行除了延迟之外的用于生成填充信号的其他方式，例如更高级的去相关处理或使用噪声信号或以与延迟相比不同的方式从传输信号导出的任何其他信号。
[0146]
在dft合成之后使用信号组合器940将经平移的立体声信号972和922以及所生成的立体声填充信号932组合(混合回)到核心信号。
[0147]
acelp高频带的这种描述过程也与较高延迟的dirac处理形成对比，在该较高延迟的dirac处理中，acelp核心和tcx帧被人工地延迟以便与acelp高频带对齐。在那里，对完整信号执行cldfb(分析)，这意味着acelp高频带的上混也是在cldfb域(频域)中进行的。
[0148]
图10示出了用于获得经处理的音频场景124的装置的实施例。传输信号122被输入到输出接口120，用于生成两个或更多个声道的原始表示972，使用第二参数集114和多声道增强器990来生成两个或更多个声道的增强表示992。例如，多声道增强器990被配置为执行包括带宽扩展操作、间隙填充操作、质量增强操作或内插操作的一组操作中的至少一个操作。两个或更多个声道的原始表示972和两个或更多个声道的增强表示992两者被输入到信号组合器940以获得经处理的音频场景124。
[0149]
图11示出了用于生成两个或更多个声道的增强表示992的多声道增强器990的实施例的框图，该多声道增强器990包括传输信号增强器820、上混器830和多声道填充器930。传输信号122和/或解码原始传输信号812被输入到传输信号增强器820，其生成增强传输信号822，该增强传输信号822被输入到上混器830和多声道填充器930。例如，传输信号增强器820被配置为执行包括带宽扩展操作、间隙填充操作、质量增强操作或内插操作的一组操作中的至少一个操作。
[0150]
如图9中看到的，多声道填充器930使用传输信号902和至少一个参数532来生成多声道填充传输信号932。换言之，多声道增强器990被配置为使用增强传输信号822和第二参数集114或使用增强传输信号822和上混增强传输信号832来生成两个或更多个声道992的增强表示。例如，多声道增强器990包括上混器830或多声道填充器930或者上混器830和多声道填充器930两者，用于使用传输信号122或增强传输信号933和第二参数集532中的至少一个参数来生成两个或更多个声道的增强表示992。在实施例中，传输信号增强器820或多声道增强器990被配置为在生成原始表示972时与输出接口120并行操作，或者参数转换器110被配置为与传输信号增强器820并行操作。
[0151]
在图13中，从编码器发送到解码器的比特流1312可以与图12中所示的基于dirac
的上混方案相同。从基于dirac的空间下混过程中导出的单个传输声道1312被输入到核心解码器1310中，并使用核心解码器(例如，evs或ivas单声道解码器)进行解码，并与对应的dirac侧边参数1313一起发送。
[0152]
在用于处理没有额外延迟的音频场景的该dft立体声方法中，传输声道的单声道核心解码器(ivas单声道解码器)中的初始解码也保持不变。不是通过图12中的cldfb滤波器组1220，解码下混信号1314被输入到dft分析1320，用于例如通过使用具有非常短重叠的窗口将解码单声道信号1314变换到stft域(频域)。因此，仅使用总延迟与已经由核心解码器的mdct分析/合成引起的延迟之间的剩余余量，dft分析1320相对于32ms的目标系统延迟不会引起任何附加延迟。
[0153]
dirac侧边参数1313或第一参数集112被输入到参数映射1360，其例如可以包括用于获得dft立体声侧边参数(即，第二参数集114)的参数转换器110或参数处理器。频域信号1322和dft侧边参数1362被输入到dft立体声解码器1330以例如通过使用图9中描述的上混器960来生成立体声上混信号1332。立体声上混1332的两个声道被输入到dft合成，用于例如使用图9中描述的转换器970将立体声上混1332从频域转换到时域中，从而生成可以表示经处理的音频场景124的输出信号1342。
[0154]
图14示出了使用带宽扩展1470来处理编码音频场景的实施例。比特流1412被输入到acelp核心或低频带解码器1410而不是如图13中所描述的ivas单声道解码器中，以生成解码低频带信号1414。解码低频带信号1414被输入到dft分析1420，用于将信号1414转换为频域信号1422，例如来自图9的传输信号901的频谱表示952。dft立体声解码器1430可以表示上混器960，该上混器960使用频域中的解码低频带信号1442和来自参数映射1460的dft立体声侧边参数1462来生成lb立体声上混1432。所生成的lb立体声上混1432被输入到dft合成块1440，用于使用例如图9的转换器970来执行到时域的转换。传输信号122的低频带表示972(即，dft合成级1440的输出信号1442)被输入到信号组合器940，该信号组合器940将上混高频带立体声信号922和多声道填充高频带传输信号932以及传输信号的低频带表示972进行组合，从而生成全频带多声道信号942。
[0155]
解码lb信号1414和bwe 1470的参数1415被输入到acelp bwe解码器910以生成解码高频带信号912。映射侧边增益1462(例如，针对低频带频谱区域的经映射和平滑的侧边增益755)被输入到dft立体声块1430，并且针对整个高频带的经映射和平滑的单侧边增益被转发到高频带上混块920和立体声填充块930。用于使用高频带侧边增益1472(例如，输出时间帧262的来自第二参数集114的参数532)对解码hb信号912进行上混的hb上混块920生成上混高频带信号922。用于填充解码高频带传输信号912、902的立体声填充块930使用输出时间帧262的来自第二参数集114的参数532、456，并生成高频带填充传输信号932。
[0156]
总之，根据本发明的实施例创建了用于使用参数转换和/或使用带宽扩展和/或使用参数平滑来处理编码音频场景(这导致总延迟、可实现的音频质量和实现努力之间的折衷改进)的构思。
[0157]
随后，示出了本发明各方面并且具体地本发明各方面的组合的其他实施例。所提出的用于实现低延迟上混的解决方案是通过使用参数立体声方法，例如[4]中描述的方法使用短时傅立叶变换(stft)滤波器组而不是dirac渲染器。在该“dft立体声”方法中，描述了一个下混声道到立体声输出的上混。该方法的优点是具有非常短重叠的窗口用于解码器
处的dft分析，其允许保持在通信编解码器(如evs[3])或即将到来的ivas编解码器所需的低得多的总延迟(32ms)内。此外，与dirac cldfb不同，dft立体声处理不是核心编码器的后处理步骤，而是与核心处理的一部分(即，代数码本激励线性预测(acelp)语音编码器的带宽扩展(bwe))并行操作，而不超过该已经给定的延迟。相对于evs的32ms延迟，dft立体声处理因此可以被称为无延迟，因为它在相同的总编码器延迟下操作。另一方面，dirac可以被视为后处理器，该后处理器由于cldfb将总延迟延长至37ms而导致附加5ms的延迟。
[0158]
通常，实现了延迟增益。低延迟来自与核心处理并行发生的处理步骤，而示例性cldfb版本是用于在核心编码之后进行所需的渲染的后处理步骤。
[0159]
与dirac不同，通过仅使用具有3.125ms(符合可用的余量)的非常短重叠的窗口将除了acelp bwe之外的所有分量变换到dft域中，dft立体声针对这些分量使用3.25ms的人工延迟，而不造成更多延迟。因此，仅tcx和acelp(没有bwe)在频域中进行上混，而acelp bwe通过被称为声道间带宽扩展(icbwe)[5]的单独无延迟处理步骤在时域中进行上混。在给定实施例的特殊立体声输出情况下，该时域bwe处理略有变化，这将在实施例的末尾进行描述。
[0160]
发送的dirac参数不能直接用于dft立体声上混。因此，给定dirac参数到对应dft立体参数的映射变得有必要。虽然dirac将方位角和仰角以及扩散参数一起用于空间放置，但dft立体声具有用于平移的单侧边增益参数和与立体声宽度密切相关并因此与dirac的扩散参数密切相关的残差预测参数。在参数分辨率方面，每个帧被划分成两个子帧以及每个子帧被划分成若干个频带。[6]中描述了在dft立体声中使用的侧边增益和残差增益。
[0161]
dirac参数是从对最初处于b格式或foa的音频场景的按频带分析导出的。然后，它针对每个频带k和时间实例n导出方位角θ(b.n)和仰角的主要到达方向以及扩散因子ψ(b,n)。对于方向分量，给出了中心位置处的一阶球面谐波可以通过全向分量w(b,n)和dirac参数导出：
[0162][0163][0164][0165][0166]
此外，从foa声道可以通过涉及w和y的解码来获得立体声版本，这导致两个心形指向方位角+90和
–
90度。
[0167][0168]
该解码对应于指向两个方向的一阶波束成形。
[0169][0170]
因此，立体声输出和dirac参数之间存在直接关联。另一方面，dft参数依赖于基于中间信号m和侧信号s的l声道和r声道的模型。
[0171][0172]
m是作为单声道发送的，并且在sba模式的情况下对应于全向声道w。在dft立体声中，s是使用侧边增益从m预测的，然后该侧边增益可以使用dirac参数被表示如下：
[0173][0174]
在dft立体声中，预测的残差被假设并预期是不相干的，并且通过其能量和去往左声道和右声道的去相关残差信号来建模。s的预测残差(利用m)可以被表示为：
[0175]
r(b)＝s(b)-sidegain[b]m(b)
[0176]
并且其能量使用预测增益在dft立体声中被建模如下：
[0177]
||r(b)||2＝respred[b]||m(b)||2[0178]
由于残差增益表示立体声信号的声道间不相干分量和空间宽度，因此它直接关联到由dirac建模的扩散部分。因此，残余能量可以重写为dirac扩散参数的函数：
[0179]
||r(b)||2＝ψ(b)||m(b)||2[0180]
由于通常使用dft立体声的频带配置与dirac不同，因此必须对其进行调整以覆盖与dirac频带相同的频率范围。对于这些频带，dirac的方向角然后可以经由下式被映射到dft立体声的侧边增益参数
[0181][0182]
其中，b是当前频带，并且参数范围对于方位角是[0；360]，对于仰角是[0；180]，以及对于所得侧边增益值是[-1；1]。然而，dirac的方向参数通常具有比dftstereo高的时间分辨率，这意味着必须使用两个或更多个方位角和仰角值来计算一个侧边增益值。一种方法是在子帧之间进行平均，但在该实现中，计算是基于能量相关权重。对于所有k个dirac子帧，子帧的能量被计算如下
[0183][0184]
其中，x是时域输入信号，n是每个子帧中的样本数量，以及i是样本索引。对于每个dft立体声子帧l，每个dirac子帧k在l内的贡献的权重然后可以被计算为：
[0185][0186]
然后侧边增益最终被计算为：
[0187][0188]
由于参数之间的相似度，每个频带的一个扩散值被直接映射到同一频带中所有子帧的残差预测参数。
[0189]
respred[l][b]＝diffuseness[b]
[0190]
此外，参数随时间被平滑以避免增益的强烈波动。由于这在大多数时间需要相对较强的平滑，但每当场景突然改变时需要更快的响应，因此自适应地计算用于确定平滑强度的平滑因子。该自适应平滑因子是根据当前频带中能量的变化按频带计算的。因此，必须首先计算所有子帧k中的按频带的能量：
[0191][0192]
其中，x是经dft变换的信号的频率区间(实部和虚部)，并且i是当前频带b中所有区间上的区间索引。
[0193]
为了捕捉能量随时间的变化，然后根据下式针对每个频带b计算两个平均值(一个短期平均值和一个长期平均值)：
[0194][0195]
以及
[0196][0197]
其中，n
short
和n
long
是先前子帧k的数量，针对这些子帧计算各个平均值。在该特定实现中，n
short
设置为3，并且n
long
设置为10。然后根据平均值的商来计算平滑因子，使得较高
短期平均值(指示能量的近期增加)导致平滑的降低：
[0198][0199]
指示能量减少的较高长期平均值不会导致平滑降低，因此平滑因子现在设置为最大值1。
[0200]
上述公式将最小值限制为fac
smooth
[b]至(在该实现中为0.3)。然而，在极端情况下，该因子必须接近0，这就是经由下式将值从范围转换为范围[0；1]的原因：
[0201][0202]
对于不太极端的情况，平滑现在被过度降低，因此因子通过根函数向值1压缩。由于稳定性在最低频带中尤其重要，因此在频带b＝0和b＝1中使用4次方根：
[0203][0204]
而所有其他频带b》1都按平方根压缩
[0205][0206]
通过这种方式，极端情况保持接近于0，而不太快的能量增加不会如此强烈地降低平滑。
[0207]
最后，取决于频带来设置最大平滑(因子1将简单地重复先前值，而没有当前增益的贡献)：
[0208]
fac
smooth
[b]＝min(fac
smooth
[b],bounds[b])
[0209]
其中，bounds[b]在具有5个频带的给定实现方式中根据下表来设置
[0210]
b界限[b]00.9810.9720.9530.940.9
[0211]
针对当前帧中的每个dft立体声子帧k计算平滑因子。
[0212]
在最后的步骤中，侧边增益和残差预测增益两者根据下式进行递归平滑
[0213]gside
[k][b]＝fac
smooth
[k][b]g
side
[k-1][b]+(1-fac
smooth
[k][b])g
side
[k][b]
[0214]
以及
[0215]gpred
[k][b]＝fac
smooth
[k][b]g
pred
[k-1][b]+(1-fac
smooth
[k][b])g
pred
[k][b]
[0216]
这些经映射和平滑的参数现在被馈送到dft立体声处理，其中，立体声信号l/r从下混dmx、残差预测信号pred(通过“增强立体声填充”使用全通滤波器[7]或通过常规立体声填充使用延迟从下混中获得”)以及映射参数g
side
和g
pred
生成。上混通常由以下公式[6]来描述：
[0217]
l[k][b][i]＝(1+g
side
[k][b])dmx[k][b][i]+g
pred
[k][b]g
norm
pred[k][b][i]
[0218]
以及
[0219]
r[k][b][i]＝(1-g
side
[k][b])dmx[k][b][i]-g
pred
[k][b]g
norm
pred[k][b][i]
[0220]
对于每个子帧k，频带b中的所有区间i。此外，每个侧边增益g
side
由由能量归一化因子g
norm
来加权，该能量归一化因子是根据dmx和pred的能量来计算的。
[0221]
最后，上混信号经由idft变换回时域，以在给定立体声设置上回放。
[0222]
由于在acelp中使用的“时域带宽扩展”(tbe)[8]会生成其自己的延迟(在实现中，该实施例恰好基于2.3125ms)，因此它无法被变换到dft域，同时保持在32ms总延迟(其中，3.25ms留给stft已经使用3.125ms的立体声解码器)内。因此，仅低频带(lb)被输入到由图14中的1450指示的dft立体声处理，而高频带(hb)必须在时域中单独地上混，如图14中的块920中所示。在常规dft立体声中，这是经由声道间带宽扩展(icbwe)[5]进行平移加上时域立体声填充环境来进行的。在给定情况下，块930中的立体声填充以与常规dft立体声中相同的方式进行计算。然而，由于缺少参数，icbwe处理被完全跳过，并且基于经映射的侧边增益1472被需要在块920中进行宽带平移的低资源所取代。在给定实施例中，仅存在覆盖整个hb区域的单个增益，这简化了块920中从下混声道到下式的左hb声道和右hb声道的计算，
[0223]
hb
left
[k][i]＝hb
dmx
[k][i]+g
side,hb
[k]*hb
dmx
[k][i]
[0224]
以及
[0225]
hb
right
[k][i]＝hb
dmx
[k][i]-sidegain
hb
[k]*hb
dmx
[k][i]
[0226]
对于每个子帧k中的每个样本i。
[0227]
在块930中通过延迟hb
dmx
并通过g
side,hb
和能量归一化因子g
norm
进行加权来获得hb立体声填充信号pred
hb
[0228]
pred
hb,left
[i]＝g
pred,hb
*g
norm
*hb
dmx
[i-d]
[0229]
以及
[0230]
pred
hb,right
[i]＝-g
pred,hb
*g
norm
*hb
dmx
[i-d]
[0231]
对于当前帧中的每个样本i(在完整帧而不是子帧上进行)，并且其中，d是针对填充信号延迟hb下混的样本数量。
[0232]
在组合器940中进行dft合成之后，经平移的立体声信号和所生成的立体声填充信号两者最终混合回核心信号。
[0233]
acelp hb的这种特殊处理也与较高延迟的dirac处理形成对比，在该较高延迟的dirac处理中，acelp核心和tcx帧被人工延迟以便与acelp hb对齐。在那里，对完整信号执行cldfb，即，acelp hb的上混也是在cldfb域中进行的。
[0234]
所提出方法的优点
[0235]
对于这种sba被输入到立体声输出的特殊情况，没有附加延迟允许ivas编解码器保持与evs相同的总延迟(32ms)。
[0236]
由于总体上更简单、更直接的处理，经由dft进行的参数化立体声上混比空间
dirac渲染的复杂度要低得多。
[0237]
其他优选实施方案
[0238]
1.一种如前所述的用于编码或解码的装置、方法或计算机程序。
[0239]
2.一种用于编码或解码的装置或方法或相关的计算机程序，包括：
[0240]
●
系统，其中，输入利用基于声音场景的空间音频表示的模型使用第一参数集进行编码，并在输出处利用针对两个输出声道的立体声模型或针对多于两个输出声道的多声道模型使用第二参数集进行解码；和/或
[0241]
●
空间参数到立体声参数的映射；和/或
[0242]
●
从基于一个频域的输入表示/参数到基于另一频域的输出表示/参数的转换；和/或
[0243]
●
具有较高时间分辨率的参数到具有较低时间分辨率的参数的转换；和/或
[0244]
●
由于第二频率变换的较短窗口重叠而导致较低的输出延迟；和/或
[0245]
●
将dirac参数(方向角、扩散)映射到dft立体声参数(侧边增益、残差预测增益)以将sba dirac编码内容输出为立体声；和/或
[0246]
●
从基于cldfb的输入表示/参数到基于dft的输出表示/参数的转换；和/或
[0247]
●
具有5ms分辨率的参数到具有10ms分辨率的参数的转换；和/或
[0248]
●
益处：与cldfb相比，由于dft的窗口重叠更短，因此输出延迟更低。
[0249]
这里要提及的是，之前讨论的所有替代方案或方面以及由所附权利要求中的独立权利要求定义的所有方面可以被单独使用，即，没有与所设想的替代方案、目标或独立权利要求不同的任何其他替代方案或目标。然而，在其他实施例中，两个或更多个备选方案或方面或独立权利要求可以彼此组合，并且在其他实施例中，所有方面或备选方案和所有独立权利要求可以彼此组合。
[0250]
将概述的是，本发明的不同方面涉及参数转换方面、平滑方面和带宽扩展方面。在如上所述的实施例中，这些方面可以彼此单独或独立地实现，或者至少三个方面中的任意两个方面可以组合或者所有三个方面可以组合。
[0251]
本发明的编码信号可以存储在数字存储介质或非暂时性存储介质上，或者可以在诸如无线传输介质或诸如互联网的有线传输介质的传输介质上传输。
[0252]
虽然已经在装置的上下文中描述了一些方面，但是将清楚的是，这些方面还表示对应方法的描述，其中，块或设备对应于方法步骤或方法步骤的特征。类似地，在方法步骤上下文中描述的方面也表示对相应块或项或者相应装置的特征的描述。
[0253]
取决于某些实现要求，可以在硬件中或在软件中实现本发明的实施例。实现方式可以使用其上存储有电子可读控制信号的数字存储介质(例如，软盘、dvd、cd、rom、prom、eprom、eeprom或flash存储器)来执行，与可编程计算机系统协作(或能够协作)，使得执行相应方法。
[0254]
根据本发明的一些实施例包括具有电子可读控制信号的数据载体，其能够与可编程计算机系统协作以便执行本文所述的方法之一。
[0255]
通常，本发明的实施例可以实现为具有程序代码的计算机程序产品，程序代码可操作以在计算机程序产品在计算机上运行时执行方法之一。程序代码可以例如存储在机器可读载体上。
[0256]
其他实施例包括存储在机器可读载体或非暂时性存储介质上的用于执行本文描述的方法之一的计算机程序。
[0257]
换言之，本发明方法的实施例因此是具有程序代码的计算机程序，该程序代码用于当计算机程序在计算机上运行时执行本文所述的方法之一。
[0258]
因此，本发明方法的另一实施例是其上记录有计算机程序的数据载体(或者数字存储介质或计算机可读介质)，该计算机程序用于执行本文所述的方法之一。
[0259]
因此，本发明方法的另一实施例是表示计算机程序的数据流或信号序列，所述计算机程序用于执行本文所述的方法之一。数据流或信号序列可以例如被配置为经由数据通信连接(例如，经由互联网)传送。
[0260]
另一实施例包括处理装置，例如，计算机或可编程逻辑器件，所述处理装置被配置为或适于执行本文所述的方法之一。
[0261]
另一实施例包括其上安装有计算机程序的计算机，该计算机程序用于执行本文所述的方法之一。
[0262]
在一些实施例中，可编程逻辑器件(例如，现场可编程门阵列)可以用于执行本文所述的方法的功能中的一些或全部。在一些实施例中，现场可编程门阵列可以与微处理器协作以执行本文所述的方法之一。通常，方法优选地由任意硬件装置来执行。
[0263]
上述实施例对于本发明的原理仅是说明性的。应当理解的是，本文所述的布置和细节的修改和变形对于本领域其他技术人员将是显而易见的。因此，旨在仅由所附专利权利要求的范围来限制而不是由借助对本文的实施例的描述和解释所给出的具体细节来限制。
[0264]
参考书目或参考文献
[0265]
[1]v.pulkki,m.-v.v.j.laitinen,j.ahonen,t.lokki and t."directional audio coding-perception-based reproduction of spatial sound,"in international workshop on the principles and application on spatial hearing,2009.
[0266]
[2]g.fuchs,o.thiergart,s.korse,s.m.multrus,f.k
ü
ch,bouth
é
on,a.eichenseer and s.bayer,"apparatus,method and computer program for encoding,decoding,scene processing and other procedures related to dirac based spatial audio coding using low-order,mid-order and high-order components generators".wo patent 2020115311a1,11 06 2020.
[0267]
[3]3gpp ts 26.445,codec for enhanced voice services (evs)；detailed algorithmic description.
[0268]
[4]s.bayer,m.dietz,s.e.fotopoulou,g.fuchs,w.jaegers,g.markovic,m.multrus,e.ravelli and m.schnell,"apparatus and method for estimating an inter-channel time difference".patent wo17125563,27 07 2017.
[0269]
[5]v.s.c.s.chebiyyam and v.atti,"inter-channel bandwidth extension".wo patent 2018187082a1,11 10 2018.
[0270]
[6]j.b
ü
the,g.fuchs,w.f.reutelhuber,j.herre,e.fotopoulou,
m.multrus and s.korse,"apparatus and method for encoding or decoding a multichannel signal using a side gain and a residual gain".wo patent wo2018086947a1,17 05 2018.
[0271]
[7]j.b
ü
the,f.reutelhuber,s.disch,g.fuchs,m.multrus and r.geiger,"apparatus for encoding or decoding an encoded multichannel signal using a filling signal generated by a broad band filter".wo patent wo2019020757a2,31 01 2019.
[0272]
[8]v.a.e.al.,"super-wideband bandwidth extension for speech in the 3gpp evs codec,"in ieee international conference on acoustics,speech and signal processing(icassp),brisbane,2015。

技术特征：
1.一种用于处理表示与虚拟听者位置相关的声场的编码音频场景(130)的装置，所述编码音频场景(130)包括关于传输信号(122)的信息和与所述虚拟听者位置相关的第一参数集(112)，所述装置包括：参数转换器(110)，用于将所述第一参数集(112)转换为第二参数集(114)，所述第二参数集(114)与包括两个或更多个声道的声道表示相关，用于在预定义空间位置处再现所述两个或更多个声道；以及输出接口(120)，用于使用所述第二参数集(114)和关于所述传输信号(122)的信息来生成经处理的音频场景(124)。2.根据权利要求1所述的装置，其中，所述输出接口(120)被配置用于使用所述第二参数集(114)将所述传输信号(122)上混为包括所述两个或更多个声道的上混信号。3.根据权利要求1所述的装置，其中，所述输出接口(120)被配置为通过如下方式生成所述经处理的音频场景(124)：将所述传输信号(122)或关于所述传输信号(122)的信息与所述第二参数集(114)进行组合，以获得经转码的音频场景作为所述经处理的音频场景(124)。4.根据前述权利要求之一所述的装置，其中，对于多个输入时间帧中的每个输入时间帧(210)以及对于多个输入频带(230)中的每个输入频带(231)，所述第一参数集(112)包括至少一个dirac参数，其中，所述参数转换器(110)被配置为计算所述第二参数集(114)作为参数立体声或多声道参数。5.根据权利要求4所述的装置，其中，所述至少一个参数包括到达方向参数、扩散参数、与以虚拟收听位置作为球体原点的球体相关的方向信息参数、以及距离参数中的至少一个，以及其中，所述参数立体声或多声道参数包括侧边增益参数(455)、残差预测增益参数(456)、声道间电平差参数、声道间时间差参数、声道间相位差参数和声道间相干性参数中的至少一个。6.根据前述权利要求之一所述的装置，其中，与所述第一参数集(112)相关的输入时间帧(210)包括两个或更多个输入时间子帧，并且其中，与所述第二参数集(114)相关的输出时间帧(220)小于所述输入时间帧(210)且长于所述两个或更多个输入时间子帧中的输入时间子帧，以及其中，所述参数转换器(110)被配置为：计算在时间上相继的所述两个或更多个输入时间子帧中的每个输入时间子帧的第二参数集(114)的原始参数(252)，并且组合至少两个原始参数以导出所述第二参数集(114)中与输出子帧相关的参数。7.根据权利要求6所述的装置，其中，所述参数转换器(110)被配置为执行所述至少两个原始参数的加权组合，其中，针对所述加权组合的加权因子基于所述传输信号(122)在对应输入时间子帧中的幅度相关测量(320)来导出。8.根据权利要求7所述的装置，其中，所述参数转换器(110)被配置为使用能量或功率作为所述幅度相关测量(320)，并且其中，与针对所述传输信号(122)在所述对应输入时间子帧中的能量或功率较低的输入子帧的加权因子相比，在所述传输信号(122)在所述对应
输入时间子帧中的能量或功率较高的情况下，针对所述输入子帧的加权因子更大。9.根据前述权利要求之一所述的装置，其中，所述参数转换器(110)被配置为使用针对所述输入时间帧(210)的所述第一参数集(112)中的至少一个参数来计算针对每个输出时间帧(220)的至少一个原始参数(252)，其中，所述参数转换器(110)被配置为根据平滑规则来计算针对每个原始参数(252)的平滑因子(512；522)，以及其中，所述参数转换器(110)被配置为将对应平滑因子(512；522)应用于对应原始参数(252)，以导出针对所述输出时间帧(220)的所述第二参数集(114)中的所述参数。10.根据权利要求9所述的装置，其中，所述参数转换器(110)被配置为：对所述传输信号(122)的第一时间部分的幅度相关测量(320)计算长期平均值(332)，以及对所述传输信号(122)的第二时间部分的幅度相关测量(320)计算短期平均值(331)，其中，所述第二时间部分短于所述第一时间部分，以及基于所述长期平均值(332)和所述短期平均值(331)之间的比率来计算平滑因子(512；522)。11.根据权利要求9或10所述的装置，其中，所述参数转换器(110)被配置为使用压缩函数(540)来计算频带的平滑因子(512；522)，所述压缩函数对于不同的频带是不同的，并且其中，所述压缩函数对于较低频带的压缩强度强于所述压缩函数对于较高频带的压缩强度。12.根据权利要求9至11之一所述的装置，其中，所述参数转换器(110)被配置为使用针对不同频带的不同最大界限来计算所述平滑因子(512；522)，其中，针对较低频带的最大界限高于针对较高频带的最大界限。13.根据权利要求9至12之一所述的装置，其中，所述参数转换器(110)被配置为对时间相继的输出时间帧应用递归平滑规则(710)作为所述平滑规则，使得针对当前输出时间帧(220)的平滑参数通过将针对由第一加权值加权的前一输出时间帧(220)的所述参数和针对由第二加权值加权的当前输出时间帧(220)的原始参数(252)进行组合来计算，其中，所述第一加权值和所述第二加权值是从针对所述当前时间帧的平滑因子(512；522)导出的。14.根据前述权利要求之一所述的装置，其中，所述输出接口(120)被配置为：执行从所述传输信号(122)对应于输出时间帧(220)的时间部分到频谱表示的转换，其中，所述部分短于输入时间帧(210)，在所述输入时间帧(210)中组织了所述第一参数集(112)中的所述参数，使用所述第二参数集(114)来执行所述频谱表示的上混操作，以获得所述频谱表示中的所述两个或更多个声道；以及将所述频谱表示中的所述两个或更多个声道中的每个声道转换为时间表示。15.根据权利要求14所述的装置，其中，所述输出接口(120)被配置为：转换为复数离散傅立叶变换域，在所述复数离散傅立叶变换域中执行所述上混操作，以及执行从所述复数离散傅立叶变换域到实数值时域表示的转换。16.根据权利要求14或15所述的装置，其中，所述输出接口(120)被配置为基于以下等
式执行所述上混操作：以及其中，是针对帧t和频率区间k的传输信号(122)，其中，是针对所述帧t和子带b的侧边增益，其中，是针对所述帧t和所述子带b的残差预测增益，其中，g
norm
是可有可无的能量调整因子，以及其中，是针对所述帧t和所述频率区间k的原始残差信号。17.根据前述权利要求之一所述的装置，其中，所述第一参数集(112)是针对输入频带(231)的到达方向参数，并且其中，所述第二参数集(114)包括针对每个输入频带(231)的侧边增益参数(455)，以及其中，所述参数转换器(110)被配置为使用以下等式来计算针对输出频带(241)的侧边参数：其中，b是所述输出频带(241)，其中，sidegain是所述侧边增益参数(455)，其中，azimuth是所述到达方向参数的方位角分量，以及其中，elevation是所述到达方向参数的仰角分量。18.根据权利要求17所述的装置，其中，所述第一参数集(112)附加地包括针对所述输入频带(231)的扩散参数，并且其中，所述参数转换器(110)被配置为使用以下等式来计算针对所述输出频带(241)的侧边参数其中，diff(b)是针对所述输入频带(231)b的扩散参数。19.根据前述权利要求之一所述的装置，其中，所述第一参数集(112)包括针对每个输入频带(231)的扩散参数，以及其中，所述第二参数集(114)包括针对所述输出频带(241)的残差预测参数(456)，以及
其中，当所述输入参数频带和所述输出参数频带彼此相等时，所述参数转换器(110)将使用来自所述输入参数频带的扩散参数作为针对所述输出参数频带的残差预测参数(456)，或者从针对所述输入参数频带的扩散参数导出针对所述输出参数频带的扩散参数，然后使用针对所述输出参数频带的扩散参数作为针对所述输出参数频带的残差预测参数(456)。20.根据权利要求14至19之一所述的装置，其中，关于所述传输信号(122)的信息包括核心编码音频信号，并且其中，所述装置还包括：核心解码器，用于对所述核心编码音频信号进行核心解码以获得所述传输信号(122)。21.根据权利要求20所述的装置，其中，所述核心解码器位于acelp解码器中，或其中，所述输出接口(120)被配置为：将作为低频带信号的传输信号(122)转换为频谱表示，对所述频谱表示进行上混，以及在时域中转换经上混的频谱表示以获得所述两个或更多个声道的低频带表示，其中，所述装置包括带宽扩展处理器(910)，用于在时域中从所述传输信号(122)生成高频带信号，其中，所述装置包括多声道填充器(930)，用于在时域中对所述传输信号(122)应用多声道填充操作，其中，所述装置包括上混器(920)，用于使用来自所述第二参数集(114)的至少一个参数在时域中对所述高频带信号应用宽带平移，以及其中，所述装置包括信号组合器(940)，用于在时域中将所述宽带平移的结果、立体声填充的结果、以及所述两个或更多个声道的低频带表示进行组合，以在时域中获得全频带多声道信号作为所述声道表示。22.根据前述权利要求之一所述的装置，其中，所述装置还包括：其中，所述输出接口(120)被配置为使用所述第二参数集(114)和所述传输信号(122)来生成所述两个或更多个声道的原始表示，以及其中，所述装置还包括多声道增强器(990)，用于使用所述传输信号(122)来生成所述两个或更多个声道的增强表示，以及其中，所述装置还包括信号组合器(940)，用于将所述两个或更多个声道的原始表示和所述两个或更多个声道的增强表示进行组合以获得所述经处理的音频场景(124)。23.根据权利要求22所述的装置，其中，所述多声道增强器(990)被配置用于使用增强传输信号(822)和所述第二参数集(114)来生成所述两个或更多个声道的增强表示(992)，或其中，所述多声道增强器(990)包括用于生成增强传输信号(822)的传输信号增强器(820)和用于对所述增强传输信号(822)进行上混的上混器。24.根据权利要求23所述的装置，其中，所述传输信号(122)是编码传输信号，并且其中，所述装置还包括：传输信号核心解码器(810)，用于生成解码原始传输信号，其中，所述传输信号增强器(820)被配置用于使用所述解码原始传输信号来生成所述增强传输信号，以及其中，所述输出接口(120)被配置为使用所述第二参数集(114)和所述解码原始传输信
号来生成所述两个或更多个声道的原始表示。25.根据权利要求22或权利要求23或权利要求24所述的装置，其中，所述多声道增强器(990)包括：所述上混器或多声道填充器(930)，或者所述上混器和所述多声道填充器(930)两者，用于使用所述传输信号(122)或所述增强传输信号(822)和所述第二参数集(114)中的至少一个参数来生成所述两个或更多个声道的增强表示。26.根据权利要求22、23、24或25之一所述的装置，其中，所述输出接口(120)被配置为在第二域中使用上混来生成所述两个或更多个声道的原始表示，其中，所述传输信号增强器(820)被配置用于在不同于所述第二域的第一域中生成所述增强传输信号(822)，或者其中，所述多声道增强器(990)被配置用于在所述第一域中使用所述增强传输信号(822)来生成所述两个或更多个声道的增强表示，以及其中，所述信号组合器(940)被配置为在所述第一域中将所述两个或更多个声道的原始表示和所述两个或更多个声道的增强表示进行组合。27.根据权利要求26所述的装置，其中，所述第一域是时域，并且所述第二域是频域。28.根据权利要求22至27之一所述的装置，其中，所述传输信号增强器(820)或所述多声道增强器(990)被配置为执行包括带宽扩展操作、间隙填充操作、质量增强操作或内插操作的一组操作中的至少一种操作。29.根据权利要求22至28之一所述的装置，其中，所述传输信号增强器(820)或所述多声道增强器(990)被配置为在生成所述原始表示时与所述输出接口(120)并行操作，或其中，所述参数转换器(110)被配置为与所述传输信号增强器(820)并行操作。30.根据权利要求24至29之一所述的装置，其中，所述核心解码器被配置为在两个并行分支中馈送所述解码原始传输信号，所述两个并行分支中的第一分支包括所述输出接口(120)，并且所述两个并行分支中的第二分支包括所述传输信号增强器(820)或所述多声道增强器(990)或两者，并且其中，所述信号组合器(940)被配置为接收来自所述第一分支的要组合的第一输入和来自所述第二分支的要组合的第二输入。31.根据权利要求1至30之一所述的装置，其中，所述输出接口(120)被配置为：执行从所述传输信号(122)对应于输出时间帧(220)的时间部分到频谱表示的转换；使用所述第二参数集(114)来执行所述频谱表示的上混操作，以获得所述频谱表示中的所述两个或更多个声道；以及将所述频谱表示中的所述两个或更多个声道中的每个声道转换为时间表示以获得所述两个或更多个声道的原始时间表示，以及其中，所述信号组合器(940)被配置用于将所述两个或更多个声道的所述原始时间表示和所述两个或更多个声道的增强时间表示进行组合。32.一种用于处理表示与虚拟听者位置相关的声场的编码音频场景的方法，所述编码音频场景包括关于传输信号的信息和与所述虚拟听者位置相关的第一参数集，所述方法包括：将所述第一参数集转换为第二参数集，所述第二参数集与包括两个或更多个声道的声道表示相关，用于在预定义空间位置处再现所述两个或更多个声道；以及使用所述第二参数集和关于所述传输信号的信息来生成经处理的音频场景。
33.一种计算机程序，当运行在计算机或处理器上时，用于执行根据权利要求32所述的方法。

技术总结
一种用于处理表示与虚拟听者位置相关的声场的编码音频场景(130)的装置，该编码音频场景包括关于传输信号(122)的信息和与虚拟听者位置相关的第一参数集(112)，所述装置包括：参数转换器(110)，用于将第一参数集(112)转换为第二参数集(114)，该第二参数集(114)与包括两个或更多个声道的声道表示相关，用于在预定义空间位置处再现两个或更多个声道；以及输出接口(120)，用于使用第二参数集和关于传输信号(122)的信息来生成经处理的音频场景(124)。号(122)的信息来生成经处理的音频场景(124)。号(122)的信息来生成经处理的音频场景(124)。

技术研发人员：弗伦茨
受保护的技术使用者：弗劳恩霍夫应用研究促进协会
技术研发日：2021.10.08
技术公布日：2023/8/4

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

上一篇：用于NAND闪速存储器的方法和装置与流程 下一篇：具有改性脂肪酸酯分布的聚山梨醇酯混合物的制作方法

使用参数转换来处理编码音频场景的装置、方法或计算机程序与流程

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

使用参数转换来处理编码音频场景的装置、方法或计算机程序与流程

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表