一种耳机虚拟声像头外化方法

未命名 07-23 阅读：125 评论：0

1.本发明涉及空间音频技术领域，尤其是一种耳机虚拟声像头外化方法。

背景技术：

2.耳机虚拟声技术旨在使用标准立体声重现环绕声或立体声。为了创建更令人沉浸的音频体验，通过设计适当的双耳房间脉冲响应(brir)来营造空间感。brir表征了给定房间中的声源到达人耳耳膜的电声系统的脉冲响应。一般地，brir被分为三个部分，第一部分为直达声部分，表示在消声室内声源到人耳耳膜的脉冲响应，通常持续时间为5ms或者更短；第二部分为早期反射声部分，由一系列来自墙壁、地板、天花板等的离散反射组成，可以在直达声后的几毫秒内观察到；第三部分为漫反射声部分，在直达声后约80ms观察到，由高密度的反射组成，它决定了用户在听觉上对房间的整体印象。在理想的brir测量和耳机收听条件下，基于物理房间测量的brir渲染的双耳音频可以让用户完全丧失他们正在佩戴耳机的意识。然而，基于物理房间的brir测量，即使在不考虑个性化的情况下，在物理房间借助人工来真实测量所有可能位置的brir都是不现实的。因此，在实际的应用中，通常采用人工合成的brir进行双耳重放，但当前所采用人工合成的brir无法很好的重现双耳重放时所需要的空间信息，会极大地影响双耳重放时的头外声像效果。

技术实现要素：

3.有鉴于此，本发明的主要目的在于提供一种耳机虚拟声像头外化方法，以ild波动构建目标函数，确定令目标函数最大的一组随机时延作为优化的随机时延加入brir反射声部分，得到优化的brir用以渲染声源，增强了耳机双耳重放时的头外声像效果。
4.为达到上述目的，本技术提供了一种耳机虚拟声像头外化方法，包括：
5.生成多组随机时延；
6.去除双耳房间脉冲响应brir中声源到双耳的传输延时，得到的信号记为brir
lt
和brir
rt
；将多组随机时延分别加入brir
lt
和brir
rt
的反射声部分，分别得到的多组信号，每组信号记为brir
lt.pro
和brir
rt.pro
；
7.将声源信号分别与各组brir
lt.pro
和brir
rt.pro
卷积，得到多组双耳信号；将各组双耳信号分别通过分析滤波器组进行频带划分，每组双耳信号划分为n组窄带信号；分别计算每组双耳信号所划分出各组窄带信号的双耳声级差波动ild tsd；
8.基于ild tsd构建目标函数e:
[0009][0010]
其中，为一组双耳信号的第i组窄带信号的ild tsd；
[0011]
将各ild tsd代入目标函数，分别算得各组双耳信号对应的目标函数值，并取算得的多个目标函数值中的最大值；
[0012]
将在得到最大值对应的双耳信号时所采用的brir
lt.pro
和brir
rt.pro
中，所加入的一
组随机时延，作为优化的随机时延；
[0013]
在brir的反射声部分加入优化的随机时延，得到优化的brir；
[0014]
将声源信号与优化的brir卷积。
[0015]
在一个可能的实现中，所述将多组随机时延分别加入brir
lt
和brir
rt
的反射声部分前还包括：
[0016]
分别提取brir
lt
和brir
rt
的反射声部分，记为brir
lt,reflect
和brir
rt.reflect
；
[0017]
通过分析滤波器组，将brir
lt.reflect
分解为24个brir
lt,reflect
子带信号，将brir
rt.reflect
分解为24个brir
rt.reflect
子带信号。
[0018]
在另一个可能的实现中，所述将任一组随机时延分别加入brir
lt
和brir
rt
的反射声部分得到一组信号包括：
[0019]
分别将该组随机延迟所含与各brir
lt.reflect
子带信号对应的随机时延，加入各brir
lt.reflect
子带信号，并将加入随机时延的24个brir
lt.reflect
子带信号通过合成滤波器组恢复到全频段左耳反射声部分，记为brir
′
lt.reflect
；拼接brir
lt.dir
和brir
′
lt.reflect
，得到brir
lt.pro
；
[0020]
分别将该组随机延迟所含与各brir
rt.reflect
子带信号对应的随机时延，加入各brir
rt.reflect
子带信号，并将加入随机时延的24个brir
rt.reflect
子带信号通过合成滤波器组恢复到全频段右耳反射声部分，记为brir
′
rt.reflect
；拼接brir
rt.dir
和brir
′
rt.reflect
，得到brir
rt.pro
；
[0021]
其中，brir
lt.dir
为brir
lt
的直达声部分；brir
rt.dir
为brir
rt
的直达声部分。
[0022]
在另一个可能的实现中，所述将任一组双耳信号通过分析滤波器组划分为n组窄带信号，具体为：
[0023]
将左耳信号通过分析滤波器组进行频带划分，并将划分所得各信号经半波整流和低通滤波后，得到n个左耳窄带信号；
[0024]
将右耳信号通过分析滤波器组进行频带划分，并将划分所得各信号经半波整流和低通滤波后，得到n个右耳窄带信号；
[0025]
将相对应的任一组左、右耳窄带信号作为一组窄带信号，得到n组窄带信号。
[0026]
在另一个可能的实现中，所述计算任一组窄带信号的ild tsd包括：
[0027]
分别计算该组窄带信号的左、右耳窄带信号的包络；
[0028]
将算得的左、右耳窄带信号包络相减，得到左、右耳窄带信号的ild；
[0029]
计算得到的左、右耳窄带信号的ild的标准差，作为该组窄带信号的ild tsd。
[0030]
在另一个可能的实现中，所述得到优化的brir包括：
[0031]
分别提取左、右耳brir的反射声部分，记为brir
l,reflect
和brir
r.reflect
；
[0032]
通过分析滤波器组，将brir
l.reflect
分解为24个brir
l,reflect
子带信号，将brir
r.reflect
分解为24个brir
r.reflect
子带信号；
[0033]
将优化的随机时延中与各brir
l.reflect
子带信号对应的随机时延，加入各brir
l.reflect
子带信号，并将加入随机时延的24个brir
l.reflect
子带信号通过合成滤波器组恢复到全频段左耳反射声部分，记为brir
′
l.reflect
；拼接brir
l.dir
和brir
′
l.reflect
，得到brir
l.pro
；
[0034]
将优化的随机时延中与各brir
rt.reflect
子带信号对应的随机时延，加入各
brir
r.reflect
子带信号，并将加入随机时延的24个brir
r.reflect
子带信号通过合成滤波器组恢复到全频段右耳反射声部分，记为brir
′
r.reflect
；拼接brir
r.dir
和brir
′
r.reflect
，得到brir
r.pro
；
[0035]
其中，brir
l.dir
为左耳brir的直达声部分；brir
r.dir
为右耳brir的直达声部分。
[0036]
在另一个可能的实现中，所述将声源信号分别与各组brir
lt.pro
和brir
rt.pro
卷积前还包括：
[0037]
分别对各组brir
lt.pro
和brir
rt.pro
直达声后10ms的反射声部分进行反射抑制。
附图说明
[0038]
图1为本发明实施例一种耳机虚拟声像头外化方法的流程示意图；
[0039]
图2为临界频带的最大延迟限制示意图。
具体实施方式
[0040]
本技术将brir的早期反射声部分和漫反射声部分合起来称为反射声部分。组成brir反射声部分的各反射到达人耳的时间不同，人工合成brir时，通过分别为brir反射声部分各反射加入随机时延，以模拟反射到达人耳相对于直达声的延迟时间。
[0041]
brir中包含了与头外声像效果相关的双耳线索，如双耳相关性(ic)、双耳声级差(ild，interaural level differences)。申请人发现ild波动(ild tsd，ild temporal standard deviation)，即ild随时间的波动情况，是衡量头外声像效果的一个良好指标，高的ild波动对应良好的虚拟声像头外化效果。由此，本发明以ild波动构建目标函数，生成多组随机时延，确定令目标函数最大的一组随机时延作为优化的随机时延加入brir反射声部分，得到优化的brir用以渲染声源，以增强耳机双耳重放时的头外声像效果。
[0042]
具体的，本发明实施例一种耳机虚拟声像头外化方法的流程如图1所示，包括步骤101～108。
[0043]
步骤101：生成多组随机时延。
[0044]
步骤102：去除双耳房间脉冲响应brir中声源到双耳的传输延时，得到的信号记为brir
lt
和brir
rt
；将多组随机时延分别加入brir
lt
和brir
rt
的反射声部分，分别得到的多组信号，每组信号记为brir
lt.pro
和brir
rt.pro
。
[0045]
步骤103：将声源信号分别与各组brir
lt.pro
和brir
rt.pro
卷积，得到多组双耳信号；将各组双耳信号分别通过分析滤波器组进行频带划分，每组双耳信号划分为n组窄带信号；分别计算每组双耳信号所划分出各组窄带信号的双耳声级差波动ild tsd。
[0046]
步骤104：基于ild tsd构建目标函数e:
[0047][0048]
其中，为一组双耳信号的第i组窄带信号的ild tsd。
[0049]
步骤105：将各ild tsd代入目标函数，分别算得各组双耳信号对应的目标函数值，并取算得的多个目标函数值中的最大值。
[0050]
步骤106：将在得到最大值对应的双耳信号时所采用的brir
lt.pro
和brir
rt.pro
中，所加入的一组随机时延，作为优化的随机时延。
[0051]
步骤107：将优化的随机时延加入brir的反射声部分，得到优化的brir。
[0052]
步骤108：将声源信号与优化的brir卷积。
[0053]
这里，步骤101中，多组随机延迟可以由随机延迟产生器生成，所述多组可以为500组。
[0054]
每组随机延迟均包括分别对应于brir
lt,reflect
子带信号和brir
rt,reflect
子带信号的共48个随机时延，且于各子带信号对应的随机时延，均不超过该子带信号的最大延迟限制，以防止产生可听伪影。所述子带为临界频带，brir
lt,reflect
子带信号和brir
rt,reflect
子带信号的最大延迟限制均如图2所示，一个频带编号对应一个子带信号。
[0055]
在一个可能的实现中，步骤102中，所述将多组随机时延分别加入brir
lt
和brir
rt
的反射声部分前还包括：
[0056]
分别提取brir
lt
和brir
rt
的反射声部分，记为brir
lt,reflect
和brir
rt.reflect
；
[0057]
通过分析滤波器组，将brir
lt.reflect
分解为24个brir
lt,reflect
子带信号，将brir
rt.reflect
分解为24个brir
rt.reflect
子带信号。
[0058]
这里，所述分析滤波器组通过gammatone滤波器组实现。
[0059]
相应的，步骤102中，所述将任一组随机时延分别加入brir
lt
和brir
rt
的反射声部分得到一组信号包括：
[0060]
分别将该组随机延迟所含与各brir
lt.reflect
子带信号对应的随机时延，加入各brir
lt.reflect
子带信号，并将加入随机时延的24个brir
lt.reflect
子带信号通过合成滤波器组恢复到全频段左耳反射声部分，记为brir
′
lt.reflect
；拼接brir
lt.dir
和brir
′
lt.reflect
，得到brir
lt.pro
；
[0061]
分别将该组随机延迟所含与各brir
rt.reflect
子带信号对应的随机时延，加入各brir
rt.reflect
子带信号，并将加入随机时延的24个brir
rt.reflect
子带信号通过合成滤波器组恢复到全频段右耳反射声部分，记为brir
′
rt.reflect
；拼接brir
rt.dir
和brir
′
rt.reflect
，得到brir
rt.pro
；
[0062]
其中，brir
lt.dir
为brir
lt
的直达声部分，即左耳brir的直达声部分去除声源到左耳的传输延时后剩余的部分；brir
rt.dir
为brir
rt
的直达声部分，即右耳brir的直达声部分去除声源到右耳的传输延时后剩余的部分。
[0063]
这里，500组随机延迟，相应的，可以得到500组相对应的brir
lt.pro
和brir
rt.pro
。
[0064]
所述合成滤波器组通过gammatone滤波器组实现。
[0065]
在另一个可能的实现中，步骤103中，将任一组双耳信号通过分析滤波器组划分为n组窄带信号，具体为：
[0066]
将左耳信号通过分析滤波器组进行频带划分，并将划分所得各信号经半波整流和低通滤波后，得到n个左耳窄带信号；
[0067]
将右耳信号通过分析滤波器组进行频带划分，并将划分所得各信号经半波整流和低通滤波后，得到n个右耳窄带信号；
[0068]
将相对应的任一组左、右耳窄带信号作为一组窄带信号，得到n组窄带信号。
[0069]
这里，所述分析滤波器组通过gammatone滤波器组实现。分析滤波器组以erb尺度或bark尺度进行频带划分，n＝24。
[0070]
所述将划分所得各信号经半波整流和低通滤波能够模拟人类听觉外围。
[0071]
在另一个可能的实现中，步骤103中，所述计算任一组窄带信号的ild tsd具体包括：
[0072]
分别计算该组窄带信号的左、右耳窄带信号的包络；
[0073]
将算得的左、右耳窄带信号包络相减，得到左、右耳窄带信号的ild；
[0074]
计算得到的左、右耳窄带信号的ild的标准差，作为该组窄带信号的ild tsd。
[0075]
这里，第i组窄带信号的左、右耳窄带信号的包络可以表示为：
[0076]
env
i,l
(n)＝20log(|w
i,l
(n)|)
[0077]
env
i,r
(n)＝20log(|w
i,r
(n)|)
[0078]
其中，w
i,l
(n)、w
i,r
(n)分别为第i组窄带信号的左、右耳窄带信号的第n个采样信号，env
i,l
(n)、env
i,r
(n)分别为第i组窄带信号的左、右耳窄带信号的第n个采样信号的包络。
[0079]
相应的，第i组窄带信号的ild表示为：
[0080]
ildi(n)＝env
i,l
(n)-env
i,r
(n)
[0081]
相应的，第i组窄带信号的ild tsd表示为：
[0082][0083]
其中，为第i组窄带信号的ild tsd；l为左、右耳窄带信号的长；为第i组窄带信号的ild平均值。
[0084]
在另一个可能的实现中，步骤107得到优化的brir具体包括：
[0085]
分别提取左、右耳brir的反射声部分，记为brir
l,reflect
和brir
r.reflect
；
[0086]
通过分析滤波器组，将brir
l.reflect
分解为24个brir
l,reflect
子带信号，将brir
r.reflect
分解为24个brir
r.reflect
子带信号；
[0087]
将优化的随机时延中与各brir
l.reflect
子带信号对应的随机时延，加入各brir
l.reflect
子带信号，并将加入随机时延的24个brir
l.reflect
子带信号通过合成滤波器组恢复到全频段左耳反射声部分，记为brir
′
l.reflect
；拼接brir
l.dir
和brir
′
l.reflect
，得到brir
l.pro
；
[0088]
将优化的随机时延中与各brir
rt.reflect
子带信号对应的随机时延，加入各brir
r.reflect
子带信号，并将加入随机时延的24个brir
r.reflect
子带信号通过合成滤波器组恢复到全频段右耳反射声部分，记为brir
′
r.reflect
；拼接brir
r.dir
和brir
′
r.reflect
，得到brir
r.pro
；
[0089]
其中，brir
l.dir
为左耳brir的直达声部分；brir
r.dir
为右耳brir的直达声部分。
[0090]
这里，所述分析滤波器组、合成滤波器组均通过gammatone滤波器组实现。
[0091]
在另一个可能的实现中，步骤108中，所述将声源信号分别与各组brir
lt.pro
和brir
rt.pro
卷积前还包括：分别对各组brir
lt.pro
和brir
rt.pro
直达声后10ms的反射声部分进行反射抑制。
[0092]
这里，对任一brir
lt.pro
进行反射抑制具体为：
[0093]
将该brir
lt.pro
与一个时间窗口相乘，该时间窗在0ms到2.5ms的值为1，随后直到
10ms的值是0，在10ms到15ms上实现从0到1的过渡。
[0094]
对任一brir
rt.pro
进行反射抑制具体为：
[0095]
将该brir
rt.pro
与一个时间窗口相乘，该时间窗在0ms到2.5ms的值为1，随后直到10ms的值是0，在10ms到15ms上实现从0到1的过渡。
[0096]
以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。

技术特征：
1.一种耳机虚拟声像头外化方法，其特征在于，包括：生成多组随机时延；去除双耳房间脉冲响应brir中声源到双耳的传输延时，得到的信号记为brir
lt
和brir
rt
；将多组随机时延分别加入brir
lt
和brir
rt
的反射声部分，分别得到的多组信号，每组信号记为brir
lt.pro
和brir
rt.pro
；将声源信号分别与各组brir
lt.pro
和brir
rt.pro
卷积，得到多组双耳信号；将各组双耳信号分别通过分析滤波器组进行频带划分，每组双耳信号划分为n组窄带信号；分别计算每组双耳信号所划分出各组窄带信号的双耳声级差波动ild tsd；基于ild tsd构建目标函数e:其中，为一组双耳信号的第i组窄带信号的ild tsd；将各ild tsd代入目标函数，分别算得各组双耳信号对应的目标函数值，并取算得的多个目标函数值中的最大值；将在得到最大值对应的双耳信号时所采用的brir
lt.pro
和brir
rt.pro
中，所加入的一组随机时延，作为优化的随机时延；将优化的随机时延加入brir的反射声部分，得到优化的brir；将声源信号与优化的brir卷积。2.根据权利要求1所述的方法，其特征在于，所述将多组随机时延分别加入brir
lt
和brir
rt
的反射声部分前还包括：分别提取brir
lt
和brir
rt
的反射声部分，记为brir
lt,reflect
和brir
rt.reflect
；通过分析滤波器组，将brir
lt.reflect
分解为24个brir
lt,reflect
子带信号，将brir
rt.reflect
分解为24个brir
rt.reflect
子带信号。3.根据权利要求2所述的方法，其特征在于，所述将任一组随机时延分别加入brir
lt
和brir
rt
的反射声部分得到一组信号包括：分别将该组随机延迟所含与各brir
lt.reflect
子带信号对应的随机时延，加入各brir
lt.reflect
子带信号，并将加入随机时延的24个brir
lt.reflect
子带信号通过合成滤波器组恢复到全频段左耳反射声部分，记为brir
′
lt.reflect
；拼接brir
lt.dir
和brir
′
lt.reflect
，得到brir
lt.pro
；分别将该组随机延迟所含与各brir
rt.reflect
子带信号对应的随机时延，加入各brir
rt.reflect
子带信号，并将加入随机时延的24个brir
rt.reflect
子带信号通过合成滤波器组恢复到全频段右耳反射声部分，记为brir
′
rt.reflect
；拼接brir
rt.dir
和brir
′
rt.reflect
，得到brir
rt.pro
；其中，brir
lt.dir
为brir
lt
的直达声部分；brir
rt.dir
为brir
rt
的直达声部分。4.根据权利要求1所述的方法，其特征在于，所述将任一组双耳信号通过分析滤波器组划分为n组窄带信号，具体为：将左耳信号通过分析滤波器组进行频带划分，并将划分所得各信号经半波整流和低通滤波后，得到n个左耳窄带信号；将右耳信号通过分析滤波器组进行频带划分，并将划分所得各信号经半波整流和低通
滤波后，得到n个右耳窄带信号；将相对应的任一组左、右耳窄带信号作为一组窄带信号，得到n组窄带信号。5.根据权利要求4所述的方法，其特征在于，所述计算任一组窄带信号的ild tsd包括：分别计算该组窄带信号的左、右耳窄带信号的包络；将算得的左、右耳窄带信号包络相减，得到左、右耳窄带信号的ild；计算得到的左、右耳窄带信号的ild的标准差，作为该组窄带信号的ild tsd。6.根据权利要求1所述的方法，其特征在于，所述得到优化的brir包括：分别提取左、右耳brir的反射声部分，记为brir
l,reflect
和brir
r.reflect
；通过分析滤波器组，将brir
l.reflect
分解为24个brir
l,reflect
子带信号，将brir
r.reflect
分解为24个brir
r.reflect
子带信号；将优化的随机时延中与各brir
l.reflect
子带信号对应的随机时延，加入各brir
l.reflect
子带信号，并将加入随机时延的24个brir
l.reflect
子带信号通过合成滤波器组恢复到全频段左耳反射声部分，记为brir
′
l.reflect
；拼接brir
l.dir
和brir
′
l.reflect
，得到brir
l.pro
；将优化的随机时延中与各brir
rt.reflect
子带信号对应的随机时延，加入各brir
r.reflect
子带信号，并将加入随机时延的24个brir
r.reflect
子带信号通过合成滤波器组恢复到全频段右耳反射声部分，记为brir
′
r.reflect
；拼接brir
r.dir
和brir
′
r.reflect
，得到brir
r.pro
；其中，brir
l.dir
为左耳brir的直达声部分；brir
r.dir
为右耳brir的直达声部分。7.根据权利要求1所述的方法，其特征在于，所述将声源信号分别与各组brir
lt.pro
和brir
rt.pro
卷积前还包括：分别对各组brir
lt.pro
和brir
rt.pro
直达声后10ms的反射声部分进行反射抑制。

技术总结
本发明涉及一种耳机虚拟声像头外化方法，所述方法包括：生成多组随机时延；得到的信号记为BRIR

技术研发人员：姚鼎鼎阮小园李军锋颜永红
受保护的技术使用者：中国科学院声学研究所
技术研发日：2023.05.04
技术公布日：2023/7/22

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

上一篇：一种人ALK重排非小细胞肺癌细胞株HC4773及其应用 下一篇：一种实验用喷镀装置的制作方法

一种耳机虚拟声像头外化方法

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

一种耳机虚拟声像头外化方法

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表