一种听觉无感的音频模拟水印加注方法及装置与流程
未命名
07-19
阅读:88
评论:0
1.本发明涉及音频水印技术领域,尤其涉及一种听觉无感的音频模拟水印加注方法及装置。
背景技术:
2.音频水印的一个重要功能是对音频来源进行溯源,对保密音频进行标记,防止泄密被转录。另一方面,随着人工智能语音合成技术的进步,对合成音频的管理也可以利用音频水印的方法来加强。
3.从技术上讲,相对于语音信号而言图像和视频都可以很容易通过水印的形式对信息进行标记。人在观察图片或视频的过程中,对信息的感知具有局部集中的特点,所以在图片或视频非关键区域加注水印,类似于电视台台标的标记方式,基本不会影响其使用效果。而相对于图片和视频,人类在接收语音信号时对语音信号是全局性关注的,对语音信号加注水印信息需要注意不影响语音整体听感。
4.现有音频水印多是在数字信号处理中加入水印。其中的典型电表是lsb(二进制编码比特,least important bits)水印加注法,这种方法在音频的二进制数据中进行水印加注。该方法利用一定的规则,在对音频听感影响最小的lsb中对音频信号进行修改。在音频水印加注过程中,首先将音频的每个数据转化成二进制,并在最低位插入水印数据。在提取水印时,利用规则解读隐藏lsb中的水印信息。
5.然而,音频数字水印有一个明显的缺点,数字水印会因语音在通信传播过程中因为编解码流程受到影响,也会因为语音信号在空气中传播的转录而消失。音频转码和空气传播是音频传播过程中的典型场景。因此,数字音频水印的使用场景范围极为有限。
6.目前,也有一种音频模拟水印的加注方法,及每隔一段时间在音频中添加版权播报语音。这种方法常见于音乐试听中,在播放音频文件时,每隔一段时间会播放如“本音频版权属于某某机构”等提示音,如果采用这种方法对普遍的音频文件进行水印加注,将影响听感,因此使用场景也非常窄。
7.传统音频数字水印有一个明显的缺点,数字水印会因语音在通信传播过程中因为编解码流程受到影响,也会因为语音信号在空气中传播的转录而消失。音频转码和空气传播是音频传播过程中的典型场景。因此,数字音频水印的效果和使用场景极为有限。而在音频中添加播报语音的水印方法也因对音频的听感影响明显而不可广泛应用。
技术实现要素:
8.本发明要解决的技术问题是,如何在有效添加音频水印的前提下,使得添加的模拟水印不影响人耳对加注水印后的音频信号的听感。有鉴于此,本发明提供一种听觉无感的音频模拟水印加注方法及装置、电子设备。
9.本发明采用的技术方案是,所述一种听觉无感的音频模拟水印加注方法,包括:步骤s1,获取音频文件,并对所述音频文件进行傅里叶变换处理;
步骤s2,基于分配的水印频段,在当前的音频文件的对应频段中添加水印;步骤s3,对当前音频文件进行逆傅里叶变换,以获得加注水印后的音频文件。
10.在一个实施方式中,所述基于分配的水印频段,在当前的音频文件的对应频段中添加水印,包括:获取水印内容;基于配置的编码规则,对所述水印内容进行水印编码;在预设的频率区间内,呈逆梅尔刻度分布设置有至少两处锚点频率,即添加水印的频率;基于预设的添加规则,将编码后的所述水印内容添加至所述锚点频率。
11.在一个实施方式中,所述基于配置的编码规则,对所述水印内容进行水印编码,包括:数字编码或数字与汉字相结合编码之中的至少一种。
12.在一个实施方式中,所述预设的频率区间包括:3000hz到4500hz。
13.在一个实施方式中,所述在预设的频率区间内,呈逆梅尔刻度分布设置有至少两处锚点频率,即添加水印的频率,包括:在所述预设频率区间内呈逆梅尔刻度分步设置14处锚点频率;其中,第一锚点的频率配置为3000hz,第二锚点的频率配置为3138hz,第三锚点的频率配置为3272hz,第四锚点的频率配置为3402hz,第五锚点的频率配置为3528hz,第六锚点的频率配置为3650hz,第七锚点的频率配置为3768hz,第八锚点的频率配置为3883hz,第九锚点的频率配置为3993hz,第十锚点的频率配置为4101hz,第十一锚点的频率配置为4206hz,第十二锚点的频率配置为4307hz,第十三锚点的频率配置为4405hz,第十四锚点的频率配置为4500hz。
14.在一个实施方式中,所述基于预设的添加规则,将编码后的所述水印内容添加至所述锚点频率:将所述水印内容进行数字编码后的四位数十进制编码转换为描点数量位的二进制编码,所述二进制编码中的每一位表征一锚点;其中,当锚点的频率对应的二进制编码为0时,以锚点频率为中频率的30hz的频带能量归零;当锚点频率对应二进制编码为1时,不做处理。
15.在一个实施方式中,所述方法还包括:在所述水印内容所在音频时域的起始处添加起始标记,终止处添加终止标记。
16.本发明的另一方面还提供了一种听觉无感的音频模拟水印加注装置,包括:获取单元,被配置为获取音频文件,并对所述音频文件进行傅里叶变换处理;添加单元,被配置为基于分配的水印频段,在当前的音频文件的对应频段中添加水印;输出单元,被配置为对当前音频文件进行逆傅里叶变换,以获得加注水印后的音频文件。
17.本发明的另一方面还提供了一种电子设备,所述电子设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如上任一项所述的听觉无感的音频模拟水印加注方法的步骤。
18.本发明的另一方面还提供了一种计算机存储介质,所述计算机存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上任一项所述的听觉无感的音频模拟水印加注方法的步骤。
19.采用上述技术方案,本发明至少具有下列优点:本发明提供的一种听觉无感的音频模拟水印加注方法,利用以锚点频率为中心的30hz频带能量作为水印二进制数字标记,由于频带宽度有限,遮掩效应会使该频带周边频率信号弥补人耳对该频段能量修改的感知;同时进一步利用逆梅尔刻度的设计,将锚点频率选定在了3000-4500hz的频率范围,人类对该段频率敏感度较小,进一步降低了加注水印对音频信号听感的影响。
附图说明
20.图1为根据本发明实施例的听觉无感的音频模拟水印加注方法流程图;图2为根据本发明实施例的听觉无感的音频模拟水印加注方法逻辑示意图;图3为根据本发明实施例的水印时频示意图;图4为根据本发明实施例的听觉无感的音频模拟水印加注装置组成结构示意图;图5为根据本发明实施例的电子设备构成示意图。
具体实施方式
21.为更进一步阐述本发明为达成预定目的所采取的技术手段及功效,以下结合附图及较佳实施例,对本发明进行详细说明如后。
22.应理解,用语“包括”、“包括有”、“具有”、“包含”和/或“包含有”,当在本说明书中使用时表示存在所陈述的特征、整体、步骤、操作、元件和/或部件,但不排除存在或附加有一个或多个其它特征、整体、步骤、操作、元件、部件和/或它们的组合。此外,当诸如“...中的至少一个”的表述出现在所列特征的列表之后时,修饰整个所列特征,而不是修饰列表中的单独元件。此外,当描述本技术的实施方式时,使用“可以”表示“本技术的一个或多个实施方式”。并且,用语“示例性的”旨在指代示例或举例说明。
23.如在本文中使用的,用语“基本上”、“大约”以及类似的用语用作表近似的用语,而不用作表程度的用语,并且旨在说明将由本领域普通技术人员认识到的、测量值或计算值中的固有偏差。
24.除非另外限定,否则本文中使用的所有用语(包括技术用语和科学用语)均具有与本技术所属领域普通技术人员的通常理解相同的含义。还应理解的是,用语(例如在常用词典中定义的用语)应被解释为具有与它们在相关技术的上下文中的含义一致的含义,并且将不被以理想化或过度正式意义解释,除非本文中明确如此限定。
25.需要说明的是,在不冲突的情况下,本技术中的实施例及实施例中的特征可以相互组合。本发明中说明书中对方法流程的描述及本发明说明书附图中流程图的步骤并非必须按步骤标号严格执行,方法步骤是可以改变执行顺序的。而且,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
26.本发明中说明书中对方法流程的描述及本发明说明书附图中流程图的步骤并非必须按步骤标号严格执行,方法步骤是可以改变执行顺序的。而且,可以省略某些步骤,将
多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
27.本发明第一实施例,一种听觉无感的音频模拟水印加注方法,如图1所示,包括以下具体步骤:步骤s1,获取音频文件,并对音频文件进行傅里叶变换处理;步骤s2,基于分配的水印频段,在当前的音频文件的对应频段中添加水印;步骤s3,对当前音频文件进行逆傅里叶变换,以获得加注水印后的音频文件。
28.下面将结合图1以及图2,分步对本实施例所提供的方法进行详细介绍。
29.步骤s1,获取音频文件,并对音频文件进行傅里叶变换处理。
30.本实施例中,获取的音频文件可以是来自任何可能的来源的音频类文件,本文对此将不做限定。
31.步骤s2,基于分配的水印频段,在当前的音频文件的对应频段中添加水印;本实施例中,步骤s2具体可以包括:步骤s201,获取水印内容。
32.示例性地,水印内容可以是包括企业、作者或其他任何与该音频文件相关内容信息。其形式可以是包括文字、数字、或符号等内容的文本形式。
33.步骤s202,基于配置的编码规则,对所述水印内容进行水印编码。
34.本实施例中,水印内容的编码规则可根据实际需求进行设计。可进行纯数字编码或数字与汉字相结合编码。
35.示例性地,可以采用标准摩尔斯码的编码方式,用四位阿拉伯数字对汉字进行编码。
36.步骤203,在预设的频率区间内,呈逆梅尔刻度分布设置有至少两处锚点频率,即添加水印的频率。
37.需要说明的是,人类的听觉系统对各个频段的语音信号相应敏感有差别,根据梅尔标度的理论基础,人类对语音信号中高频信号的敏感性低于低频信号,且人耳对频率的感知是非线性的。例如,在人类的感知中声音频率从1000hz提高到2000hz,人耳对频率的变化感知十分微弱,根本无法察觉频率已经增大一倍。因此,语音界常常利用梅尔标度(mel scale)来模拟人对高频的敏感性低于低频敏感性的生理特征。
38.在语音信号处理中,很多算法都用梅尔刻度来放大低频段人类更敏感的信号,比如最常用的梅尔倒谱特征(mfcc)就使用了这一原理。梅尔频率映射关系如下公式所示:
39.而在本实施例中,为了减少信号处理即标记水印后对人类听感的影响而采用了逆梅尔刻度,并且把更多的信号处理放在人类听觉不敏感的高频段。
40.进一步地,本实施例同时还利用了人类听觉在20-22050 hz的频率范围内的声音存在遮掩效应。人类对一些相近频率的声音在到大脑中是叠加到一起评价的。在一定条件下,符合遮掩效应的频率同时发声,会相互遮掩。本发明基于以上原理将水印添加到对人类听感影响较小的有限频段频段,从而避免水印对音频文件听感造成的影响,并利用遮掩效应由相邻频域信号补充影响。
41.为了便于理解,将水印要添加的频率称为锚点频率。在选择水印的锚点频率时,需
要考虑水印应集中在语音信号比较集中的频率,从而方便运用频谱能量变换进行水印标记。
42.本实施例中,可以将预设的频率区间具体设置为3000hz到4500hz间,在该区间内,可以选定14个锚点频率,多个锚点频率需成逆梅尔刻度分布,及随着频率增大,锚点频率之间的距离呈指数减小。
43.可以理解的是,预设的频率区间以及锚点的数量是可以根据实际情况需要进行合理配置的。
44.经大量实验表明,在3000hz到4500hz之间标记水印对听感影响极小,可以做到听觉无感。十四个锚点频率如下表所示:表1锚点频率
45.步骤204,基于预设的添加规则,将编码后的所述水印内容添加至锚点频率。
46.本实施例中,在添加水印时,首先可根据编码规则将水印字符转换为4位阿拉伯数
字编码,可具体采用摩尔斯码汉字编码规则;可以理解的是,编码规则也可以根据应用需求灵活改变。
47.进一步地,在水印频段分配的每个锚点可视作一个二进制数字,以上述的14个锚点频率方案为例,14个锚点频率可以标记为一个14位二进制数字。在获得水印的编码后,将4位十进制编码转换为14位二进制编码。
48.当锚点频率对应的二进制编码为0时,以锚点频率为中频率的30hz的频带能量归零;当锚点频率对应二进制编码为1时,不做处理。
49.水印时频排列如图3所示,每个水印字符对应的信号时长可以灵活设置,默认参数为2s。
50.由于音频水印字符串在音频中循环标记,因此,可以设置一个起始标记和一个终止标记利于辨识水印起止,该字符可灵活设置,默认起始标记14位二进制编码为00000000000000,默认终止标记14位二进制编码为10000000000000。
51.步骤s3,对当前音频文件进行逆傅里叶变换,以获得加注水印后的音频文件。
52.相较于现有技术,本实施例至少具备以下优点:1)本发明提供的一种听觉无感的音频模拟水印加注方法,通过利用遮掩效应、逆梅尔刻度两种设计保证了添加的模拟水印不影响人耳对加注水印后的音频信号的听感。
53.2)本发明利用以锚点频率为中心的30hz频带能量作为水印二进制数字标记,由于频带宽度有限,遮掩效应会使该频带周边频率信号弥补人耳对该频段能量修改的感知;同时进一步利用逆梅尔刻度的设计,将锚点频率选定在了3000-4500hz的频率范围,人类对该段频率敏感度较小,进一步降低了加注水印对音频信号听感的影响。
54.3)由于本发明提出的水印加注方法是针对模拟信号的,语音信号经压缩、转码、空气传播后仍可辨别;现有的无论是时域、频域还是压缩域的水印由于是基于数字信号添加,音频信号经空气传播和转录后都不能被保存。而本发明提出的音频模拟水印经测试,在室内、室外测试环境中,经空气传播后由采音设备采音转录后,可保证在语音可辨别的情况下水印可见。经音频转码、压缩后,水印清晰可见。
55.本发明第二实施例,与第一实施例对应,本实施例介绍一种听觉无感的音频模拟水印加注装置,如图4所示,包括以下组成部分:获取单元,被配置为获取音频文件,并对音频文件进行傅里叶变换处理;添加单元,被配置为基于分配的水印频段,在当前的音频文件的对应频段中添加水印;输出单元,被配置为对当前音频文件进行逆傅里叶变换,以获得加注水印后的音频文件。
56.本实施例中,添加单元被进一步配置为:获取水印内容;基于配置的编码规则,对所述水印内容进行水印编码;在预设的频率区间内,呈逆梅尔刻度分布设置有至少两处锚点频率,即添加水印的频率;基于预设的添加规则,将编码后的所述水印内容添加至所述锚点频率。
57.本实施例中,添加单元被进一步配置为:
数字编码或数字与汉字相结合编码之中的至少一种。
58.本实施例中,预设的频率区间为:3000hz到4500hz。
59.本实施例中,添加单元被进一步配置为:在所述预设频率区间内呈逆梅尔刻度分步设置14处锚点频率;其中,第一锚点的频率配置为3000hz,第二锚点的频率配置为3138hz,第三锚点的频率配置为3272hz,第四锚点的频率配置为3402hz,第五锚点的频率配置为3528hz,第六锚点的频率配置为3650hz,第七锚点的频率配置为3768hz,第八锚点的频率配置为3883hz,第九锚点的频率配置为3993hz,第十锚点的频率配置为4101hz,第十一锚点的频率配置为4206hz,第十二锚点的频率配置为4307hz,第十三锚点的频率配置为4405hz,第十四锚点的频率配置为4500hz。
60.本实施例中,添加单元被进一步配置为:将所述水印内容进行数字编码后的四位数十进制编码转换为描点数量位的二进制编码,所述二进制编码中的每一位表征一锚点;其中,当锚点的频率对应的二进制编码为0时,以锚点频率为中频率的30hz的频带能量归零;当锚点频率对应二进制编码为1时,不做处理。
61.本实施例中,输出单元被进一步配置为:在水印内容所在音频时域的起始处添加起始标记,终止处添加终止标记。
62.本发明第三实施例,一种电子设备,如图5,可以作为实体装置来理解,包括处理器以及存储有所述处理器可执行指令的存储器,当所述指令被处理器执行时,执行如下操作:步骤s1,获取音频文件,并对音频文件进行傅里叶变换处理;步骤s2,基于分配的水印频段,在当前的音频文件的对应频段中添加水印;步骤s3,对当前音频文件进行逆傅里叶变换,以获得加注水印后的音频文件。
63.本发明第四实施例,本实施例的听觉无感的音频模拟水印加注方法的流程与第一、二或三实施例相同,区别在于,在工程实现上,本实施例可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的所述方法可以以计算机软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台设备执行本发明实施例所述的方法。
64.通过具体实施方式的说明,应当可对本发明为达成预定目的所采取的技术手段及功效得以更加深入且具体的了解,然而所附图示仅是提供参考与说明之用,并非用来对本发明加以限制。
技术特征:
1.一种听觉无感的音频模拟水印加注方法,其特征在于,包括:获取音频文件,并对所述音频文件进行傅里叶变换处理;基于分配的水印频段,在当前的音频文件的对应频段中添加水印;对当前音频文件进行逆傅里叶变换,以获得加注水印后的音频文件。2.根据权利要求1所述的听觉无感的音频模拟水印加注方法,其特征在于,所述基于分配的水印频段,在当前的音频文件的对应频段中添加水印,包括:获取水印内容;基于配置的编码规则,对所述水印内容进行水印编码;在预设的频率区间内,呈逆梅尔刻度分布设置有至少两处锚点频率,即添加水印的频率;基于预设的添加规则,将编码后的所述水印内容添加至所述锚点频率。3.根据权利要求2所述的听觉无感的音频模拟水印加注方法,其特征在于,所述基于配置的编码规则,对所述水印内容进行水印编码,包括:数字编码或数字与汉字相结合编码之中的至少一种。4.根据权利要求2所述的听觉无感的音频模拟水印加注方法,其特征在于,所述预设的频率区间包括:3000hz到4500hz。5.根据权利要求4所述的听觉无感的音频模拟水印加注方法,其特征在于,所述在预设的频率区间内,呈逆梅尔刻度分布设置有至少两处锚点频率,即添加水印的频率,包括:在所述预设频率区间内呈逆梅尔刻度分步设置14处锚点频率;其中,第一锚点的频率配置为3000hz,第二锚点的频率配置为3138hz,第三锚点的频率配置为3272hz,第四锚点的频率配置为3402hz,第五锚点的频率配置为3528hz,第六锚点的频率配置为3650hz,第七锚点的频率配置为3768hz,第八锚点的频率配置为3883hz,第九锚点的频率配置为3993hz,第十锚点的频率配置为4101hz,第十一锚点的频率配置为4206hz,第十二锚点的频率配置为4307hz,第十三锚点的频率配置为4405hz,第十四锚点的频率配置为4500hz。6.根据权利要求5所述的听觉无感的音频模拟水印加注方法,其特征在于,所述基于预设的添加规则,将编码后的所述水印内容添加至所述锚点频率:将所述水印内容进行数字编码后的四位数十进制编码转换为描点数量位的二进制编码,所述二进制编码中的每一位表征一锚点;其中,当锚点的频率对应的二进制编码为0时,以锚点频率为中频率的30hz的频带能量归零;当锚点频率对应二进制编码为1时,不做处理。7.根据权利要求6所述的听觉无感的音频模拟水印加注方法,其特征在于,所述方法还包括:在所述水印内容所在音频时域的起始处添加起始标记,终止处添加终止标记。8.一种听觉无感的音频模拟水印加注装置,其特征在于,包括:获取单元,被配置为获取音频文件,并对所述音频文件进行傅里叶变换处理;添加单元,被配置为基于分配的水印频段,在当前的音频文件的对应频段中添加水印;输出单元,被配置为对当前音频文件进行逆傅里叶变换,以获得加注水印后的音频文件。
9.一种电子设备,所述电子设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至7中任一项所述的听觉无感的音频模拟水印加注方法的步骤。10.一种计算机存储介质,其特征在于,所述计算机存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的听觉无感的音频模拟水印加注方法的步骤。
技术总结
本发明提出了一种听觉无感的音频模拟水印加注方法及装置,方法包括:获取音频文件,并对音频文件进行傅里叶变换处理;基于分配的水印频段,在当前的音频文件的对应频段中添加水印;对当前音频文件进行逆傅里叶变换,以获得加注水印后的音频文件。本发明利用以锚点频率为中心的30Hz频带能量作为水印二进制数字标记,由于频带宽度有限,遮掩效应会使该频带周边频率信号弥补人耳对该频段能量修改的感知;同时进一步利用逆梅尔刻度的设计,将锚点频率选定在了3000-4500Hz的频率范围,人类对该段频率敏感度较小,保证了添加的模拟水印不影响人耳对加注水印后的音频信号的听感。人耳对加注水印后的音频信号的听感。人耳对加注水印后的音频信号的听感。
技术研发人员:陈骁 汤跃忠 田野 陈云坤 王荔
受保护的技术使用者:中国电子科技集团公司第三研究所
技术研发日:2023.06.14
技术公布日:2023/7/17
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
上一篇:一种新结构尾门密封条的制作方法 下一篇:一种混凝土再生料筛选装置的制作方法
