确定重复录音片段的方法、装置、电子设备和存储介质与流程

未命名 08-12 阅读：84 评论：0

1.本技术涉及深度学习技术领域，尤其涉及一种确定重复录音片段的的方法、装置、电子设备和存储介质。

背景技术：

2.在办公数字化的趋势下，通过语音采集设备也逐步实现线下办公场景(如超市的销售、营业厅的业务办理场景等)的数字化，即通过多个语音采集设备采集语音，监听并标记出重复录音片段，然后通过ai技术实现文字转换、信息处理、业务数据提取等。
3.目前提取重复录音片段采用人工方式，即数据专员对多个语音采集设备采集的语音数据分别监听，标记出重复录音片段。
4.针对当前采用人工方式提取重复录音片段准确率低的问题，目前尚无良好的解决方案。

技术实现要素：

5.本技术实施例的目的在于提供一种确定重复录音片段的的方法、装置、电子设备和存储介质，以解决人工方式提取重复录音片段准确率低的问题。具体技术方案如下：
6.第一方面，提供了一种确定重复录音片段的方法，所述方法包括：
7.获取同一门店中每个语音采集设备的语音文本信息，其中，所述语音文本信息包括每条语音对应的语音文本和语音始末时刻；
8.根据所述语音始末时刻，从多条所述语音文本中选取满足预设条件的多对候选文本片段，其中，每对候选文本片段包括两个语音采集设备中的语音文本，所述候选文本片段包括每个语音采集设备的至少一条语音文本；
9.从所述候选文本片段中选取文本内容相似度最小的目标文本片段；
10.若所述目标文本片段的相似度小于预设阈值，则将所述目标文本片段对应的录音作为重复录音片段。
11.可选地，根据所述语音始末时刻，从多条所述语音文本中选取满足预设条件的多对候选文本片段包括：
12.从两个语音采集设备的语音文本开始位置处，将语音起始时刻差值在第一时长范围内的初始语音文本作为候选文本片段；
13.从初始语音文本后的每条语音文本开始执行如下操作：若两个语音采集设备中属于同一层级语音文本的语音结束时刻差值在第二时长范围内，则将所述初始语音文本至当前语音文本作为候选文本片段，
14.直至所述两个语音采集设备的当前语音文本的语音结束时刻差值超出所述第二时长范围，或当前候选文本片段的片段时长超出预设时长阈值。
15.可选地，从所述候选文本片段中选取文本内容相似度最小的目标文本片段之前，所述方法还包括：
16.确定每对候选文本片段中两个文本片段之间的文本编辑距离，其中，每个文本片段对应一个语音采集设备；
17.确定所述候选文本片段中两个文本片段的文本长度和值；
18.将所述文本编辑距离和所述长度和值的商值作为候选文本片段的文本内容相似度。
19.可选地，所述获取同一门店中每个语音采集设备的语音文本信息包括：
20.将每个门店中每个语音采集设备采集的语音识别为语音文本；
21.确定每个语音文本的属性，其中，所述属性包括语音文本的所属门店、所属设备、文本内容、语音起始时刻和语音结束时刻；
22.获取同一门店同一语音采集设备中的文本数据流；
23.将所述文本数据流中的语音文本按照语音起始时刻进行排序。
24.可选地，获取同一门店同一语音采集设备中的文本数据流包括：
25.按照所属门店将所述语音文本进行分组，其中，每组语音文本对应同一个门店；
26.将同一组中的语音文本按照设备号划分为多个数据流，其中，每个每个数据流对应一个语音采集设备。
27.可选地，从多条所述语音文本中选取满足预设条件的多对候选文本片段之后，所述方法还包括：
28.从最后一个候选文本片段的下一条语音文本开始，选取新的候选文本片段，直至语音采集设备的全部语音文本遍历结束。
29.可选地，将所述目标文本片段对应的录音作为重复录音片段之后，所述方法还包括：
30.识别出同一门店中任意两个语音采集设备之间的重复录音片段；
31.对同一重复录音片段进行合并。
32.第二方面，提供了一种确定重复录音片段的装置，所述装置包括：
33.获取模块，用于获取同一门店中每个语音采集设备的语音文本信息，其中，所述语音文本信息包括每条语音对应的语音文本和语音始末时刻；
34.第一选取模块，用于根据所述语音始末时刻，从多条所述语音文本中选取满足预设条件的多对候选文本片段，其中，每对候选文本片段包括两个语音采集设备中的语音文本，所述候选文本片段包括每个语音采集设备的至少一条语音文本；
35.第二选取模块，用于从所述候选文本片段中选取文本内容相似度最小的目标文本片段；
36.作为模块，用于若所述目标文本片段的相似度小于预设阈值，则将所述目标文本片段对应的录音作为重复录音片段。
37.第三方面，提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；
38.存储器，用于存放计算机程序；
39.处理器，用于执行存储器上所存放的程序时，实现任一所述的确定重复录音片段的方法步骤。
40.第四方面，提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有
计算机程序，所述计算机程序被处理器执行时实现任一所述的确定重复录音片段的方法步骤。
41.本技术实施例有益效果：
42.本技术实施例提供了一种确定重复录音片段的方法，涉及深度学习技术领域的自然语言处理，本技术通过获取同一门店中每个语音采集设备的语音文本信息，从而根据语音始末时刻和文本内容选取相似度最小的目标文本片段，若目标文本片段的相似度小于预设阈值，则将目标文本片段对应的录音作为重复录音片段。本技术基于文本相似度识别多个语音采集设备间的重复录音片段，相较于现有技术中人工识别重复录音片段，提高了识别准确性。
43.当然，实施本技术的任一产品或方法并不一定需要同时达到以上的所有优点。
附图说明
44.为了更清楚地说明本技术实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。
45.图1为本技术实施例提供的一种确定重复录音片段的方法硬件环境示意图；
46.图2为本技术实施例提供的一种确定重复录音片段的方法流程图；
47.图3为本技术实施例提供的一种确定重复录音片段的方法流程图；
48.图4为本技术实施例提供的一种确定重复录音片段的装置的结构示意图；
49.图5为本技术实施例提供的一种电子设备的结构示意图。
具体实施方式
50.为使本技术实施例的目的、技术方案和优点更加清楚，下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本技术的一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本技术保护的范围。
51.在后续的描述中，使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本技术的说明，其本身并没有特定的意义。因此，“模块”与“部件”可以混合地使用。
52.为了解决背景技术中提及的问题，根据本技术实施例的一方面，提供了一种确定重复录音片段的方法的实施例。
53.可选地，在本技术实施例中，上述确定重复录音片段的方法可以应用于如图1所示的由语音采集设备101和服务器103所构成的硬件环境中。如图1所示，服务器103通过网络与语音采集设备101进行连接，，可在服务器上或独立于服务器设置数据库105，用于为服务器103提供数据存储服务，上述网络包括但不限于：广域网、城域网或局域网。
54.本技术实施例中的一种确定重复录音片段的方法可以由服务器103来执行，用于提高提取重复录音片段的准确率。
55.下面将结合具体实施方式，对本技术实施例提供的一种确定重复录音片段的方法进行详细的说明，如图2所示，具体步骤如下：
56.步骤201：获取同一门店中每个语音采集设备的语音文本信息。
57.其中，语音文本信息包括每条语音对应的语音文本和语音始末时刻。
58.在本技术实施例中，服务器通过具有麦克风或麦克风阵列的硬件设备采集线下办公场景(如超市销售场景、营业厅业务办理场景等)的语音数据，并记录设备号、时间、门店等信息，保存到处理服务器中。其中，硬件设备为具有录音功能的设备。
59.服务器将所有语音数据按照门店进行分组，得到同一门店中每个语音采集设备的语音文本信息，即每条语音对应的语音文本、语音起始时刻和语音结束时刻。
60.步骤202：根据语音始末时刻，从多条语音文本中选取满足预设条件的多对候选文本片段。
61.其中，每对候选文本片段包括两个语音采集设备中的语音文本，候选文本片段包括每个语音采集设备的至少一条语音文本。
62.在本技术实施例中，服务器选取任意两个语音采集设备中的语音数据，根据每条语音的语音起始时刻和语音结束时刻，选取满足预设条件的多对候选文本片段，每对候选文本片段包括两个语音采集设备中的语音文本，候选文本片段包括每个语音采集设备的的一条语音文本，或多条语音文本。
63.步骤203：从候选文本片段中选取文本内容相似度最小的目标文本片段。
64.在本技术实施例中，由于服务器选取得到多对候选文本片段，而每对候选文本片段中包括两个语音采集设备的语音文本，因此可以计算每对候选文本片段中两个语音文本的文本相似度，然后选取相似度最小的候选文本片段作为目标文本片段。
65.步骤204：若目标文本片段的相似度小于预设阈值，则将目标文本片段对应的录音作为重复录音片段。
66.在本技术实施例中，如果目标文本片段中两个语音文本的相似度小于预设阈值，表明该两个语音文本对应的语音采集设备是采集的同一段语音，那么目标文本片段对应的录音作为重复录音片段。示例性地，预设阈值为0.2。
67.在本技术中，通过获取同一门店中每个语音采集设备的语音文本信息，从而根据语音始末时刻确定候选文本片段，根据文本内容选取相似度最小的目标文本片段，若目标文本片段的相似度小于预设阈值，则将目标文本片段对应的录音作为重复录音片段。本技术基于文本相似度识别多个语音采集设备间的重复录音片段，相较于现有技术中人工识别重复录音片段，提高了识别准确性和识别效率，降低了人工监听的成本。
68.另外，现有技术中还可以基于声纹识别的方式提取重复录音，具体是根据注册的声纹信息，识别语音对应的声源的说话人，然后结合时间，在多个录音设备文件中，找到重复录音的部分。实际应用中，门店员工的声纹信息可以事先注册，但事先注册顾客的声纹的限定，很难满足。而本技术相对于声纹识别无需事先注册任何人的声音，也可以对顾客的重复录音进行提取。
69.现有技术中还可以基于声纹聚类的方式提取重复录音，具体按时间片段，将所有设备采集的语音信息进行话者分离，然后提取各个独立语音(即单一人说话的语音)的声纹进行聚类。同一类中的声纹即被认为是同一说话人的语音，如果在相同时间上出现在不同设备采集的语音中，即是重复录音片段。该方案规避了声纹注册的限制，但话者分离和声纹聚类在实际应用中计算量大，资源消耗大。本技术相对于话者分离和声纹聚类，只需要提取
候选文本片段和文本相似度计算，计算量小，资源消耗少，减少成本。
70.作为一种可选的实施方式，根据语音始末时刻，从多条语音文本中选取满足预设条件的多对候选文本片段包括：从两个语音采集设备的语音文本开始位置处，将语音起始时刻差值在第一时长范围内的初始语音文本作为候选文本片段；从初始语音文本后的每条语音文本开始执行如下操作：若两个语音采集设备中属于同一层级语音文本的语音结束时刻差值在第二时长范围内，则将初始语音文本至当前语音文本作为候选文本片段，直至两个语音采集设备的当前语音文本的语音结束时刻差值超出第二时长范围，或当前候选文本片段的片段时长超出预设时长阈值。
71.步骤1：针对任意的两个语音采集设备，从语音文本开始位置处，查找语音起始时刻差值在第一时长范围内的初始语音文本，然后将该初始语音文本作为候选文本片段。
72.示例性地，若text1-n1和text2-m1分别来自语音采集设备1和语音采集设备2，且对应的语音文本的起始时刻之间相差不超过第一时长范围(如30ms)，那么该两个语音文本作为初始语音文本构成候选文本片段。
73.若text1-n1和text2-m1对应的语音文本起始时刻之间相差超过第一时长范围(如30ms)，那么继续比较text1-n2和text2-m2之间的起始时刻的差值，若相差不超过第一时长范围(如30ms)，那么text1-n2和text2-m2作为初始语音文本构成候选文本片段。
74.步骤2：从初始语音文本后的第二条语音文本开始，执行如下操作：若两个语音采集设备中属于同一层级语音文本的语音结束时刻差值在第二时长范围内，表明初始语音文本的起始时刻相近，且当前语音文本的结束时刻相近，那么其可能是重复语音文本，因此将初始语音文本至当前语音文本作为候选文本片段。其中，同一层级语音文本，是指语音文本在文本数据流中的位置相同，均为第n条数据。
75.如果上一条语音文本为候选文本片段，那么下一条语音文本也重复步骤2的操作，直至两个语音采集设备的当前语音文本的语音结束时刻差值超出第二时长范围(文本结束时刻相差过大)，或当前候选文本片段的片段时长超出预设时长阈值(文本片段过长)。
76.这样在候选文本片段中，除了初始语音文本是语音起始时刻相差较小外，其他对应的语音文本都是语音结束时刻相差较小，那么其可能是重复语音。
77.示例性地，若text1-n1和text2-m1为初始语音文本，添加后续语音文本text1-n2和text2-m2，若text1-n2和text2-m2的语音结束时刻不超过第二时长范围(如32ms)，那么将(text1-n1～n2，text2-m1～m2)作为候选文本片段。
78.继续添加后续语音文本text1-n3和text2-m3，若text1-n3和text2-m3的语音结束时刻不超过第二时长范围(如32ms)，那么将(text1-n1～n3，text2-m1～m3)作为候选文本片段。
79.作为一种可选的实施方式，从多条语音文本中选取满足预设条件的多对候选文本片段之后，方法还包括：从最后一个候选文本片段的下一条语音文本开始，选取新的候选文本片段，直至语音采集设备的全部语音文本遍历结束。
80.在确定全部的候选文本片段后，如果语音采集设备的数据流没有结束，即还有未查找过的语音文本，那么从最后一个候选文本片段的下一条语音文本开始，继续选取新的候选文本片段。重复上述步骤，直至语音采集设备的全部语音文本遍历结束。
81.作为一种可选的实施方式，将目标文本片段对应的录音作为重复录音片段之后，
方法还包括：识别出同一门店中任意两个语音采集设备之间的重复录音片段；对同一重复录音片段进行合并。
82.若语音采集设备1与语音采集设备2之间存在重复片段{text1-n1～n5，text2-m1～m5}，语音采集设备1与语音采集设备3之间存在重复片段{text1-n1～n5，text3-x1～x5}，那么语音采集设备1、语音采集设备2、语音采集设备3之间存在重复录音片段，合并为{text1-n1～n5，text2-m1～m5，text3-x1～x5}。
83.若语音采集设备1与语音采集设备2之间存在重复片段{text1-n1～n4，text2-m1～m4}，语音采集设备2与语音采集设备3之间存在重复片段{text1-m2～m5，text2-x2～x5}，那么语音采集设备1、语音采集设备2、语音采集设备3之间存在重复录音片段，合并{text1-n2～n4，text2-m2～m4，text3-x2～x4}，语音采集设备1与语音采集设备2之间重复录音片段合并{text1-n1～n4，text2-m1～m4}，语音采集设备2与语音采集设备2之间重复录音片段合并{text1-m2～m5，text2-x2～x5}。
84.作为一种可选的实施方式，从候选文本片段中选取文本内容相似度最小的目标文本片段之前，方法还包括：确定每对候选文本片段中两个文本片段之间的文本编辑距离，其中，每个文本片段对应一个语音采集设备；确定候选文本片段中两个文本片段的文本长度和值；将文本编辑距离和长度和值的商值作为候选文本片段的文本内容相似度。
85.服务器先确定两个语音采集设备的两个对应文本片段之间的文本编辑距离，编辑距离的作用主要是用来比较两个字符串的相似度的。编辑距离是指两个字串之间，由一个转成另一个所需的最少编辑操作次数，如果它们的距离越大，说明它们越是不同，然后确定候选文本片段中两个文本片段的文本长度和值，最后将文本编辑距离和长度和值的商值作为候选文本片段的文本内容相似度。
86.文本内容相似度的计算公式为：
87.文本相似度＝文本编辑距离/(文本1长度+文本2长度)
88.作为一种可选的实施方式，获取同一门店中每个语音采集设备的语音文本信息包括：将每个门店中每个语音采集设备采集的语音识别为语音文本；确定每个语音文本的属性，其中，属性包括语音文本的所属门店、所属设备、文本内容、语音起始时刻和语音结束时刻；获取同一门店同一语音采集设备中的文本数据流；将文本数据流中的语音文本按照语音起始时刻进行排序。
89.服务器对每个门店中每个设备采集的语音数据，进行语音识别，输出语音对应的语音文本，并以句子呈现，然后确定每个语音文本的属性，即语音识别的结果为多行内容，每一行包含所属门店、所属设备、文本内容，该句对应的起始时刻和语音结束时刻。
90.对所有语音数据按门店分组，每组语音文本对应同一个门店；对同组数据按设备号划分为多个数据流，即来自同一个采集设备的数据处于相同的数据流中，对数据流中的每条数据按对应时间排序，句子对应的开始时间越早，序列中位置越靠前；对每条数据的文本内容进行标准化处理，如去掉多余空格、字符大小写转换等。
91.本技术通过引入语音始末时刻、门店等信息，缩小重复录音识别和提取过程的计算范围，减少计算量，并提高识别和提取的结果质量，降低了计算成本和开销。
92.可选的，本技术实施例还提供了确定重复录音片段的的处理流程图，如图3所示，具体步骤如下。
93.从图3可以看出，本技术通过多个语音采集模块采集到多个语音数据，然后将每条语音识别为一个语音文本，通过对语音文本的相似度对比，得到重复录音片段。
94.基于相同的技术构思，本技术实施例还提供了一种确定重复录音片段的装置，如图4所示，该装置包括：
95.获取模块401，用于获取同一门店中每个语音采集设备的语音文本信息，其中，语音文本信息包括每条语音对应的语音文本和语音始末时刻；
96.第一选取模块402，用于根据语音始末时刻，从多条语音文本中选取满足预设条件的多对候选文本片段，其中，每对候选文本片段包括两个语音采集设备中的语音文本，候选文本片段包括每个语音采集设备的至少一条语音文本；
97.第二选取模块403，用于从候选文本片段中选取文本内容相似度最小的目标文本片段；
98.作为模块404，用于若目标文本片段的相似度小于预设阈值，则将目标文本片段对应的录音作为重复录音片段。
99.可选的，第一选取模块402用于：
100.从两个语音采集设备的语音文本开始位置处，将语音起始时刻差值在第一时长范围内的初始语音文本作为候选文本片段；
101.从初始语音文本后的每条语音文本开始执行如下操作：若两个语音采集设备中属于同一层级语音文本的语音结束时刻差值在第二时长范围内，则将初始语音文本至当前语音文本作为候选文本片段，
102.直至两个语音采集设备的当前语音文本的语音结束时刻差值超出第二时长范围，或当前候选文本片段的片段时长超出预设时长阈值。
103.可选的，该装置还用于：
104.确定每对候选文本片段中两个文本片段之间的文本编辑距离，其中，每个文本片段对应一个语音采集设备；
105.确定候选文本片段中两个文本片段的文本长度和值；
106.将文本编辑距离和长度和值的商值作为候选文本片段的文本内容相似度。
107.可选的，获取模块401用于：
108.将每个门店中每个语音采集设备采集的语音识别为语音文本；
109.确定每个语音文本的属性，其中，属性包括语音文本的所属门店、所属设备、文本内容、语音起始时刻和语音结束时刻；
110.获取同一门店同一语音采集设备中的文本数据流；
111.将文本数据流中的语音文本按照语音起始时刻进行排序。
112.可选的，获取模块401用于：
113.按照所属门店将语音文本进行分组，其中，每组语音文本对应同一个门店；
114.将同一组中的语音文本按照设备号划分为多个数据流，其中，每个每个数据流对应一个语音采集设备。
115.可选的，该装置还用于：
116.从最后一个候选文本片段的下一条语音文本开始，选取新的候选文本片段，直至语音采集设备的全部语音文本遍历结束。
117.可选的，该装置还用于：
118.识别出同一门店中任意两个语音采集设备之间的重复录音片段；
119.对同一重复录音片段进行合并。
120.根据本技术实施例的另一方面，本技术提供了一种电子设备，如图5所示，包括存储器503、处理器501、通信接口502及通信总线504，存储器503中存储有可在处理器501上运行的计算机程序，存储器503、处理器501通过通信接口502和通信总线504进行通信，处理器501执行计算机程序时实现上述方法的步骤。
121.上述电子设备中的存储器、处理器通过通信总线和通信接口进行通信。所述通信总线可以是外设部件互连标准(peripheral component interconnect，简称pci)总线或扩展工业标准结构(extended industry standard architecture，简称eisa)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。
122.存储器可以包括随机存取存储器(random access memory，简称ram)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。
123.上述的处理器可以是通用处理器，包括中央处理器(central processing unit，简称cpu)、网络处理器(network processor，简称np)等；还可以是数字信号处理器(digital signal processing，简称dsp)、专用集成电路(application specific integrated circuit，简称asic)、现场可编程门阵列(field-programmable gate array，简称fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
124.根据本技术实施例的又一方面还提供了一种具有处理器可执行的非易失的程序代码的计算机可读介质。
125.可选地，在本技术实施例中，计算机可读介质被设置为存储用于所述处理器执行上述方法的程序代码。
126.可选地，本实施例中的具体示例可以参考上述实施例中所描述的示例，本实施例在此不再赘述。
127.本技术实施例在具体实现时，可以参阅上述各个实施例，具有相应的技术效果。
128.可以理解的是，本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现，处理单元可以实现在一个或多个专用集成电路(application specific integrated circuits，asic)、数字信号处理器(digital signal processing，dsp)、数字信号处理设备(dsp device，dspd)、可编程逻辑设备(programmable logic device，pld)、现场可编程门阵列(field-programmable gate array，fpga)、通用处理器、控制器、微控制器、微处理器、用于执行本技术所述功能的其它电子单元或其组合中。
129.对于软件实现，可通过执行本文所述功能的单元来实现本文所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。
130.本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本技术的范围。
131.所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。
132.在本技术所提供的实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。
133.所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
134.另外，在本技术各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。
135.所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本技术实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、rom、ram、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
136.以上所述仅是本技术的具体实施方式，使本领域技术人员能够理解或实现本技术。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本技术的精神或范围的情况下，在其它实施例中实现。因此，本技术将不会被限制于本文所示的这些实施例，而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

技术特征：
1.一种确定重复录音片段的方法，其特征在于，所述方法包括：获取同一门店中每个语音采集设备的语音文本信息，其中，所述语音文本信息包括每条语音对应的语音文本和语音始末时刻；根据所述语音始末时刻，从多条所述语音文本中选取满足预设条件的多对候选文本片段，其中，每对候选文本片段包括两个语音采集设备中的语音文本，所述候选文本片段包括每个语音采集设备的至少一条语音文本；从所述候选文本片段中选取文本内容相似度最小的目标文本片段；若所述目标文本片段的相似度小于预设阈值，则将所述目标文本片段对应的录音作为重复录音片段。2.根据权利要求1所述的方法，其特征在于，根据所述语音始末时刻，从多条所述语音文本中选取满足预设条件的多对候选文本片段包括：从两个语音采集设备的语音文本开始位置处，将语音起始时刻差值在第一时长范围内的初始语音文本作为候选文本片段；从初始语音文本后的每条语音文本开始执行如下操作：若两个语音采集设备中属于同一层级语音文本的语音结束时刻差值在第二时长范围内，则将所述初始语音文本至当前语音文本作为候选文本片段，直至所述两个语音采集设备的当前语音文本的语音结束时刻差值超出所述第二时长范围，或当前候选文本片段的片段时长超出预设时长阈值。3.根据权利要求1所述的方法，其特征在于，从所述候选文本片段中选取文本内容相似度最小的目标文本片段之前，所述方法还包括：确定每对候选文本片段中两个文本片段之间的文本编辑距离，其中，每个文本片段对应一个语音采集设备；确定所述候选文本片段中两个文本片段的文本长度和值；将所述文本编辑距离和所述长度和值的商值作为候选文本片段的文本内容相似度。4.根据权利要求1所述的方法，其特征在于，所述获取同一门店中每个语音采集设备的语音文本信息包括：将每个门店中每个语音采集设备采集的语音识别为语音文本；确定每个语音文本的属性，其中，所述属性包括语音文本的所属门店、所属设备、文本内容、语音起始时刻和语音结束时刻；获取同一门店同一语音采集设备中的文本数据流；将所述文本数据流中的语音文本按照语音起始时刻进行排序。5.根据权利要求4所述的方法，其特征在于，获取同一门店同一语音采集设备中的文本数据流包括：按照所属门店将所述语音文本进行分组，其中，每组语音文本对应同一个门店；将同一组中的语音文本按照设备号划分为多个数据流，其中，每个每个数据流对应一个语音采集设备。6.根据权利要求1所述的方法，其特征在于，从多条所述语音文本中选取满足预设条件的多对候选文本片段之后，所述方法还包括：从最后一个候选文本片段的下一条语音文本开始，选取新的候选文本片段，直至语音
采集设备的全部语音文本遍历结束。7.根据权利要求1所述的方法，其特征在于，将所述目标文本片段对应的录音作为重复录音片段之后，所述方法还包括：识别出同一门店中任意两个语音采集设备之间的重复录音片段；对同一重复录音片段进行合并。8.一种确定重复录音片段的装置，其特征在于，所述装置包括：获取模块，用于获取同一门店中每个语音采集设备的语音文本信息，其中，所述语音文本信息包括每条语音对应的语音文本和语音始末时刻；第一选取模块，用于根据所述语音始末时刻，从多条所述语音文本中选取满足预设条件的多对候选文本片段，其中，每对候选文本片段包括两个语音采集设备中的语音文本，所述候选文本片段包括每个语音采集设备的至少一条语音文本；第二选取模块，用于从所述候选文本片段中选取文本内容相似度最小的目标文本片段；作为模块，用于若所述目标文本片段的相似度小于预设阈值，则将所述目标文本片段对应的录音作为重复录音片段。9.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；存储器，用于存放计算机程序；处理器，用于执行存储器上所存放的程序时，实现权利要求1-7任一所述的方法步骤。10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-7任一所述的方法步骤。

技术总结
本申请提供了确定重复录音片段的的方法、装置、电子设备和存储介质，所述方法包括：获取同一门店中每个语音采集设备的语音文本信息，其中，所述语音文本信息包括每条语音对应的语音文本和语音始末时刻；根据所述语音始末时刻，从多条所述语音文本中选取满足预设条件的多对候选文本片段，其中，每对候选文本片段包括两个语音采集设备中的语音文本，所述候选文本片段包括每个语音采集设备的至少一条语音文本；从所述候选文本片段中选取文本内容相似度最小的目标文本片段；若所述目标文本片段的相似度小于预设阈值，则将所述目标文本片段对应的录音作为重复录音片段。本申请提高了确定重复录音片段的准确性。重复录音片段的准确性。重复录音片段的准确性。

技术研发人员：赵亮姜平史佳艳何敏
受保护的技术使用者：北京明略昭辉科技有限公司
技术研发日：2023.05.15
技术公布日：2023/8/9

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

确定重复录音片段的方法、装置、电子设备和存储介质与流程

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

确定重复录音片段的方法、装置、电子设备和存储介质与流程

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表