面向庭审笔录自动生成的语言领域模型自适应分类方法与流程

未命名 08-14 阅读:95 评论:0


1.本发明涉及语音识别技术领域,尤其涉及一种面向庭审笔录自动生成的语言领域模型自适应分类方法。


背景技术:

2.目前,在法院案件的处理过程中,法庭审理笔录(简称“庭审笔录”)是法院裁判案件不可缺少的书面材料,其是由法院庭审记录员制作的同步反映全部审判活动真实情况的文字记载。
3.在开庭审理过程中,庭审记录员需要实时记录当事人的原话。但是,由于庭审信息较多且复杂程度较高,人工生成庭审笔录不仅效率低下,而且失误率也较高。
4.随着人工智能技术的发展,语音转写技术在庭审笔录方面已经得到应用,但现有的语音转写技术多适用于通用领域的语音识别,对于庭审过程中可能涉及到的各行各业专有名词的识别效果不佳,直接影响了庭审笔录生成的可靠性和准确率。


技术实现要素:

5.本发明提供一种面向庭审笔录自动生成的语言领域模型自适应分类方法,用以解决现有技术中庭审笔录生成的可靠性和准确率低的问题。
6.本发明提供一种面向庭审笔录自动生成的语言领域模型自适应分类方法,包括:
7.获取庭审语音流,所述庭审语音流包括至少一段庭审语音;
8.基于当前段的庭审语音之前的历史庭审语音的识别文本,进行庭审领域分类,得到分类结果,或者,获取所述庭审语音流的预设领域作为所述分类结果;
9.基于所述分类结果对应的语言领域模型,对当前段的庭审语音进行语音识别,得到当前段的庭审语音的识别文本,并将所述当前段的庭审语音加入所述历史庭审语音进行分类结果更新,直至所述庭审语音流停止更新;
10.基于各段庭审语音的识别文本,生成庭审笔录。
11.根据本发明提供的一种面向庭审笔录自动生成的语言领域模型自适应分类方法,所述基于所述分类结果对应的语言领域模型,对当前段的庭审语音进行语音识别,得到当前段的庭审语音的识别文本,包括:
12.基于所述分类结果,确定所述历史庭审语音所属的庭审领域;
13.基于所述庭审领域对应的语言领域模型,对所述当前段的庭审语音进行语音识别,得到当前段的庭审语音的识别文本。
14.根据本发明提供的一种面向庭审笔录自动生成的语言领域模型自适应分类方法,所述基于所述庭审领域对应的语言领域模型,对所述当前段的庭审语音进行语音识别,得到当前段的庭审语音的识别文本,包括:
15.基于所述分类结果,确定所述历史庭审语音所属的庭审领域的分类概率,并基于所述分类概率,确定所述庭审领域的领域权重;
16.基于所述庭审领域对应的语言领域模型,以及所述庭审领域的领域权重,对所述当前段的庭审语音进行语音识别,得到当前段的庭审语音的识别文本。
17.根据本发明提供的一种面向庭审笔录自动生成的语言领域模型自适应分类方法,所述基于当前段的庭审语音之前的历史庭审语音的识别文本,进行庭审领域分类,得到分类结果,包括:
18.对所述历史庭审语音进行说话人识别,得到所述历史庭审语音的说话人信息;
19.基于所述历史庭审语音的识别文本,以及所述历史庭审语音的说话人信息,进行庭审领域分类,得到所述分类结果。
20.根据本发明提供的一种面向庭审笔录自动生成的语言领域模型自适应分类方法,所述基于所述历史庭审语音的识别文本,以及所述历史庭审语音的说话人信息,进行庭审领域分类,得到所述分类结果,包括:
21.对所述历史庭审语音的识别文本进行庭审领域分类,得到所述历史庭审语音属于各预设庭审领域的分类概率;
22.基于所述历史庭审语音的说话人信息中的说话人所属的法庭类型,确定人员庭审领域,所述人员庭审领域属于所述各预设庭审领域;
23.基于所述人员庭审领域,对所述历史庭审语音属于各预设庭审领域的分类概率进行调整,得到所述分类结果。
24.根据本发明提供的一种面向庭审笔录自动生成的语言领域模型自适应分类方法,所述庭审语音流基于当前段的庭审语音的识别文本的字数、标点符号、段落数以及所述当前段的庭审语音的说话人信息中的至少一种,进行庭审语音划分。
25.根据本发明提供的一种面向庭审笔录自动生成的语言领域模型自适应分类方法,所述历史庭审语音为所述当前段的前一段庭审语音;
26.或者,所述历史庭审语音包括所述当前段之前的每一段庭审语音。
27.本发明还提供一种面向庭审笔录自动生成的语言领域模型自适应分类装置,包括:
28.获取单元,用于获取庭审语音流,所述庭审语音流包括至少一段庭审语音;
29.分类单元,用于基于当前段的庭审语音之前的历史庭审语音的识别文本,进行庭审领域分类,得到分类结果,或者,获取所述庭审语音流的预设领域作为所述分类结果;
30.识别单元,用于基于所述分类结果对应的语言领域模型,对当前段的庭审语音进行语音识别,得到当前段的庭审语音的识别文本,并将所述当前段的庭审语音加入所述历史庭审语音进行分类结果更新,直至所述庭审语音流停止更新;
31.生成单元,用于基于各段庭审语音的识别文本,生成庭审笔录。
32.本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述面向庭审笔录自动生成的语言领域模型自适应分类方法。
33.本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述面向庭审笔录自动生成的语言领域模型自适应分类方法。
34.本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器
执行时实现如上述任一种所述面向庭审笔录自动生成的语言领域模型自适应分类方法。
35.本发明提供的面向庭审笔录自动生成的语言领域模型自适应分类方法和装置,通过基于当前段的庭审语音之前的历史庭审语音的识别文本,进行庭审领域分类,得到分类结果,基于该分类结果,适配庭审领域对应的语言领域模型,基于该语言领域模型对当前段的庭审语音进行语音识别,可以提高庭审场景下语音转写的效果,从而提高庭审笔录生成的可靠性和准确率。
附图说明
36.为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
37.图1是本发明提供的面向庭审笔录自动生成的语言领域模型自适应分类方法的流程示意图;
38.图2是本发明提供的面向庭审笔录自动生成的语言领域模型自适应分类方法中步骤130的流程示意图;
39.图3是本发明提供的面向庭审笔录自动生成的语言领域模型自适应分类方法中步骤132的流程示意图;
40.图4是本发明提供的面向庭审笔录自动生成的语言领域模型自适应分类方法中步骤120的流程示意图;
41.图5是本发明提供的面向庭审笔录自动生成的语言领域模型自适应分类方法中步骤122的流程示意图;
42.图6是本发明提供的面向庭审笔录自动生成的语言领域模型自适应分类装置的结构示意图;
43.图7是本发明提供的电子设备的结构示意图。
具体实施方式
44.为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
45.目前,在法庭审理案件的过程中,通常由庭审记录员先确认每一当事人的身份信息,再对每一当事人陈述的意见或内容进行记录。由于人工记录的速度和精力有限,易导致庭审笔录存在记录不全、记录偏差等问题,且通过人工记录效率较低,对庭审进程存在影响。
46.随着人工智能技术的发展,法庭庭审过程中已经应用了语音转写技术,帮助庭审记录员进行笔录的编写。在实际应用中,现有的语音转写技术对通用领域的识别效果较好,但当庭审过程中涉及到各行各业的专有名词时,识别效果不佳。对此,本发明实施例提供一种面向庭审笔录自动生成的语言领域模型自适应分类方法,通过基于识别文本所涉及的领
域,适配对应领域的语言领域模型进行后续语音流的语音转写,以提高庭审场景下语音转写的可靠性和准确率,从而克服上述问题。
47.图1是本发明提供的面向庭审笔录自动生成的语言领域模型自适应分类方法的流程示意图,如图1所示,该方法包括:
48.步骤110,获取庭审语音流,庭审语音流包括至少一段庭审语音;
49.需要说明的是,庭审语音是指在法院庭审过程中,法官、律师、当事人和证人等不同身份的发言人在庭审现场发表的言语或者陈述。庭审语音流是指庭审过程中产生的实时语音流数据,其可以包括一段或多段庭审语音,此处,一段庭审语音可以是一个时间段内的录音数据。在对庭审语音流进行划分时,可以基于时间进行划分,也可以基于庭审语音对应的识别文本的字数、标点符号或段落数等进行划分,以得到一段或多段庭审语音,本发明实施例对此不作具体限定。一段庭审语音可以是多个人之间的对话交流,也可以是一个发言人对庭审案件作出的陈述或回答。
50.具体地,在庭审过程中,可以通过语音设备进行实时语音录制,以获取庭审语音流,也可以通过录像设备进行实时录像,以获取录像数据,基于该录像数据可以获取庭审语音流。本发明实施例对庭审语音流的获取方式不作具体限定。
51.步骤120,基于当前段的庭审语音之前的历史庭审语音的识别文本,进行庭审领域分类,得到分类结果,或者,获取庭审语音流的预设领域作为分类结果;
52.需要说明的是,历史庭审语音是指已进行语音识别并获得识别文本的庭审语音,当前段的庭审语音是指当前待进行语音识别的目标庭审语音,该目标庭审语音为历史庭审语音的后一段庭审语音。历史庭审语音可以是当前段的前一段庭审语音,也可以是当前段之前的所有庭审语音,还可以是当前段之前的任一段庭审语音,本发明实施例对此不作具体限定。例如,在第二段庭审语音为当前段的庭审语音的情况下,第一段庭审语音即为历史庭审语音;在第三段庭审语音为当前段的庭审语音的情况下,历史庭审语音可以为第二段庭审语音,也可以为第一段庭审语音,还可以同时包括第一段庭审语音和第二段庭审语音。
53.具体地,在确定当前段的庭审语音后,可以获取当前段的庭审语音之前的历史庭审语音,在获得历史庭审语音的情况下,可以基于历史庭审语音获取其对应的识别文本,基于该识别文本可以进行庭审领域分类。此处,庭审领域分类是指对庭审语音转写得到的识别文本根据其涉及的法律领域或者案件类型,进行分类和归类,例如,根据涉及的案件类型,可以将庭审领域分为民事领域、刑事领域、商事领域等;根据涉及的法律领域,可以将庭审领域分为合同领域、婚姻领域、劳动领域、金融领域等。在未获得历史庭审语音的情况下,可以直接获取庭审语音流的预设领域,将该预设领域作为分类结果,例如,在第一段庭审语音为当前段的庭审语音的情况下,由于第一段庭审语音之前尚未开始进行语音录制,因此不存在历史庭审语音,在此情况下,可以将庭审语音流的预设领域作为分类结果。此处,预设领域是指预先设定的庭审领域,例如,预设领域可以为通用领域,也可以根据需求设定为特定的庭审领域,如婚姻领域。
54.在获得历史庭审语音的情况下,可以基于历史庭审语音的识别文本进行庭审领域分类,庭审领域分类可以通过对庭审语音转写得到的识别文本进行文本分类实现。例如,在对历史庭审语音的识别文本进行庭审领域分类时,可以使用一些基础的分类算法实现,如支持向量机、决策树等,也可以使用卷积神经网络、循环神经网络等深度学习算法进行分类
处理,还可以使用bert(bidirectional encoder represen-tations from transformers)模型进行语义提取后输入分类模型进行分类处理,本发明实施例对此不作具体限定。
55.对历史庭审语音的识别文本进行庭审领域分类后,可以得到分类结果,此处分类结果用于表示该识别文本对应的庭审领域类型,分类结果可以是识别文本所属的庭审领域,也可以是识别文本属于各个预设的庭审领域的概率。例如,在民事案件中,历史庭审语音的识别文本中涉及到离婚相关的内容,在对该识别文本进行庭审领域分类后,可以得到分类结果为“婚姻领域”。
56.步骤130,基于分类结果对应的语言领域模型,对当前段的庭审语音进行语音识别,得到当前段的庭审语音的识别文本,并将当前段的庭审语音加入历史庭审语音进行分类结果更新,直至庭审语音流停止更新;
57.需要说明的是,由于庭审过程中可能涉及到不同庭审领域的内容,为了更好地对庭审语音中涉及的不同庭审领域的专有名词进行识别,提高庭审场景下语音转写的准确率,可以预先获得不同庭审领域对应的语言领域模型,如婚姻类语言模型、金融类语言模型等。可以理解的是,此处的语言领域模型,即对应庭审领域下的语言模型。在获得庭审领域分类的分类结果后,基于该分类结果自动匹配获得对应的语言领域模型,从而基于该语言领域模型对当前段的庭审语音进行语音识别,可以提高庭审笔录生成的可靠性和准确率。
58.此处,每个庭审领域对应的语言领域模型是基于该庭审领域大量的语料训练得到的,其能够识别该庭审领域内的语言模式、词性和语法结构等,从而可以准确地对该庭审领域的庭审语音进行语音识别。
59.具体地,在训练获得不同庭审领域对应的语言领域模型后,基于分类结果可以自动匹配获得对应的语言领域模型,例如,在历史庭审语音的识别文本涉及离婚相关内容的情况下,对该识别文本进行庭审领域分类,可以得到分类结果为“婚姻领域”,基于该分类结果进行自动匹配,可以获得对应的语言领域模型,即婚姻类语言模型。又如,在历史庭审语音的识别文本涉及复利相关内容的情况下,对该识别文本进行庭审领域分类,可以得到分类结果为“金融领域”,基于该分类结果进行自动匹配,可以获得对应的语言领域模型,即金融类语言模型。
60.在获得对应的语言领域模型后,可以调用该语言领域模型,对当前段的庭审语音进行语音识别,从而得到对应的识别文本,可以提高庭审场景下语音识别转写的准确率。对当前段的庭审语音完成语音识别后,将该段庭审语音加入历史庭审语音中,以便对后续的庭审语音流进行语音识别时进行分类结果更新,可以提高分类结果的准确率,从而提高对庭审语音进行语音识别的准确率。
61.需要说明的是,分类结果对应的语言领域模型可以包括一个或者多个庭审领域的语言领域模型,进一步地,通过调用多个庭审领域的语言领域模型进行语音识别,能够保证复合领域场景下的语音识别的准确率。
62.示例性地,在当前段的庭审语音为第二段庭审语音的情况下,第一段庭审语音即为历史庭审语音,基于该历史庭审语音的识别文本进行庭审领域分类,可以得到第一分类结果,基于第一分类结果对应的语言领域模型对当前段的庭审语音进行语音识别后,可以将当前段的庭审语音,即第二段庭审语音作为历史庭审语音,也可以将第一段庭审语音和第二段庭审语音同时作为历史庭审语音;在第三段庭审语音成为当前段的庭审语音时,基
于更新后的历史庭审语音,获取其对应的识别文本,并基于该识别文本进行庭审领域分类,可以获得第二分类结果,此处,第二分类结果可以与第一分类结果相同,也可以不同,基于第二分类结果对应的语言领域模型对当前段的庭审语音进行语音识别,并将第三段庭审语音加入历史庭审语音;继续对下一段庭审语音进行语音识别,直至庭审语音流停止更新。
63.可理解的是,庭审语音流停止更新是指庭审结束的时刻,在庭审过程中,通过语音设备进行实时语音录制时,获取的庭审语音流是实时更新的,在庭审结束时,语音设备将被关闭,不再进行语音录制,此时庭审语音流将停止更新。
64.步骤140,基于各段庭审语音的识别文本,生成庭审笔录。
65.具体地,庭审语音流可以包括一段或多段庭审语音,在庭审语音流包括多段庭审语音的情况下,可以顺序对庭审语音流的每一段庭审语音进行语音识别,获得识别文本,即获得了庭审语音流中各段庭审语音的识别文本,基于获得的所有识别文本,可以生成庭审笔录。此处,在对每一段庭审语音进行语音识别时,是基于庭审领域分类的分类结果对应的语言领域模型实现的,如此可以实现对不同庭审领域的专有名词进行语音识别,确保识别效果,从而提高庭审笔录生成的准确率。
66.在获得各段庭审语音的识别文本后,可以对识别文本进行清理,如去除无用信息、重复部分,并对所有识别文本的格式和排版进行整理,从而生成庭审笔录。
67.本发明提供的面向庭审笔录自动生成的语言领域模型自适应分类方法,通过基于当前段的庭审语音之前的历史庭审语音的识别文本,进行庭审领域分类,得到分类结果,基于该分类结果,适配庭审领域对应的语言领域模型,基于该语言领域模型对当前段的庭审语音进行语音识别,可以提高庭审场景下语音转写的效果,从而提高庭审笔录生成的可靠性和准确率。
68.基于上述实施例,图2是本发明提供的面向庭审笔录自动生成的语言领域模型自适应分类方法中步骤130的流程示意图,如图2所示,步骤130具体包括:
69.步骤131,基于分类结果,确定历史庭审语音所属的庭审领域;
70.具体地,对历史庭审语音的识别文本进行庭审领域分类,得到的分类结果可以是一个或者多个庭审领域类型,基于得到的一个或多个分类结果,可以确定历史庭审语音所属的一个或多个庭审领域。例如,合同纠纷的庭审案件中,历史庭审语音的识别文本涉及到合同、复利等相关内容,在对该识别文本进行庭审领域分类后,可以得到分类结果为“合同领域”和“金融领域”,基于该分类结果,可以确定历史庭审语音所述的庭审领域为“合同领域”和“金融领域”。
71.例如,在分类结果包括识别文本属于各个预设的庭审领域的概率时,可以从中选取概率大于预设概率的庭审领域,作为历史庭审语音所属的庭审领域,或者选取概率最高的一个庭审领域,作为历史庭审语音所属的庭审领域,再或者选取概率由高到低排序时排列在前3或者前2的庭审领域,作为历史庭审语音所属的庭审领域,本发明实施例对此不作具体限定。
72.步骤132,基于庭审领域对应的语言领域模型,对当前段的庭审语音进行语音识别,得到当前段的庭审语音的识别文本。
73.具体地,可以预先设定多个庭审领域,例如合同领域、金融领域、婚姻领域、劳动领域等,针对每一个庭审领域,可以预先训练获得对应的语言领域模型,如合同类语言模型、
金融类语言模型、婚姻类语言模型、劳动类语言模型等,并将每个庭审领域与其对应的语言领域模型进行关联,在确定历史庭审语音所属的庭审领域后,基于该庭审领域自动匹配,可以获得对应的语言领域模型。例如,庭审领域为“婚姻领域”,则对应的语言领域模型为“婚姻类语言模型”;又如,庭审领域为“合同领域”和“金融领域”,则对应的语言领域模型为“合同类语言模型”和“金融类语言模型”。
74.在确定庭审领域对应的语言领域模型后,可以调用该语言领域模型,对当前段的庭审语音进行语音识别,可以获得对应的识别文本。此处,当确定的语言领域模型有多个时,可以并行调用多个语言领域模型进行语音识别。
75.本发明实施例中,通过基于分类结果,可以确定历史庭审语音所属的一个或多个庭审领域,基于该一个或多个庭审领域,可以获得对应的一个或多个语言领域模型,应用这一个或多个语言领域模型对当前段的庭审语音进行语音识别,可以进一步提高对不同庭审领域的专有名词的识别效果,从而确保庭审笔录生成的可靠性和准确率。
76.基于上述实施例,图3是本发明提供的面向庭审笔录自动生成的语言领域模型自适应分类方法中步骤132的流程示意图,如图3所示,步骤132具体包括:
77.步骤1321,基于分类结果,确定历史庭审语音所属的庭审领域的分类概率,并基于分类概率,确定庭审领域的领域权重;
78.需要说明的是,在对历史庭审语音的识别文本进行庭审领域分类时,得到的分类结果可能不是一个确定的庭审领域,例如通过分类模型对历史庭审语音的识别文本进行庭审领域分类时,得到的分类结果可以为历史庭审语音所属的庭审领域的分类概率,此处,分类概率是指历史庭审语音分别属于多个预设庭审领域的概率。
79.示例性地,预设庭审领域可以包括婚姻领域、合同领域、金融领域、劳动领域等,对历史庭审语音的识别文本进行庭审领域分类后,得到的分类结果可以为“合同领域60%,金融领域40%”,基于该分类结果,可以确定历史庭审语音所属的庭审领域的分类概率,即其属于合同领域的概率为60%,属于金融领域的概率为40%。
80.具体地,在确定历史庭审语音所属的庭审领域的分类概率后,可以基于专家经验确定每个庭审领域对应的领域权重,也可以利用机器学习算法自动学习获得每个庭审领域对应的领域权重,本发明实施例对此不作具体限定。可理解的是,领域权重是指庭审领域对应的语言领域模型的权重,其用于衡量不同庭审领域的语言领域模型对庭审语音进行语音识别的重要性。
81.步骤1322,基于庭审领域对应的语言领域模型,以及庭审领域的领域权重,对当前段的庭审语音进行语音识别,得到当前段的庭审语音的识别文本。
82.具体地,在确定得到多个庭审领域的领域权重后,可以参考领域权重调用该多个庭审领域对应的语言领域模型,对当前段的庭审语音进行语音识别,以得到最终的识别文本。
83.应理解的是,为了更好地适应对不同庭审场景下的庭审语音进行语音识别,可以利用注意力机制对领域权重进行自适应调整,通过对训练数据进行学习,可以得到每个庭审领域的自适应领域权重,从而提高模型的性能和鲁棒性。
84.本发明实施例中,通过历史庭审语音所属的庭审领域的分类概率,可以确定多个庭审领域的领域权重,基于该多个领域权重,可以将多个语言领域模型进行融合,从而提高
模型的准确性和鲁棒性,适应不同庭审场景下的语音识别需求,确保庭审笔录生成的准确率。
85.基于上述任一实施例,图4是本发明提供的面向庭审笔录自动生成的语言领域模型自适应分类方法中步骤120的流程示意图,如图4所示,步骤120具体包括:
86.步骤121,对历史庭审语音进行说话人识别,得到历史庭审语音的说话人信息;
87.步骤122,基于历史庭审语音的识别文本,以及历史庭审语音的说话人信息,进行庭审领域分类,得到分类结果。
88.需要说明的是,上述各实施例是基于历史庭审语音的识别文本进行庭审领域分类,为了进一步提高庭审领域分类的全面性和准确性,本发明实施例在此基础上,还可以基于历史庭审语音的说话人信息进行进行庭审领域分类,从而得到更准确全面的分类结果,以提高庭审场景下语音识别转写的准确率。
89.具体地,上述说话人识别是指根据历史庭审语音确定该语音的说话人身份,上述说话人信息是指对历史庭审语音进行说话人识别,得到的该语音对应的说话人身份信息。在对历史庭审语音进行说话人识别时,可以基于历史庭审语音所携带的声纹特征来实现。
90.在一实施例中,可以预先收集法庭各工作人员的语音数据,基于该语音数据提取得到法庭各工作人员的声纹特征并保存,在对历史庭审语音进行说话人识别时,可以先对历史庭审语音进行去除背景噪声、增强人声等预处理,然后使用特征提取算法,如梅尔频率倒谱系数(melfrequencycepstrumcoefficient,mfcc)、感知线性预测系数(perceptuallinearpredictive,plp)等算法,提取历史庭审语音中的声学特征,进而基于声学特征提取声纹特征,将提取得到的声纹特征与预先保存的法庭各工作人员的声纹特征进行比对,即可得到历史庭审语音的说话人信息。
91.在另一实施例中,可以预先收集法庭各工作人员大量的样本语音数据,基于样本语音数据对机器学习模型进行训练,得到训练后的说话人识别模型,此处,机器学习模型可以是高斯混合模型(gaussian mixture model,gmm)、深度神经网络(deep neural networks,dnn)等。基于训练得到的说话人识别模型,对历史庭审语音进行说话人识别,从而得到历史庭审语音的说话人信息。
92.在得到说话人信息后,可以基于历史庭审语音的识别文本和说话人信息同时进行庭审领域分类,以得到更全面准确的分类结果。例如,基于历史庭审语音的识别文本进行庭审领域分类,得到的分类结果为“合同领域”,此时,得到的说话人信息显示该历史庭审语音的说话人是知识产权法庭的工作人员,则可以确定目前庭审内容所涉及的庭审领域为“知识产权领域”,基于此,可以确定最终得到的庭审领域分类的分类结果为“合同领域”和“知识产权领域”。
93.应理解的是,基于历史庭审语音的识别文本以及说话人信息进行庭审领域分类,得到的分类结果可以为确定的庭审领域,也可以为历史庭审语音属于各预设庭审领域的分类概率。考虑到在实际中可能存在人员调整、调动的情况,得到的说话人信息不一定是当前最新的说话人身份信息,因此,基于历史庭审语音的说话人信息进行庭审领域分类可以作为参考,不作为庭审场景下语音识别转写的主要决定因素,可以应用基于说话人信息确定得到的庭审领域,对基于历史庭审语音的识别文本确定得到的庭审领域进行补充或微调。
94.例如,基于历史庭审语音的识别文本进行庭审领域分类,得到的分类结果为一个
或多个确定的庭审领域,可以将基于历史庭审语音的说话人信息确定的庭审领域补充到上述一个或多个确定的庭审领域之中。又如,基于历史庭审语音的识别文本进行庭审领域分类,得到的分类结果是历史庭审语音属于各预设庭审领域的分类概率,此时可以将基于历史庭审语音的说话人信息确定的庭审领域对应的分类概率适当调高。
95.基于上述实施例,图5是本发明提供的面向庭审笔录自动生成的语言领域模型自适应分类方法中步骤122的流程示意图,如图5所示,步骤122具体包括:
96.步骤1221,对历史庭审语音的识别文本进行庭审领域分类,得到历史庭审语音属于各预设庭审领域的分类概率;
97.具体地,在对历史庭审语音的识别文本进行庭审领域分类时,可以使用分类模型实现,将历史庭审语音的识别文本输入至分类模型,即可得到分类模型输出的各预设庭审领域的分类概率。此处,各预设庭审领域是指预先设定的庭审领域类型,例如,各预设庭审领域可以包括婚姻领域、合同领域、金融领域、知识产权领域、劳动领域等。各预设庭审领域的分类概率是指历史庭审语音属于各预设庭审领域的概率。
98.在执行步骤1221之前,可以预先训练得到分类模型,具体可以通过如下方式训练得到分类模型:收集大量各预设庭审领域的样本文本,基于样本文本对分类器进行训练,通过不断的迭代优化,得到训练后的分类模型。
99.步骤1222,基于历史庭审语音的说话人信息中的说话人所属的法庭类型,确定人员庭审领域,人员庭审领域属于各预设庭审领域;
100.具体地,说话人信息是指识别得到的历史庭审语音对应的说话人身份信息,其可以包括姓名、性别、年龄、职业、职位等相关信息。在庭审过程中,庭审内容涉及到的行业与说话人的职业、职位等信息是相关的,因此,在基于说话人信息进行庭审领域分类时,可以基于说话人信息中的职业、职位等相关信息进行分类判断。例如,如果说话人是知识产权法庭的工作人员,则目前庭审内容所涉及的领域很可能是知识产权领域。
101.应理解的是,考虑到庭审中涉及的当事人较多、工作行业可能各不相同,为了避免确定的庭审领域出现误差,本发明实施例中仅基于法庭工作人员,即说话人所属的法庭类型,来确定人员庭审领域。此处,说话人所属的法庭类型是指说话人在该法庭类型对应的法庭工作,例如,如果说话人是知识产权法庭的工作人员,则该说话人所属的法庭类型为知识产权法庭,基于此,可以确定人员庭审领域为“知识产权领域”。此处,人员庭审领域是指基于说话人信息中的说话人所属的法庭类型,确定得到的庭审领域,该庭审领域属于各预设庭审领域中的一个。
102.步骤1223,基于人员庭审领域,对历史庭审语音属于各预设庭审领域的分类概率进行调整,得到分类结果。
103.具体地,在确定人员庭审领域后,可以对各预设庭审领域的分类概率进行调整,例如,将各预设庭审领域中的人员庭审领域对应的分类概率适当调高,以调整该人员庭审领域为历史庭审语音所属的庭审领域的置信度,从而进一步提高对庭审语音进行语音识别的准确率。
104.示例性地,各预设庭审领域可以包括婚姻领域、合同领域、金融领域、知识产权领域、劳动领域,对历史庭审语音的识别文本进行庭审领域分类,可以得到历史庭审语音属于各预设庭审领域的分类概率为:婚姻领域10%,合同领域70%,金融领域30%,知识产权领
域40%,劳动领域10%;基于历史庭审语音的说话人信息中的说话人所属的法庭类型,确定的人员庭审领域为知识产权领域,基于此,可以将各预设庭审领域中知识产权领域的分类概率适当调高,如调整至50%,由此得到的分类结果可以为:婚姻领域10%,合同领域70%,金融领域30%,知识产权领域50%,劳动领域10%。
105.基于上述任一实施例,庭审语音流基于当前段的庭审语音的识别文本的字数、标点符号、段落数以及当前段的庭审语音的说话人信息中的至少一种,进行庭审语音划分。
106.具体地,本发明实施例中,将庭审语音流划分为一段或多段庭审语音,便于后续通过对应庭审领域的语言领域模型对庭审语音进行语音识别,从而可以提高庭审场景下语音识别转写的准确率,确保庭审笔录生成的可靠性和准确性。
107.在一实施例中,可以基于字数对庭审语音流进行划分,在完成预设字数的庭审语音的语音识别后,对该预设字数的识别文本进行庭审领域分类,并基于所得的分类结果对应的语言领域模型,对下一预设字数的庭审语音进行语音识别,此处,预设字数可以根据实际需求进行设定,例如,预设字数可以为5或10,由此可以实现基于一句庭审语音的前半句调整后半句的语音识别效果,以提高识别准确率。
108.在一实施例中,可以基于标点符号(如句号)对庭审语音流进行划分,在完成一句庭审语音的语音识别后,对该句的识别文本进行庭审领域分类,并基于所得的分类结果对应的语言领域模型,对下一句庭审语音进行语音识别。
109.在另一实施例中,可以基于段落对庭审语音流进行划分,在完成一个段落的庭审语音的语音识别后,对该段落的识别文本进行庭审领域分类,并基于所得的分类结果对应的语言领域模型,对下一段落的庭审语音进行语音识别。
110.在又一实施例中,可以基于当前段的庭审语音的说话人信息对庭审语音流进行划分,即说话人发生变更后,对庭审语音流进行划分,此种情况下,可以在完成一个说话人对应的庭审语音的语音识别后,对该说话人的识别文本进行庭审领域分类,并基于所得的分类结果对应的语言领域模型,对下一说话人的庭审语音进行语音识别。
111.基于上述任一实施例,历史庭审语音为当前段的前一段庭审语音;
112.或者,历史庭审语音包括当前段之前的每一段庭审语音。
113.具体地,在庭审过程中,庭审内容的上下文通常是紧密相关的,即,前一段庭审语音和后一段庭审语音属于相同庭审领域的概率较高,因此,在基于历史庭审语音进行庭审领域分类时,可以将当前段的前一段庭审语音作为历史庭审语音,由此确定得到的庭审领域也适配当前段的庭审语音,基于该庭审领域的语言领域模型对当前段的庭审语音进行语音识别,可以得到更准确的识别文本。
114.在基于历史庭审语音进行庭审领域分类时,也可以将当前段之前的每一段庭审语音作为历史庭审语音,即将当前段之前的所有庭审语音作为整体,由此确定得到的庭审领域更全面,基于该庭审领域的语言领域模型对当前段的庭审语音进行语音识别,也可以得到更准确的识别文本,从而确保庭审笔录生成的可靠性。
115.基于上述任一实施例,图6是本发明提供的面向庭审笔录自动生成的语言领域模型自适应分类装置的结构示意图,如图6所示,该装置包括:
116.获取单元610,用于获取庭审语音流,庭审语音流包括至少一段庭审语音;
117.分类单元620,用于基于当前段的庭审语音之前的历史庭审语音的识别文本,进行
庭审领域分类,得到分类结果,或者,获取庭审语音流的预设领域作为分类结果;
118.识别单元630,用于基于分类结果对应的语言领域模型,对当前段的庭审语音进行语音识别,得到当前段的庭审语音的识别文本,并将当前段的庭审语音加入历史庭审语音进行分类结果更新,直至庭审语音流停止更新;
119.生成单元640,用于基于各段庭审语音的识别文本,生成庭审笔录。
120.本发明提供的面向庭审笔录自动生成的语言领域模型自适应分类装置,通过基于当前段的庭审语音之前的历史庭审语音的识别文本,进行庭审领域分类,得到分类结果,基于该分类结果,适配庭审领域对应的语言领域模型,基于该语言领域模型对当前段的庭审语音进行语音识别,可以提高庭审场景下语音转写的效果,从而提高庭审笔录生成的可靠性和准确率。
121.基于上述任一实施例,识别单元630具体包括:
122.领域确定子单元,用于基于分类结果,确定历史庭审语音所属的庭审领域;
123.语音识别子单元,用于基于庭审领域对应的语言领域模型,对当前段的庭审语音进行语音识别,得到当前段的庭审语音的识别文本。
124.基于上述任一实施例,语音识别子单元具体用于:
125.基于分类结果,确定历史庭审语音所属的庭审领域的分类概率,并基于分类概率,确定庭审领域的领域权重;
126.基于庭审领域对应的语言领域模型,以及庭审领域的领域权重,对当前段的庭审语音进行语音识别,得到当前段的庭审语音的识别文本。
127.基于上述任一实施例,分类单元620具体包括:
128.说话人识别子单元,用于对历史庭审语音进行说话人识别,得到历史庭审语音的说话人信息;
129.领域分类子单元,用于基于历史庭审语音的识别文本,以及历史庭审语音的说话人信息,进行庭审领域分类,得到分类结果。
130.基于上述任一实施例,领域分类子单元具体用于:
131.对历史庭审语音的识别文本进行庭审领域分类,得到历史庭审语音属于各预设庭审领域的分类概率;
132.基于历史庭审语音的说话人信息中的说话人所属的法庭类型,确定人员庭审领域,人员庭审领域属于各预设庭审领域;
133.基于人员庭审领域,对历史庭审语音属于各预设庭审领域的分类概率进行调整,得到分类结果。
134.基于上述任一实施例,庭审语音流基于当前段的庭审语音的识别文本的字数、标点符号、段落数以及当前段的庭审语音的说话人信息中的至少一种,进行庭审语音划分。
135.基于上述任一实施例,历史庭审语音为当前段的前一段庭审语音;或者,历史庭审语音包括当前段之前的每一段庭审语音。
136.图7示例了一种电子设备的实体结构示意图,如图7所示,该电子设备可以包括:处理器(processor)710、通信接口(communications interface)720、存储器(memory)730和通信总线740,其中,处理器710,通信接口720,存储器730通过通信总线740完成相互间的通信。处理器710可以调用存储器730中的逻辑指令,以执行面向庭审笔录自动生成的语言领
域模型自适应分类方法,该方法包括:获取庭审语音流,庭审语音流包括至少一段庭审语音;基于当前段的庭审语音之前的历史庭审语音的识别文本,进行庭审领域分类,得到分类结果,或者,获取庭审语音流的预设领域作为分类结果;基于分类结果对应的语言领域模型,对当前段的庭审语音进行语音识别,得到当前段的庭审语音的识别文本,并将当前段的庭审语音加入历史庭审语音进行分类结果更新,直至庭审语音流停止更新;基于各段庭审语音的识别文本,生成庭审笔录。
137.此外,上述的存储器730中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
138.另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的面向庭审笔录自动生成的语言领域模型自适应分类方法,该方法包括:获取庭审语音流,庭审语音流包括至少一段庭审语音;基于当前段的庭审语音之前的历史庭审语音的识别文本,进行庭审领域分类,得到分类结果,或者,获取庭审语音流的预设领域作为分类结果;基于分类结果对应的语言领域模型,对当前段的庭审语音进行语音识别,得到当前段的庭审语音的识别文本,并将当前段的庭审语音加入历史庭审语音进行分类结果更新,直至庭审语音流停止更新;基于各段庭审语音的识别文本,生成庭审笔录。
139.又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的面向庭审笔录自动生成的语言领域模型自适应分类方法,该方法包括:获取庭审语音流,庭审语音流包括至少一段庭审语音;基于当前段的庭审语音之前的历史庭审语音的识别文本,进行庭审领域分类,得到分类结果,或者,获取庭审语音流的预设领域作为分类结果;基于分类结果对应的语言领域模型,对当前段的庭审语音进行语音识别,得到当前段的庭审语音的识别文本,并将当前段的庭审语音加入历史庭审语音进行分类结果更新,直至庭审语音流停止更新;基于各段庭审语音的识别文本,生成庭审笔录。
140.以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
141.通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该
计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
142.最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

技术特征:
1.一种面向庭审笔录自动生成的语言领域模型自适应分类方法,其特征在于,包括:获取庭审语音流,所述庭审语音流包括至少一段庭审语音;基于当前段的庭审语音之前的历史庭审语音的识别文本,进行庭审领域分类,得到分类结果,或者,获取所述庭审语音流的预设领域作为所述分类结果;基于所述分类结果对应的语言领域模型,对当前段的庭审语音进行语音识别,得到当前段的庭审语音的识别文本,并将所述当前段的庭审语音加入所述历史庭审语音进行分类结果更新,直至所述庭审语音流停止更新;基于各段庭审语音的识别文本,生成庭审笔录。2.根据权利要求1所述的面向庭审笔录自动生成的语言领域模型自适应分类方法,其特征在于,所述基于所述分类结果对应的语言领域模型,对当前段的庭审语音进行语音识别,得到当前段的庭审语音的识别文本,包括:基于所述分类结果,确定所述历史庭审语音所属的庭审领域;基于所述庭审领域对应的语言领域模型,对所述当前段的庭审语音进行语音识别,得到当前段的庭审语音的识别文本。3.根据权利要求2所述的面向庭审笔录自动生成的语言领域模型自适应分类方法,其特征在于,所述基于所述庭审领域对应的语言领域模型,对所述当前段的庭审语音进行语音识别,得到当前段的庭审语音的识别文本,包括:基于所述分类结果,确定所述历史庭审语音所属的庭审领域的分类概率,并基于所述分类概率,确定所述庭审领域的领域权重;基于所述庭审领域对应的语言领域模型,以及所述庭审领域的领域权重,对所述当前段的庭审语音进行语音识别,得到当前段的庭审语音的识别文本。4.根据权利要求1所述的面向庭审笔录自动生成的语言领域模型自适应分类方法,其特征在于,所述基于当前段的庭审语音之前的历史庭审语音的识别文本,进行庭审领域分类,得到分类结果,包括:对所述历史庭审语音进行说话人识别,得到所述历史庭审语音的说话人信息;基于所述历史庭审语音的识别文本,以及所述历史庭审语音的说话人信息,进行庭审领域分类,得到所述分类结果。5.根据权利要求4所述的面向庭审笔录自动生成的语言领域模型自适应分类方法,其特征在于,所述基于所述历史庭审语音的识别文本,以及所述历史庭审语音的说话人信息,进行庭审领域分类,得到所述分类结果,包括:对所述历史庭审语音的识别文本进行庭审领域分类,得到所述历史庭审语音属于各预设庭审领域的分类概率;基于所述历史庭审语音的说话人信息中的说话人所属的法庭类型,确定人员庭审领域,所述人员庭审领域属于所述各预设庭审领域;基于所述人员庭审领域,对所述历史庭审语音属于各预设庭审领域的分类概率进行调整,得到所述分类结果。6.根据权利要求1至5中任一项所述的面向庭审笔录自动生成的语言领域模型自适应分类方法,其特征在于,所述庭审语音流基于当前段的庭审语音的识别文本的字数、标点符号、段落数以及所述当前段的庭审语音的说话人信息中的至少一种,进行庭审语音划分。
7.根据权利要求1至5中任一项所述的面向庭审笔录自动生成的语言领域模型自适应分类方法,其特征在于,所述历史庭审语音为所述当前段的前一段庭审语音;或者,所述历史庭审语音包括所述当前段之前的每一段庭审语音。8.一种面向庭审笔录自动生成的语言领域模型自适应分类装置,其特征在于,包括:获取单元,用于获取庭审语音流,所述庭审语音流包括至少一段庭审语音;分类单元,用于基于当前段的庭审语音之前的历史庭审语音的识别文本,进行庭审领域分类,得到分类结果,或者,获取所述庭审语音流的预设领域作为所述分类结果;识别单元,用于基于所述分类结果对应的语言领域模型,对当前段的庭审语音进行语音识别,得到当前段的庭审语音的识别文本,并将所述当前段的庭审语音加入所述历史庭审语音进行分类结果更新,直至所述庭审语音流停止更新;生成单元,用于基于各段庭审语音的识别文本,生成庭审笔录。9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述面向庭审笔录自动生成的语言领域模型自适应分类方法。10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述面向庭审笔录自动生成的语言领域模型自适应分类方法。

技术总结
本发明提供一种面向庭审笔录自动生成的语言领域模型自适应分类方法和装置,其中方法包括:获取庭审语音流,所述庭审语音流包括至少一段庭审语音;基于当前段的庭审语音之前的历史庭审语音的识别文本,进行庭审领域分类,得到分类结果,或者,获取庭审语音流的预设领域作为分类结果;基于分类结果对应的语言领域模型,对当前段的庭审语音进行语音识别,得到当前段的庭审语音的识别文本,并将当前段的庭审语音加入历史庭审语音进行分类结果更新,直至庭审语音流停止更新;基于各段庭审语音的识别文本,生成庭审笔录。本发明提供的面向庭审笔录自动生成的语言领域模型自适应分类方法和装置,可以提高庭审场景下语音转写的可靠性和准确率。和准确率。和准确率。


技术研发人员:雍文渊 孔维骏 孔常青 张庆敏 檀丹丹
受保护的技术使用者:讯飞智元信息科技有限公司
技术研发日:2023.05.31
技术公布日:2023/8/13
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐