一种辅助审判方法、装置、设备及存储介质与流程

未命名 08-17 阅读：95 评论：0

1.本发明涉及音频检测领域，尤其涉及一种基于庭审音频的辅助审判方法、装置、设备及存储介质。

背景技术：

2.随着社会经济的发展和人民生活水平的提高，人们之间经济和社会交往也日渐增加，在人们之间交往增多的同时，不可避免的导致一部分人之间产生各种各样的纠纷，以致产生大量的民事审判案件。为了更好的保护被侵权人的合法权益，需要及时对大量的民事审判案件进行审判，但是由于案件往往错综复杂、案件相关资料较多和审判时效性要求等，即使审判人员进行加班加点也未能及时处理完所有案件，并且由于时间限制，部分案件的审判结果可能会存在一定的瑕疵。
3.现今，通过采用自动审判的方式对部分民事审判案件进行审判，以加快对案件审判的进度，减少审判人员的工作量。但是，由于民事审判案件往往带有录音、视频等音频数据，需要对音频数据进行检测和相关检测数据的提取，而自动审判的方式并不能很好对音频数据中不同人员音频特征进行检测区分和案件特征的提取，以致最终的审判结果的不够准确，案件双方对审判结果的满意度较差，即现有线上法庭的自动庭审中对相关语音证据的检测和相关特征的提取较差，以致辅助审判的结果不够准确。

技术实现要素：

4.本发明的主要目的在于解决现有线上法庭的自动庭审中对相关语音证据的检测和相关特征的提取较差，以致辅助审判的结果不够准确的问题。
5.本发明第一方面提供了一种基于庭审音频的辅助审判方法，所述基于庭审音频的辅助审判包括：获取待审判案件的庭审录音数据、案件庭审类型和庭审辩护数据，并按照预设的分段参数，对所述庭审录音数据进行频谱变换，得到多帧录音频谱片段；提取各所述录音频谱片段对应的频谱特征向量，并基于所述案件庭审类型，对各所述频谱特征向量进行庭审角色的归属聚类，得到聚类结果；对所述聚类结果进行各所述庭审角色的庭审特征提取，得到多个庭审特征，并基于所述庭审特征，构建所述待审判案件的录音逻辑数据；基于所述庭审辩护数据和所述录音逻辑数据，匹配所述待审判案件的法规特征，生成辅助审判结果。
6.可选的，在本发明第一方面的第一种实现方式中，所述按照预设的分段参数，对所述庭审录音数据进行频谱变换，得到多帧录音频谱片段，包括：对所述庭审录音数据进行时域波形转换，得到时域的庭审录音数据，并对所述时域的庭审录音数据进行时频变换，得到频域的庭审录音数据；按照预设的分段参数，对所述频域的庭审录音数据进行多帧分段，得到多帧录音频谱片段。
7.可选的，在本发明第一方面的第二种实现方式中，所述提取各所述录音频谱片段对应的频谱特征向量，包括：对各所述录音频谱片段进行协方差矩阵的计算，得到各所述录
音频谱片段对应的帧率特征值和帧率特征向量，并按照从大到小的顺序，对各所述帧率特征值从小到大的排序，得到排序后的帧率特征值；基于所述排序后的帧率特征值，按序选取预设数量的帧率特征值对应的帧率特征向量，得到选取后的帧率特征向量，并利用所述选取后的帧率特征向量对各所述录音频谱片段进行旋转变换，得到降维后的录音频谱片段；对各个降维后的录音频谱片段进行音频动态特征的提取，得到频谱特征向量。
8.可选的，在本发明第一方面的第三种实现方式中，所述各所述频谱特征向量进行庭审角色的归属聚类，得到聚类结果，包括：确定所述待审判案件中多个庭审角色以及对应的庭审角色人数，以及确定所述频谱特征向量对应的向量个数；利用所述庭审角色人数和所述向量个数构建出初始聚类矩阵，以及计算出各所述频谱特征向量之间的相似度距离，并基于各所述相似度距离，构建出距离度量矩阵；利用所述初始聚类矩阵，计算各所述频谱特征向量对应的均值中心向量，并利用所述均值中心向量和所述距离度量矩阵，对所述初始聚类矩阵中各个频谱特征向量进行聚类更新，直至初始聚类矩阵收敛度低于预设的收敛阈值，得到聚类结果。
9.可选的，在本发明第一方面的第四种实现方式中，所述对所述聚类结果进行各所述庭审角色的庭审特征提取，得到多个庭审特征，包括：按照所述庭审角色，对各所述聚类结果进行聚类划分，得到划分结果；对所述划分结果进行音频降噪处理，得到降噪后的划分结果；基于所述待审判案件的庭审类型，对所述降噪后的划分结果进行辩护特征的提取，得到各个庭审角色对应的庭审特征。
10.可选的，在本发明第一方面的第五种实现方式中，所述基于所述庭审特征，构建所述待审判案件的录音逻辑数据，包括：基于所述庭审特征，计算出各所述庭审特征的音频相似度；利用预设逻辑计算模型对各所述音频相似度进行逻辑关联度计算，并基于计算的结果构建各所述庭审角色对应的辩护逻辑顺序；基于所述辩护逻辑顺序，利用各个庭审角色的庭审特征构建出所述待审判案件的录音逻辑数据。
11.可选的，在本发明第一方面的第六种实现方式中，所述基于所述庭审辩护数据和所述录音逻辑数据，匹配所述待审判案件的法规特征，生成辅助审判结果，包括：基于预置的庭审逻辑顺序，提取所述庭审辩护数据和所述录音逻辑数据中的多个关键庭审特征；基于所述关键庭审特征，匹配所述待审判案件的多个法规特征，并基于所述法规特征，生成对应庭审角色的辅助审判结果。
12.本发明第二方面提供了一种基于庭审音频的辅助审判装置，所述基于庭审音频的辅助审判装置包括：频谱变换模块，用于获取待审判案件的庭审录音数据、案件庭审类型和庭审辩护数据，并按照预设的分段参数，对所述庭审录音数据进行频谱变换，得到多帧录音频谱片段；聚类模块，用于提取各所述录音频谱片段对应的频谱特征向量，并基于所述案件庭审类型，对各所述频谱特征向量进行庭审角色的归属聚类，得到聚类结果；逻辑构建模块，用于对所述聚类结果进行各所述庭审角色的庭审特征提取，得到多个庭审特征，并基于所述庭审特征，构建所述待审判案件的录音逻辑数据；法规匹配模块，用于基于所述庭审辩护数据和所述录音逻辑数据，匹配所述待审判案件的法规特征，生成辅助审判结果。
13.可选的，在本发明第二方面的第一种实现方式中，所述频谱变换模块包括：时频变换单元，用于对所述庭审录音数据进行时域波形转换，得到时域的庭审录音数据，并对所述时域的庭审录音数据进行时频变换，得到频域的庭审录音数据；多帧分段单元，用于按照预
设的分段参数，对所述频域的庭审录音数据进行多帧分段，得到多帧录音频谱片段。
14.可选的，在本发明第二方面的第二种实现方式中，所述聚类模块包括：矩阵计算单元，用于对各所述录音频谱片段进行协方差矩阵的计算，得到各所述录音频谱片段对应的帧率特征值和帧率特征向量，并按照从大到小的顺序，对各所述帧率特征值从小到大的排序，得到排序后的帧率特征值；旋转变换单元，用于基于所述排序后的帧率特征值，按序选取预设数量的帧率特征值对应的帧率特征向量，得到选取后的帧率特征向量，并利用所述选取后的帧率特征向量对各所述录音频谱片段进行旋转变换，得到降维后的录音频谱片段；动态提取单元，用于对各个降维后的录音频谱片段进行音频动态特征的提取，得到频谱特征向量。
15.可选的，在本发明第二方面的第三种实现方式中，所述聚类模块还包括：数量确定单元，用于确定所述待审判案件中多个庭审角色以及对应的庭审角色人数，以及确定所述频谱特征向量对应的向量个数；距离计算单元，用于利用所述庭审角色人数和所述向量个数构建出初始聚类矩阵，以及计算出各所述频谱特征向量之间的相似度距离，并基于各所述相似度距离，构建出距离度量矩阵；聚类更新单元，用于利用所述初始聚类矩阵，计算各所述频谱特征向量对应的均值中心向量，并利用所述均值中心向量和所述距离度量矩阵，对所述初始聚类矩阵中各个频谱特征向量进行聚类更新，直至初始聚类矩阵收敛度低于预设的收敛阈值，得到聚类结果。
16.可选的，在本发明第二方面的第四种实现方式中，所述逻辑构建模块包括：聚类划分单元，用于按照所述庭审角色，对各所述聚类结果进行聚类划分，得到划分结果；音频降噪单元，用于对所述划分结果进行音频降噪处理，得到降噪后的划分结果；辩护提取单元，用于基于所述待审判案件的庭审类型，对所述降噪后的划分结果进行辩护特征的提取，得到各个庭审角色对应的庭审特征。
17.可选的，在本发明第二方面的第五种实现方式中，所述逻辑构建模块还包括：相似度计算单元，用于基于所述庭审特征，计算出各所述庭审特征的音频相似度；关联度计算单元，用于利用预设逻辑计算模型对各所述音频相似度进行逻辑关联度计算，并基于计算的结果构建各所述庭审角色对应的辩护逻辑顺序；逻辑构建单元，用于基于所述辩护逻辑顺序，利用各个庭审角色的庭审特征构建出所述待审判案件的录音逻辑数据。
18.可选的，在本发明第二方面的第六种实现方式中，所述法规匹配模块包括：特征提取单元，用于基于预置的庭审逻辑顺序，提取所述庭审辩护数据和所述录音逻辑数据中的多个关键庭审特征；法规匹配单元，用于基于所述关键庭审特征，匹配所述待审判案件的多个法规特征，并基于所述法规特征，生成对应庭审角色的辅助审判结果。
19.本发明第三方面提供了一种基于庭审音频的辅助审判设备，包括：存储器和至少一个处理器，所述存储器中存储有指令；所述至少一个处理器调用所述存储器中的所述指令，以使得所述基于庭审音频的辅助审判设备执行上述的基于庭审音频的辅助审判方法的各个步骤。
20.本发明的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述的基于庭审音频的辅助审判方法的各个步骤。
21.本发明提供的技术方案中，通过获取待审判案件的庭审录音数据、案件庭审类型
和庭审辩护数据，并按照预设的分段参数，对庭审录音数据进行频谱变换，得到多帧录音频谱片段；提取各录音频谱片段对应的频谱特征向量，并基于案件庭审类型，对各频谱特征向量进行庭审角色的归属聚类，得到聚类结果；对聚类结果进行各庭审角色的庭审特征提取，得到多个庭审特征，并基于庭审特征，构建待审判案件的录音逻辑数据；基于庭审辩护数据和录音逻辑数据，匹配待审判案件的法规特征，生成辅助审判结果。相比于现有技术，本技术通过对线上法庭上相关庭审角色提交的音频数据，提取音频数据中所需庭审角色的发言特征数据，并构建各个庭审角色在音频数据中陈述的逻辑数据，进而基于各方庭审角色的逻辑数据以及庭审辩护数据，匹配对应的法规特征，以生成各方庭审角色的辅助审判结果。实现了对庭审人员提交的音频证据数据中检测和提取相关人员的特征数据，以提高了线上法庭对庭审录音数据中提取相关审判特征的准确率，以生成更准确的审判结果。
附图说明
22.图1为本发明实施例中基于庭审音频的辅助审判方法的第一个实施例示意图；图2为本发明实施例中基于庭审音频的辅助审判方法的第二个实施例示意图；图3为本发明实施例中基于庭审音频的辅助审判方法的第三个实施例示意图；图4为本发明实施例中基于庭审音频的辅助审判装置的一个实施例示意图；图5为本发明实施例中基于庭审音频的辅助审判装置的另一个实施例示意图；图6为本发明实施例中基于庭审音频的辅助审判设备的一个实施例示意图。
实施方式
23.本发明实施例提供了一种基于庭审音频的辅助审判方法、装置、设备及存储介质，该方法包括：获取待审判案件的庭审录音数据、案件庭审类型和庭审辩护数据，并按照预设分段参数，对庭审录音数据进行频谱变换，得到多帧录音频谱片段；提取各录音频谱片段对应的频谱特征向量，并基于案件庭审类型，对各频谱特征向量进行庭审角色的归属聚类，得到聚类结果；对聚类结果进行各庭审角色的庭审特征提取，得到庭审特征，并基于庭审特征，构建待审判案件的录音逻辑数据；基于庭审辩护数据和录音逻辑数据，匹配待审判案件的法规特征，生成辅助审判结果。本技术提高了线上法庭对庭审录音数据中提取相关特征的准确率，以生成更准确的审判结果。
24.本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等（如果存在）是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
25.为便于理解，下面对本发明实施例的具体流程进行描述，请参阅图1，本发明实施例中基于庭审音频的辅助审判方法的第一个实施例包括：101、获取待审判案件的庭审录音数据、案件庭审类型和庭审辩护数据，并按照预设的分段参数，对庭审录音数据进行频谱变换，得到多帧录音频谱片段；
本技术实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能（artificial intelligence，ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
26.人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
27.本实施例中，这里的庭审录音数据，指的是线上法庭在庭审过程中相关案件角色（即案件陈述方），提供用于庭审证据的相关录音音频数据（其中这里的录音音频数据指的是案件陈述方所自己或者他人录取事件发生期间或者双方协调时等录下的音频数据）；这里的案件庭审类型，指的是当前线上法庭所要审判案件的类型（如民事案件、经济案件、家事案件、劳动争议案件等）；这里的庭审辩护数据，指的是庭审过程中原被告双方以及法官等陈述的相关数据；这里的分段参数，指的是帧长（帧数）、帧移和簇数等参数，本技术以帧数为例进行说明。
28.在实际应用中，通过获取线上法庭在庭审过程中案件各方人员提供的录音音频证据数据，以及获取当前庭审案件的案件庭审类型和案件初步庭审结束后的所有相关案件人员所陈述的庭审辩护数据，并对庭审录音数据进行相应的检测处理，即通过对庭审录音数据进行时域波形转换，得到时域的庭审录音数据，并对时域的庭审录音数据进行时频变换，得到频域的庭审录音数据；进而按照预设的分段参数，对频域的庭审录音数据进行多帧分段，得到多帧录音频谱片段。
29.102、提取各录音频谱片段对应的频谱特征向量，并基于案件庭审类型，对各频谱特征向量进行庭审角色的归属聚类，得到聚类结果；本实施例中，这里的频谱特征向量，指的是用来描述相应录音频谱片段中相关音频特征的向量；这里的归属聚类，指的是将不同频谱特征向量对应的录音频谱片段，按照相应音频数据的相关性进行聚类处理。
30.在实际应用中，通过对各录音频谱片段进行协方差矩阵的计算，得到各录音频谱片段对应的帧率特征值和帧率特征向量，并按照从大到小的顺序，对各帧率特征值从小到大的排序，得到排序后的帧率特征值；进而基于排序后的帧率特征值，按序选取预设数量的帧率特征值对应的帧率特征向量，得到选取后的帧率特征向量，并利用选取后的帧率特征向量对各录音频谱片段进行旋转变换，得到降维后的录音频谱片段，再对各个降维后的录音频谱片段进行音频动态特征的提取，得到频谱特征向量；进而确定待审判案件中多个庭审角色以及对应的庭审角色人数，以及确定频谱特征向量对应的向量个数；并利用庭审角色人数和向量个数构建出初始聚类矩阵，以及计算出各频谱特征向量之间的相似度距离，并基于各相似度距离，构建出距离度量矩阵；从而利用初始聚类矩阵，计算各频谱特征向量对应的均值中心向量，并利用均值中心向量和距离度量矩阵，对初始聚类矩阵中各个频谱特征向量进行聚类更新，直至初始聚类矩阵收敛度低于预设的收敛阈值，得到聚类结果。
31.103、对聚类结果进行各庭审角色的庭审特征提取，得到多个庭审特征，并基于庭审特征，构建待审判案件的录音逻辑数据；
本实施例中，这里的庭审角色，指的是原被告中双方中包括的各个人物以及相关人物对应的利益方；这里的庭审特征，指的是与当前庭审案件相关用于案件审判的语音特征数据；这里的录音逻辑数据，指的是相关录音音频数据中与庭审案件陈述有关的，整个录音音频数据中相关人员争论事件的逻辑发展顺序以及对应的数据。
32.在实际应用中，通过按照庭审角色，对各聚类结果进行聚类划分，得到划分结果，并对划分结果进行音频降噪处理，得到降噪后的划分结果，进而基于待审判案件的庭审类型，对降噪后的划分结果进行辩护特征的提取，得到各个庭审角色对应的庭审特征。进而基于庭审特征，计算出各庭审特征的音频相似度，并利用预设逻辑计算模型对各音频相似度进行逻辑关联度计算，并基于计算的结果构建各庭审角色对应的辩护逻辑顺序；从而基于辩护逻辑顺序，利用各个庭审角色的庭审特征构建出待审判案件的录音逻辑数据。
33.104、基于庭审辩护数据和录音逻辑数据，匹配待审判案件的法规特征，生成辅助审判结果。
34.本实施例中，这里的法规特征，指的是庭审过程中与审判结果适用法规相关的特征信息（即与法律法规文本中具有独特识别性和重要作用的属性或特点，如审判类型特征、法规适用范围特征、法规罚则和处罚措施特征（如行政处罚、刑事处罚、民事赔偿等）等）。
35.在实际应用中，通过基于预置的庭审逻辑顺序，提取庭审辩护数据和录音逻辑数据中的多个关键庭审特征，进而基于关键庭审特征，匹配待审判案件的多个法规特征，并基于法规特征，生成对应庭审角色的辅助审判结果。
36.本发明实施例中，通过获取待审判案件的庭审录音数据、案件庭审类型和庭审辩护数据，并按照预设的分段参数，对庭审录音数据进行频谱变换，得到多帧录音频谱片段；提取各录音频谱片段对应的频谱特征向量，并基于案件庭审类型，对各频谱特征向量进行庭审角色的归属聚类，得到聚类结果；对聚类结果进行各庭审角色的庭审特征提取，得到多个庭审特征，并基于庭审特征，构建待审判案件的录音逻辑数据；基于庭审辩护数据和录音逻辑数据，匹配待审判案件的法规特征，生成辅助审判结果。相比于现有技术，本技术通过对线上法庭上相关庭审角色提交的音频数据，提取音频数据中所需庭审角色的发言特征数据，并构建各个庭审角色在音频数据中陈述的逻辑数据，进而基于各方庭审角色的逻辑数据以及庭审辩护数据，匹配对应的法规特征，以生成各方庭审角色的辅助审判结果。从而实现了对庭审人员提交的音频证据数据中相关人员的特征数据提取，以提高了线上法庭对庭审录音数据中提取相关审判特征的准确率，以生成更准确的审判结果。
37.请参阅图2，本发明实施例中基于庭审音频的辅助审判方法的第二个实施例包括：201、对庭审录音数据进行时域波形转换，得到时域的庭审录音数据，并对时域的庭审录音数据进行时频变换，得到频域的庭审录音数据；本实施例中，这里的时域波形转换，指的是将庭审录音数据中不同格式的信号统一转换为时域关系的模拟音频信号；这里的时频变换，指的是将时序的音频信号通过离散傅里叶变换或者快速傅里叶变换为频域的音频信号。
38.在实际应用中，在获取待审判案件的庭审录音数据、案件庭审类型和庭审辩护数据之后，由于录音保存的音频数据可能存在不同的数据格式，先通过将不同格式类型的庭审录音数据转换为时间序列形式的音频信号，得到时域的庭审录音数据，进而对时序的庭审录音数据进行傅里叶变换，将其转换为频域的庭审录音数据。
39.202、按照预设的分段参数，对频域的庭审录音数据进行多帧分段，得到多帧录音频谱片段；本实施例中，按照预设的分段参数（如帧数），对频域的庭审录音数据进行多帧分段，即按照相应帧数，将频域的庭审录音数据划分为多段，得到多帧录音频谱片段。
40.203、对各录音频谱片段进行协方差矩阵的计算，得到各录音频谱片段对应的帧率特征值和帧率特征向量，并按照从大到小的顺序，对各帧率特征值从小到大的排序，得到排序后的帧率特征值；本实施例中，通过计算各录音频谱片段在该片段信号中的出现次数以及其对应的均值和方差，来确定各个录音频谱片段的均值和标准差，进而将各个录音频谱片段的值减去其均值，并除以其标准差，以得到标准化后的数据集,将标准化后的数据集转置，并乘以其自身的转置，得到协方差矩阵，其中协方差矩阵公式为c = (1 / n) * x^t * x，其中，c 为协方差矩阵，n 为样本数，x 为标准化后的数据集；进而通过对对协方差矩阵进行特征值分解，得到帧率特征值和帧率特征向量，其中，帧率特征值表示对应录音频谱片段在特征向量方向上的方差，而帧率特征向量则表示变量在哪些方向上与其他变量相关；进而从大到小的顺序，对各帧率特征值从小到大的排序，得到排序后的帧率特征值。
41.204、基于排序后的帧率特征值，按序选取预设数量的帧率特征值对应的帧率特征向量，得到选取后的帧率特征向量，并利用选取后的帧率特征向量对各录音频谱片段进行旋转变换，得到降维后的录音频谱片段；本实施例中，基于排序后的帧率特征值，按序选取预设数量的帧率特征值对应的帧率特征向量，即根据特征值的大小，选择前k个特征值对应的特征向量作为前k个录音频谱片段的主成分，得到选取后的帧率特征向量，进而利用选取后的帧率特征向量对各录音频谱片段进行旋转变换，即根据所选的前k个特征向量和各录音频谱片段的值进行线性变换，得到降维后的录音频谱片段。
42.205、对各个降维后的录音频谱片段进行音频动态特征的提取，得到频谱特征向量；本实施例中，先利用mel滤波器（梅尔滤波器）对各个降维后的录音频谱片段进行子频带信号的分解，得到对数形式的录音频谱片段，进而利用dct（离散余弦变换）将对数形式的录音频谱片段转换为一组mfcc系数（mel frequency cepstrum coefficient,mel频率倒谱系数），得到频谱特征向量。
43.206、确定待审判案件中多个庭审角色以及对应的庭审角色人数，以及确定频谱特征向量对应的向量个数；本实施例中，通过确定当前待审判案件中多个庭审角色对应的音色以及对应的庭审角色人数，以及确定频谱特征向量中对应的向量个数。
44.207、利用庭审角色人数和向量个数构建出初始聚类矩阵，以及计算出各频谱特征向量之间的相似度距离，并基于各相似度距离，构建出距离度量矩阵；本实施例中，通过利用庭审角色人数和向量个数构建出初始聚类矩阵，其中这个初始聚类矩阵（μ矩阵），其维度为k
×
n，其中k为庭审角色人数，n为向量个数。μ矩阵中的每个元素μ
i,j
表示数据点j属于聚类i的隶属度。以及计算出各频谱特征向量之间的距离d（即可通过欧几里得距离公式来计算），继而计算距离d加1和的倒数来计算出各频谱特征向量
之间的相似度距离，进而基于各相似度距离，构建出距离度量矩阵，即得到一个 n
×
n 的距离矩阵 d（距离度量矩阵）。其中，d
ij
表示第 i个频谱特征向量和第 j个频谱特征向量之间的距离。
45.208、利用初始聚类矩阵，计算各频谱特征向量对应的均值中心向量，并利用均值中心向量和距离度量矩阵，对初始聚类矩阵中各个频谱特征向量进行聚类更新，直至初始聚类矩阵收敛度低于预设的收敛阈值，得到聚类结果；本实施例中，基于初始聚类矩阵，先随机选择k个频谱特征向量作为初始聚类中心点，基于上述距离度量矩阵将各频谱特征向量分配到距离最近的聚类中心点所在的聚类中，进而计算每个频谱特征向量的均值中心向量作为新的聚类中心点，并通过利用均值中心向量和距离度量矩阵，对初始聚类矩阵中各个频谱特征向量进行聚类更新，直至初始聚类矩阵收敛度低于预设的收敛阈值（即直到聚类中心点不再发生变化或达到最大迭代次数为止），得到聚类结果。
46.209、对聚类结果进行各庭审角色的庭审特征提取，得到多个庭审特征，并基于庭审特征，构建待审判案件的录音逻辑数据；210、基于庭审辩护数据和录音逻辑数据，匹配待审判案件的法规特征，生成辅助审判结果。
47.本发明实施例中，通过对线上法庭上相关庭审角色提交的音频数据，提取音频数据中所需庭审角色的发言特征数据，并构建各个庭审角色在音频数据中陈述的逻辑数据，进而基于各方庭审角色的逻辑数据以及庭审辩护数据，匹配对应的法规特征，以生成各方庭审角色的辅助审判结果。从而实现了对庭审人员提交的音频证据数据中相关人员的特征数据提取，以提高了线上法庭对庭审录音数据中提取相关审判特征的准确率，以生成更准确的审判结果。
48.请参阅图3，本发明实施例中基于庭审音频的辅助审判方法的第三个实施例包括：301、获取待审判案件的庭审录音数据、案件庭审类型和庭审辩护数据，并按照预设的分段参数，对庭审录音数据进行频谱变换，得到多帧录音频谱片段；302、提取各录音频谱片段对应的频谱特征向量，并基于案件庭审类型，对各频谱特征向量进行庭审角色的归属聚类，得到聚类结果；303、按照庭审角色，对各聚类结果进行聚类划分，得到划分结果；本实施例中，按照庭审角色，将各个聚类结果中不同聚类的录音频谱片段划分给对应的庭审角色，得到划分结果。
49.304、对划分结果进行音频降噪处理，得到降噪后的划分结果；本实施例中，通过对划分结果中不同庭审角色对应的录音频谱片段进行降噪处理，如将其中的环境噪声信号片段，按照不同庭审角色对应音色，将其他庭审角色混杂的音频片段提取出专属该庭审角色的音频等，以得到降噪后的划分结果。
50.305、基于待审判案件的庭审类型，对降噪后的划分结果进行辩护特征的提取，得到各个庭审角色对应的庭审特征；本实施例中，基于当前待审判案件的庭审类型（如行政处罚、刑事处罚、民事赔偿等），对降噪后的划分结果进行对应庭审角色录音音频中与该庭审类型审判案件相关辩护特征的提取，得到各个庭审角色对应的庭审特征。
51.306、基于庭审特征，计算出各庭审特征的音频相似度；本实施例中，基于庭审特征，通过计算出各个庭审角色对应庭审特征的音频相似度，如整个录音对话中事情发展陈述中各段对话特征之间的音频相似度。
52.307、利用预设逻辑计算模型对各音频相似度进行逻辑关联度计算，并基于计算的结果构建各庭审角色对应的辩护逻辑顺序；本实施例中，这里的逻辑计算模型，指的是用机器学习或深度学习模型来构建出识别音频片段之间逻辑关联度的模型。
53.在实际应用中，通过利用预设逻辑计算模型对各音频相似度进行逻辑关联度计算，如通过利用多个决策树构建的逻辑计算模型构建历史录音事件发展的关联网络，描述事件之间的影响和关系，进而利用该逻辑计算模型结合已知录音信息的事件，对当前各个音频片段进行预测和分析，即识别出其中的对话主题、谈话双方、情感倾向等信息，并将识别多种对应信息的片段进行组成，转化为一种结构化的逻辑关系，进而基于计算的结果，构建各庭审角色对应的辩护录音的陈述逻辑顺序。
54.308、基于辩护逻辑顺序，利用各个庭审角色的庭审特征构建出待审判案件的录音逻辑数据；本实施例中，这里的录音逻辑数据，指的是录音音频数据中各方人员所描述事情的具有逻辑陈述关系的语音数据。
55.在实际应用中，基于辩护逻辑顺序，通过利用各个庭审角色的庭审特征来构建出待审判案件的录音音频数据具有逻辑辩护和相应庭审人员的录音逻辑数据。
56.309、基于预置的庭审逻辑顺序，提取庭审辩护数据和录音逻辑数据中的多个关键庭审特征；本实施例中，基于预置的庭审逻辑顺序（即线上法庭的审判流程），提取庭审辩护数据和录音逻辑数据中的多个关键庭审特征，即提取出审判流程中各个阶段时各个庭审角色的庭审辩护特征数据，得到多个关键庭审特征。
57.310、基于关键庭审特征，匹配待审判案件的多个法规特征，并基于法规特征，生成对应庭审角色的辅助审判结果。
58.本实施例中，基于关键庭审特征，结合历史审判记录和对应庭审类型的法规法条，来匹配当前待审判案件的多个法规特征，并基于法规特征，生成对应庭审角色的辅助审判结果文书。实现了线上法庭对庭审人员提交的录音音频数据进行音频检测，以对音频数据中相关人员音频片段的分类和相关案件特征的提取，从而更准确的自动生成最终的辅助审判结果文书，保证各方庭审角色的合法利益和提供一个较佳的辅助审判结果。
59.本发明实施例中，通过对线上法庭上相关庭审角色提交的音频数据，提取音频数据中所需庭审角色的发言特征数据，并构建各个庭审角色在音频数据中陈述的逻辑数据，进而基于各方庭审角色的逻辑数据以及庭审辩护数据，匹配对应的法规特征，以生成各方庭审角色的辅助审判结果。从而实现了对庭审人员提交的音频证据数据中相关人员的特征数据提取，以提高了线上法庭对庭审录音数据中提取相关审判特征的准确率，以生成更准确的审判结果。
60.上面对本发明实施例中基于庭审音频的辅助审判方法进行了描述，下面对本发明实施例中基于庭审音频的辅助审判装置进行描述，请参阅图4，本发明实施例中基于庭审音
频的辅助审判装置一个实施例包括：频谱变换模块401，用于获取待审判案件的庭审录音数据、案件庭审类型和庭审辩护数据，并按照预设的分段参数，对所述庭审录音数据进行频谱变换，得到多帧录音频谱片段；聚类模块402，用于提取各所述录音频谱片段对应的频谱特征向量，并基于所述案件庭审类型，对各所述频谱特征向量进行庭审角色的归属聚类，得到聚类结果；逻辑构建模块403，用于对所述聚类结果进行各所述庭审角色的庭审特征提取，得到多个庭审特征，并基于所述庭审特征，构建所述待审判案件的录音逻辑数据；法规匹配模块404，用于基于所述庭审辩护数据和所述录音逻辑数据，匹配所述待审判案件的法规特征，生成辅助审判结果。
61.本发明实施例中，通过获取待审判案件的庭审录音数据、案件庭审类型和庭审辩护数据，并按照预设的分段参数，对庭审录音数据进行频谱变换，得到多帧录音频谱片段；提取各录音频谱片段对应的频谱特征向量，并基于案件庭审类型，对各频谱特征向量进行庭审角色的归属聚类，得到聚类结果；对聚类结果进行各庭审角色的庭审特征提取，得到多个庭审特征，并基于庭审特征，构建待审判案件的录音逻辑数据；基于庭审辩护数据和录音逻辑数据，匹配待审判案件的法规特征，生成辅助审判结果。相比于现有技术，本技术通过对线上法庭上相关庭审角色提交的音频数据，提取音频数据中所需庭审角色的发言特征数据，并构建各个庭审角色在音频数据中陈述的逻辑数据，进而基于各方庭审角色的逻辑数据以及庭审辩护数据，匹配对应的法规特征，以生成各方庭审角色的辅助审判结果。从而实现了对庭审人员提交的音频证据数据中相关人员的特征数据提取，以提高了线上法庭对庭审录音数据中提取相关审判特征的准确率，以生成更准确的审判结果。
62.请参阅图5，本发明实施例中基于庭审音频的辅助审判装置的另一个实施例包括：频谱变换模块401，用于获取待审判案件的庭审录音数据、案件庭审类型和庭审辩护数据，并按照预设的分段参数，对所述庭审录音数据进行频谱变换，得到多帧录音频谱片段；聚类模块402，用于提取各所述录音频谱片段对应的频谱特征向量，并基于所述案件庭审类型，对各所述频谱特征向量进行庭审角色的归属聚类，得到聚类结果；逻辑构建模块403，用于对所述聚类结果进行各所述庭审角色的庭审特征提取，得到多个庭审特征，并基于所述庭审特征，构建所述待审判案件的录音逻辑数据；法规匹配模块404，用于基于所述庭审辩护数据和所述录音逻辑数据，匹配所述待审判案件的法规特征，生成辅助审判结果。
63.进一步的，所述频谱变换模块401包括：时频变换单元4011，用于对所述庭审录音数据进行时域波形转换，得到时域的庭审录音数据，并对所述时域的庭审录音数据进行时频变换，得到频域的庭审录音数据；多帧分段单元4012，用于按照预设的分段参数，对所述频域的庭审录音数据进行多帧分段，得到多帧录音频谱片段。
64.进一步的，所述聚类模块402包括：矩阵计算单元4021，用于对各所述录音频谱片段进行协方差矩阵的计算，得到各所述录音频谱片段对应的帧率特征值和帧率特征向量，并按照从大到小的顺序，对各所述
帧率特征值从小到大的排序，得到排序后的帧率特征值；旋转变换单元4022，用于基于所述排序后的帧率特征值，按序选取预设数量的帧率特征值对应的帧率特征向量，得到选取后的帧率特征向量，并利用所述选取后的帧率特征向量对各所述录音频谱片段进行旋转变换，得到降维后的录音频谱片段；动态提取单元4023，用于对各个降维后的录音频谱片段进行音频动态特征的提取，得到频谱特征向量。
65.进一步的，所述聚类模块402还包括：数量确定单元4024，用于确定所述待审判案件中多个庭审角色以及对应的庭审角色人数，以及确定所述频谱特征向量对应的向量个数；距离计算单元4025，用于利用所述庭审角色人数和所述向量个数构建出初始聚类矩阵，以及计算出各所述频谱特征向量之间的相似度距离，并基于各所述相似度距离，构建出距离度量矩阵；聚类更新单元4026，用于利用所述初始聚类矩阵，计算各所述频谱特征向量对应的均值中心向量，并利用所述均值中心向量和所述距离度量矩阵，对所述初始聚类矩阵中各个频谱特征向量进行聚类更新，直至初始聚类矩阵收敛度低于预设的收敛阈值，得到聚类结果。
66.进一步的，所述逻辑构建模块403包括：聚类划分单元4031，用于按照所述庭审角色，对各所述聚类结果进行聚类划分，得到划分结果；音频降噪单元4032，用于对所述划分结果进行音频降噪处理，得到降噪后的划分结果；辩护提取单元4033，用于基于所述待审判案件的庭审类型，对所述降噪后的划分结果进行辩护特征的提取，得到各个庭审角色对应的庭审特征。
67.进一步的，所述逻辑构建模块403还包括：相似度计算单元4034，用于基于所述庭审特征，计算出各所述庭审特征的音频相似度；关联度计算单元4035，用于利用预设逻辑计算模型对各所述音频相似度进行逻辑关联度计算，并基于计算的结果构建各所述庭审角色对应的辩护逻辑顺序；逻辑构建单元4036，用于基于所述辩护逻辑顺序，利用各个庭审角色的庭审特征构建出所述待审判案件的录音逻辑数据。
68.进一步的，所述法规匹配模块404包括：特征提取单元4041，用于基于预置的庭审逻辑顺序，提取所述庭审辩护数据和所述录音逻辑数据中的多个关键庭审特征；法规匹配单元4042，用于基于所述关键庭审特征，匹配所述待审判案件的多个法规特征，并基于所述法规特征，生成对应庭审角色的辅助审判结果。
69.本发明实施例中，通过获取待审判案件的庭审录音数据、案件庭审类型和庭审辩护数据，并按照预设的分段参数，对庭审录音数据进行频谱变换，得到多帧录音频谱片段；提取各录音频谱片段对应的频谱特征向量，并基于案件庭审类型，对各频谱特征向量进行庭审角色的归属聚类，得到聚类结果；对聚类结果进行各庭审角色的庭审特征提取，得到多个庭审特征，并基于庭审特征，构建待审判案件的录音逻辑数据；基于庭审辩护数据和录音逻辑数据，匹配待审判案件的法规特征，生成辅助审判结果。相比于现有技术，本技术通过对线上法庭上相关庭审角色提交的音频数据，提取音频数据中所需庭审角色的发言特征数据，并构建各个庭审角色在音频数据中陈述的逻辑数据，进而基于各方庭审角色的逻辑数据以及庭审辩护数据，匹配对应的法规特征，以生成各方庭审角色的辅助审判结果。从而实现了对庭审人员提交的音频证据数据中相关人员的特征数据提取，以提高了线上法庭对庭
审录音数据中提取相关审判特征的准确率，以生成更准确的审判结果。
70.上面图4和图5从模块化功能实体的角度对本发明实施例中的基于庭审音频的辅助审判装置进行详细描述，下面从硬件处理的角度对本发明实施例中基于庭审音频的辅助审判设备进行详细描述。
71.图6是本发明实施例提供的一种基于庭审音频的辅助审判设备的结构示意图，该基于庭审音频的辅助审判设备600可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器（central processing units，cpu）610（例如，一个或一个以上处理器）和存储器620，一个或一个以上存储应用程序633或数据632的存储介质630（例如一个或一个以上海量存储设备）。其中，存储器620和存储介质630可以是短暂存储或持久存储。存储在存储介质630的程序可以包括一个或一个以上模块（图示没标出），每个模块可以包括对基于庭审音频的辅助审判设备600中的一系列指令操作。更进一步地，处理器610可以设置为与存储介质630通信，在基于庭审音频的辅助审判设备600上执行存储介质630中的一系列指令操作。
72.基于庭审音频的辅助审判设备600还可以包括一个或一个以上电源640，一个或一个以上有线或无线网络接口650，一个或一个以上输入输出接口660，和/或，一个或一个以上操作系统631，例如windows serve，mac os x，unix，linux，freebsd等等。本领域技术人员可以理解，图6示出的基于庭审音频的辅助审判设备结构并不构成对基于庭审音频的辅助审判设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。
73.本发明还提供一种基于庭审音频的辅助审判设备，所述计算机设备包括存储器和处理器，存储器中存储有计算机可读指令，计算机可读指令被处理器执行时，使得处理器执行上述各实施例中的所述基于庭审音频的辅助审判方法的各个步骤。
74.本发明还提供一种计算机可读存储介质，该计算机可读存储介质可以为非易失性计算机可读存储介质，该计算机可读存储介质也可以为易失性计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在计算机上运行时，使得计算机执行所述基于庭审音频的辅助审判方法的各个步骤。
75.所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。
76.所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器（read-only memory， rom）、随机存取存储器（random access memory，ram）、磁碟或者光盘等各种可以存储程序代码的介质。
77.本技术可用于众多通用或专用的计算机系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络pc、小型计算机、大型计算机、包括以上任何系统或设备
的分布式计算环境等等。本技术可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本技术，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
78.以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

技术特征：
1.一种基于庭审音频的辅助审判方法，其特征在于，所述基于庭审音频的辅助审判方法包括：获取待审判案件的庭审录音数据、案件庭审类型和庭审辩护数据，并按照预设的分段参数，对所述庭审录音数据进行频谱变换，得到多帧录音频谱片段；提取各所述录音频谱片段对应的频谱特征向量，并基于所述案件庭审类型，对各所述频谱特征向量进行庭审角色的归属聚类，得到聚类结果；对所述聚类结果进行各所述庭审角色的庭审特征提取，得到多个庭审特征，并基于所述庭审特征，构建所述待审判案件的录音逻辑数据；基于所述庭审辩护数据和所述录音逻辑数据，匹配所述待审判案件的法规特征，生成辅助审判结果。2.根据权利要求1所述的基于庭审音频的辅助审判方法，其特征在于，所述按照预设的分段参数，对所述庭审录音数据进行频谱变换，得到多帧录音频谱片段，包括：对所述庭审录音数据进行时域波形转换，得到时域的庭审录音数据，并对所述时域的庭审录音数据进行时频变换，得到频域的庭审录音数据；按照预设的分段参数，对所述频域的庭审录音数据进行多帧分段，得到多帧录音频谱片段。3.根据权利要求1所述的基于庭审音频的辅助审判方法，其特征在于，所述提取各所述录音频谱片段对应的频谱特征向量，包括：对各所述录音频谱片段进行协方差矩阵的计算，得到各所述录音频谱片段对应的帧率特征值和帧率特征向量，并按照从大到小的顺序，对各所述帧率特征值从小到大的排序，得到排序后的帧率特征值；基于所述排序后的帧率特征值，按序选取预设数量的帧率特征值对应的帧率特征向量，得到选取后的帧率特征向量，并利用所述选取后的帧率特征向量对各所述录音频谱片段进行旋转变换，得到降维后的录音频谱片段；对各个降维后的录音频谱片段进行音频动态特征的提取，得到频谱特征向量。4.根据权利要求1所述的基于庭审音频的辅助审判方法，其特征在于，所述各所述频谱特征向量进行庭审角色的归属聚类，得到聚类结果，包括：确定所述待审判案件中多个庭审角色以及对应的庭审角色人数，以及确定所述频谱特征向量对应的向量个数；利用所述庭审角色人数和所述向量个数构建出初始聚类矩阵，以及计算出各所述频谱特征向量之间的相似度距离，并基于各所述相似度距离，构建出距离度量矩阵；利用所述初始聚类矩阵，计算各所述频谱特征向量对应的均值中心向量，并利用所述均值中心向量和所述距离度量矩阵，对所述初始聚类矩阵中各个频谱特征向量进行聚类更新，直至初始聚类矩阵收敛度低于预设的收敛阈值，得到聚类结果。5.根据权利要求1所述的基于庭审音频的辅助审判方法，其特征在于，所述对所述聚类结果进行各所述庭审角色的庭审特征提取，得到多个庭审特征，包括：按照所述庭审角色，对各所述聚类结果进行聚类划分，得到划分结果；对所述划分结果进行音频降噪处理，得到降噪后的划分结果；基于所述待审判案件的庭审类型，对所述降噪后的划分结果进行辩护特征的提取，得
到各个庭审角色对应的庭审特征。6.根据权利要求5所述的基于庭审音频的辅助审判方法，其特征在于，所述基于所述庭审特征，构建所述待审判案件的录音逻辑数据，包括：基于所述庭审特征，计算出各所述庭审特征的音频相似度；利用预设逻辑计算模型对各所述音频相似度进行逻辑关联度计算，并基于计算的结果构建各所述庭审角色对应的辩护逻辑顺序；基于所述辩护逻辑顺序，利用各个庭审角色的庭审特征构建出所述待审判案件的录音逻辑数据。7.根据权利要求1所述的基于庭审音频的辅助审判方法，其特征在于，所述基于所述庭审辩护数据和所述录音逻辑数据，匹配所述待审判案件的法规特征，生成辅助审判结果，包括：基于预置的庭审逻辑顺序，提取所述庭审辩护数据和所述录音逻辑数据中的多个关键庭审特征；基于所述关键庭审特征，匹配所述待审判案件的多个法规特征，并基于所述法规特征，生成对应庭审角色的辅助审判结果。8.一种基于庭审音频的辅助审判装置，其特征在于，所述基于庭审音频的辅助审判装置包括：频谱变换模块，用于获取待审判案件的庭审录音数据、案件庭审类型和庭审辩护数据，并按照预设的分段参数，对所述庭审录音数据进行频谱变换，得到多帧录音频谱片段；聚类模块，用于提取各所述录音频谱片段对应的频谱特征向量，并基于所述案件庭审类型，对各所述频谱特征向量进行庭审角色的归属聚类，得到聚类结果；逻辑构建模块，用于对所述聚类结果进行各所述庭审角色的庭审特征提取，得到多个庭审特征，并基于所述庭审特征，构建所述待审判案件的录音逻辑数据；法规匹配模块，用于基于所述庭审辩护数据和所述录音逻辑数据，匹配所述待审判案件的法规特征，生成辅助审判结果。9.一种基于庭审音频的辅助审判设备，其特征在于，所述基于庭审音频的辅助审判设备包括：存储器和至少一个处理器，所述存储器中存储有指令；所述至少一个处理器调用所述存储器中的所述指令，以使得所述基于庭审音频的辅助审判设备执行如权利要求1-7中任一项所述的基于庭审音频的辅助审判方法的各个步骤。10.一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，其特征在于，所述指令被处理器执行时实现如权利要求1-7中任一项所述基于庭审音频的辅助审判方法的各个步骤。

技术总结
本发明涉及音频检测领域，公开了一种基于庭审音频的辅助审判方法、装置、设备及存储介质。该方法包括：获取待审判案件的庭审录音数据、案件庭审类型和庭审辩护数据，并按照预设分段参数，对庭审录音数据进行频谱变换，得到多帧录音频谱片段；提取各录音频谱片段对应的频谱特征向量，并基于案件庭审类型，对各频谱特征向量进行庭审角色的归属聚类，得到聚类结果；对聚类结果进行各庭审角色的庭审特征提取，得到庭审特征，并基于庭审特征，构建待审判案件的录音逻辑数据；基于庭审辩护数据和录音逻辑数据，匹配待审判案件的法规特征，生成辅助审判结果。本申请提高了线上法庭对庭审录音数据中提取相关特征的准确率，以生成更准确的审判结果。审判结果。审判结果。

技术研发人员：王敏
受保护的技术使用者：北京分音塔科技有限公司
技术研发日：2023.07.19
技术公布日：2023/8/16

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

上一篇：矫直机的工件精准定位方法及装置与流程 下一篇：一种量子重力梯度仪的重力加速度重力梯度同步解算方法与流程

一种辅助审判方法、装置、设备及存储介质与流程

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

一种辅助审判方法、装置、设备及存储介质与流程

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表