关于裁判文书的文本自动标注方法、系统、设备及终端
未命名
07-23
阅读:93
评论:0
1.本发明属于数据标注技术领域,尤其涉及一种关于裁判文书的文本自动标注方法、系统、设备及终端。
背景技术:
2.目前,数据标注是大部分人工智能算法得以有效运行的关键环节。数据标注越准确、标注的数据量越大,算法的性能就越好。
3.随着人工智能和大数据等技术的快速发展,司法领域也逐渐开始了信息化与智能化的进程,裁判文书的自动标注旨在利用前沿人工智能技术对大量法律文本数据进行科学分析,通过初步的清洗和分类后按照一定的规则对其进行自动标注,以便为相关司法智能化的研究提供数据支撑。
4.裁判文书标注系统将从中国裁判文书网爬取的数据进行数据清洗、转化、存储等预处理操作;针对文本中的标题、案号、罪名、审理法院、时间等信息进行提取,以实现检索功能;设计并实现系统标注的事件信息配置功能;利用前端动态交互组件实现以文本操作监听为核心的文书事件标注。
5.裁判文书标注系统以生态环保类罪名相关文书为例完成了原始非结构化数据到结构化数据的整个可查询与可调用的过程,严谨的分析过程与直观的案件信息和标注信息的可视化增强了系统的科学性和普适性。该平台对计算机行业与司法领域的融合与司法的信息化起到了重要作用。
6.但是,目前对法律裁判文书的解析通常只是对裁判文书的全文进行模糊结构分割,因此导致机器提取法律要素的结果过于粗糙,一般仅对包含某些固定关键词的相关内容进行罗列,尤其是因涉及法律案件实体内容的解析方法缺少,导致裁判文书内容解析效果差。
7.通过上述分析,现有技术存在的问题及缺陷为:
8.(1)目前针对法律裁判文书的解析通常只是对裁判文书的全文进行模糊结构分割,因此导致机器提取法律要素的结果过于粗糙。
9.(2)现有技术仅对包含某些固定关键词的相关内容进行罗列,尤其缺少涉及法律案件实体内容的解析方法,导致裁判文书内容解析效果差。
技术实现要素:
10.针对现有技术存在的问题,本发明提供了一种关于裁判文书的文本自动标注方法、系统、设备及终端。
11.本发明是这样实现的,一种关于裁判文书的文本自动标注方法,关于裁判文书的文本自动标注方法包括:将带标点符号的文本分割成句子后输入jieba汉语解析器进行分词;基于词频分词结果,采用动态规划的方法找出概率最大的路径,并将文本分词术语存储在分词中间数据库中;对手动标注的文本通过机器学习模型进行训练,并通过构建的语料
标注库实现文本的自动标注;对数据库中的注释数据进行评分后自动重新加载标注,并根据标注分数进行数据排序。
12.进一步,关于裁判文书的文本自动标注方法包括以下步骤:
13.步骤一,分词前对文本进行预处理后输入解析器进行分词;
14.步骤二,基于词频分词结果采用动态规划方法确定概率最大路径;
15.步骤三,将文本分词获得的术语存储在分词中间数据库并输出显示;
16.步骤四,对手动标注的文本进行训练并实现分词文本的自动标注;
17.步骤五,判断标注的正确性和帮助性并对数据库中的注释数据进行评分。
18.进一步,步骤一中,在正式分词前自动将带标点符号的文本分割成句子,再输入解析器进行分词;使用jieba汉语解析器,使用可扩展词汇的自定义词典。
19.进一步,步骤二中,基于树形结构的句子中所有可能出现的词,采用动态规划的方法找出概率最大的路径;其中,路径基于词频的分词结果,将搜索解析器词典中的术语寻找最正确的分词,直到整个文本完成分词。
20.进一步,步骤三中,将文本分词获得的术语存储在分词中间数据库中,用于文本表示和自动标注;将分词后的文本输出到文本阅读器以显示全文。
21.进一步,步骤四中,对手动标注的文本通过机器学习模型进行训练,将训练完的文书数据加载到数据库。
22.将分词文本加载到阅读器后,系统开始加载自动标注,对分词文本进行自动标注。通过构建的语料标注库实现文本的自动标注,以事件要素作为标注源,将从数据库中获取的事件要素加载为自动标注的参考数据。
23.进一步,步骤五中,用户完成自动标注的过程后,将光标在阅读器上移动到自动标注的词条上,点击查看链接数据库中的标注数据,标注数据按照链接数据库的顺序排列。
24.用户判断标注的正确性和帮助性,并对数据库中的注释数据进行打分;用户对来自数据库的标注进行评分后,系统计算出评分分数,自动重新加载标注,并根据标注分数对来自数据库的数据进行排序,标注分数高的优先显示。
25.本发明的另一目的在于提供一种应用所述的关于裁判文书的文本自动标注方法的关于裁判文书的文本自动标注系统,关于裁判文书的文本自动标注系统包括:
26.文本预处理模块,用于在正式分词前自动将带标点符号的文本分割成句子,使用可扩展词汇的自定义词典,输入jieba汉语解析器进行分词;
27.动态规划模块,用于基于树形结构的句子中所有可能出现的词以及词频的分词结果,采用动态规划的方法找出概率最大的路径;
28.手动标注文本训练模块,用于对手动标注的文本通过机器学习模型进行训练,将训练完的文书数据加载到数据库;
29.文本自动标注模块,用于通过构建的语料标注库实现文本的自动标注,并将从数据库中获取的事件要素加载为自动标注的参考数据;
30.注释数据评分模块,用于判断标注的正确性和帮助性,对数据库中的注释数据进行打分,并根据标注分数对来自数据库的数据进行排序;
31.数据存储模块,用于将文本分词获得的术语存储在分词中间数据库中用于文本表示和自动标注,并将训练完的文书数据加载到数据库。
32.本发明的另一目的在于提供一种计算机设备,计算机设备包括存储器和处理器,存储器存储有计算机程序,计算机程序被处理器执行时,使得处理器执行所述的关于裁判文书的文本自动标注方法的步骤。
33.本发明的另一目的在于提供一种信息数据处理终端,信息数据处理终端用于实现所述的关于裁判文书的文本自动标注系统。
34.结合上述的技术方案和解决的技术问题,本发明所要保护的技术方案所具备的优点及积极效果为:
35.第一,针对上述现有技术存在的技术问题以及解决该问题的难度,紧密结合本发明的所要保护的技术方案以及研发过程中结果和数据等,详细、深刻地分析本发明技术方案如何解决的技术问题,解决问题之后带来的一些具备创造性的技术效果。具体描述如下:
36.本发明通过使用文本增强和半监督学习相结合的方法,根据预设的事件抽取规则,对目标案件文书进行事件抽取并标注,结合外部在线数据库,极大的降低了文本实体标注的人工成本,大大提升了文本标注的效率与准确度。
37.第二,把技术方案看做一个整体或者从产品的角度,本发明所要保护的技术方案具备的技术效果和优点,具体描述如下:
38.本发明具体涉及一种对裁判文书网上的裁判文书进行文本的自动标注方法,能够对智慧化司法领域的分析提供支撑。
附图说明
39.为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图做简单的介绍,显而易见地,下面所描述的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。
40.图1是本发明实施例提供的关于裁判文书的文本自动标注方法流程图。
具体实施方式
41.为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
42.针对现有技术存在的问题,本发明提供了一种关于裁判文书的文本自动标注方法、系统、设备及终端,下面结合附图对本发明作详细的描述。
43.一、解释说明实施例。为了使本领域技术人员充分了解本发明如何具体实现,该部分是对权利要求技术方案进行展开说明的解释说明实施例。
44.如图1所示,本发明实施例提供的关于裁判文书的文本自动标注方法包括以下步骤:
45.s101,分词前对文本进行预处理后输入解析器进行分词;
46.s102,基于词频分词结果采用动态规划方法确定概率最大路径;
47.s103,将文本分词获得的术语存储在分词中间数据库并输出显示;
48.s104,对手动标注的文本进行训练并实现分词文本的自动标注;
49.s105,判断标注的正确性和帮助性并对数据库中的注释数据进行评分。
50.作为优选实施例,本发明实施例提供的关于裁判文书的文本自动标注方法具体包括以下步骤:
51.s1.分词前需要对文本进行预处理。在分词预处理中,在正式分词前自动将带标点符号的文本分割成句子,然后输入解析器进行分词。
52.s2.本方法使用了jieba汉语解析器,并使用了一个可扩展词汇的自定义词典。基于树形结构中句子中所有可能出现的词,采用动态规划的方法找出概率最大的路径。这种路径就是基于词频的分词结果。在这个阶段,将搜索解析器词典中的术语来寻找最正确的分词,直到整个文本完成分词。
53.s3.将前一阶段文本分词获得的术语存储在分词中间数据库中,用于文本表示和自动标注。
54.s4.分词后的文本输出到文本阅读器以显示全文。
55.s5.对手动标注的文本通过机器学习模型进行训练,将训练完的文书数据加载到数据库。
56.s6.将分词文本加载到阅读器后,系统开始加载自动标注,对分词文本进行自动标注。
57.s7.通过构建的语料标注库实现文本的自动标注。以事件要素作为标注源,将从数据库中获取的事件要素加载为自动标注的参考数据。
58.s8.用户完成自动标注的过程后,可以将光标在阅读器上移动到有自动标注的词条上,点击查看链接数据库中的标注数据,这些标注数据按照链接数据库的顺序排列。在这种情况下,用户可以判断标注的正确性和帮助性,并对数据库中的注释数据进行打分。
59.s9.用户对来自数据库的标注进行评分后,系统计算出评分分数,自动重新加载标注,并根据标注分数对来自数据库的数据进行排序;标注分数高的优先显示。
60.二、实施例相关效果的证据。本发明实施例在研发或者使用过程中取得了一些积极效果,和现有技术相比的确具备很大的优势,下面内容结合试验过程的数据、图表等进行描述。
61.作为优选实施例,本发明实施例提供的关于裁判文书的文本自动标注方法具体包括以下步骤:
62.1.对案件文本进行分析,将待抽取事件进行人工标注,标注少部分案件。
63.2.获取待抽取文本,对上述待抽取文本中的每个词语进行词编码和位置编码,得到上述待抽取文本对应的词嵌入向量和位置嵌入向量。
64.3.待抽取文本可以与一个事件类型对应,也可以与多个事件类型对应,本实施例中,以待抽取文本与多个事件类型对应为例进行说明。
65.4.在上述待抽取文本中包括若干词语,每个词语通过词编码后形成词向量,位置编码为对词语在待抽取文本中的位置信息进行编码,通过位置编码后会形成位置向量。
66.5.在获取到各词语各自对应的词向量后,将词向量按照各词语在待抽取文本中的顺序进行排列,得到待抽取文本对应的词嵌入向量;然后,将位置向量按照各词语在待抽取语句中的排序顺序进行排列,得到待抽取语句对应的位置嵌入向量。
67.6.将上述词嵌入向量和上述位置嵌入向量相加以获得第一输入向量,将上述第一
输入向量输入预先训练的编码器,通过上述编码器输出上述待抽取语句的语境化表达向量。
68.7.其中,上述词嵌入向量和上述位置嵌入向量的元素数目相同,且向量维度相同。
69.8.本发明实施例中,每一个词向量与每一个位置向量的向量维度都相同,以便进行计算,提高事件抽取的效率。
70.9.本发明实施例中,上述预先训练的编码器是预先训练好的transformer语言模型编码器(即transformer编码器),在此不做具体限定。编码器的输入(即第一输入向量)由两部分加和组成,第一部分是句子文本词经过词嵌入层后的词向量(word embedding),第二部分是位置信息经过位置嵌入层后的位置向量(positional embedding)。上述第一输入向量经过transformer语言模型的自注意力机制编码后,输出待抽取语句对应的语境化表达(contextualized representations)向量。上述语境化表达向量是模型通过注意力机制将输入数据映射到同一维度空间后的结果。
71.10.将上述语境化表达向量输入预先训练的多标签事件类型分类器,通过上述多标签事件类型分类器确定上述待抽取语句对应的事件类型嵌入向量,根据上述事件类型嵌入向量获取上述待抽取语句对应的事件类型综合向量。
72.应当注意,本发明的实施方式可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现;软件部分可以存储在存储器中,由适当的指令执行系统,例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现,例如在诸如磁盘、cd或dvd-rom的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现,也可以用由各种类型的处理器执行的软件实现,也可以由上述硬件电路和软件的结合例如固件来实现。
73.以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,都应涵盖在本发明的保护范围之内。
技术特征:
1.一种关于裁判文书的文本自动标注方法,其特征在于,关于裁判文书的文本自动标注方法包括:将带标点符号的文本分割成句子后输入jieba汉语解析器进行分词;基于词频分词结果,采用动态规划的方法找出概率最大的路径,并将文本分词术语存储在分词中间数据库中;对手动标注的文本通过机器学习模型进行训练,并通过构建的语料标注库实现文本的自动标注;对数据库中的注释数据进行评分后自动重新加载标注,并根据标注分数进行数据排序。2.如权利要求1所述的关于裁判文书的文本自动标注方法,其特征在于,关于裁判文书的文本自动标注方法包括以下步骤:步骤一,分词前对文本进行预处理后输入解析器进行分词;步骤二,基于词频分词结果采用动态规划方法确定概率最大路径;步骤三,将文本分词获得的术语存储在分词中间数据库并输出显示;步骤四,对手动标注的文本进行训练并实现分词文本的自动标注;步骤五,判断标注的正确性和帮助性并对数据库中的注释数据进行评分。3.如权利要求2所述的关于裁判文书的文本自动标注方法,其特征在于,步骤一中,在正式分词前自动将带标点符号的文本分割成句子,再输入解析器进行分词;使用jieba汉语解析器,使用可扩展词汇的自定义词典。4.如权利要求2所述的关于裁判文书的文本自动标注方法,其特征在于,步骤二中,基于树形结构的句子中所有可能出现的词,采用动态规划的方法找出概率最大的路径;其中,路径基于词频的分词结果,将搜索解析器词典中的术语寻找最正确的分词,直到整个文本完成分词。5.如权利要求2所述的关于裁判文书的文本自动标注方法,其特征在于,步骤三中,将文本分词获得的术语存储在分词中间数据库中,用于文本表示和自动标注;将分词后的文本输出到文本阅读器以显示全文。6.如权利要求2所述的关于裁判文书的文本自动标注方法,其特征在于,步骤四中,对手动标注的文本通过机器学习模型进行训练,将训练完的文书数据加载到数据库;将分词文本加载到阅读器后,系统开始加载自动标注,对分词文本进行自动标注;通过构建的语料标注库实现文本的自动标注,以事件要素作为标注源,将从数据库中获取的事件要素加载为自动标注的参考数据。7.如权利要求2所述的关于裁判文书的文本自动标注方法,其特征在于,步骤五中,用户完成自动标注的过程后,将光标在阅读器上移动到自动标注的词条上,点击查看链接数据库中的标注数据,标注数据按照链接数据库的顺序排列;用户判断标注的正确性和帮助性,并对数据库中的注释数据进行打分;用户对来自数据库的标注进行评分后,系统计算出评分分数,自动重新加载标注,并根据标注分数对来自数据库的数据进行排序,标注分数高的优先显示。8.一种应用如权利要求1~7任意一项所述的关于裁判文书的文本自动标注方法的关于裁判文书的文本自动标注系统,其特征在于,关于裁判文书的文本自动标注系统包括:文本预处理模块,用于在正式分词前自动将带标点符号的文本分割成句子,使用可扩展词汇的自定义词典,输入jieba汉语解析器进行分词;动态规划模块,用于基于树形结构的句子中所有可能出现的词以及词频的分词结果,
采用动态规划的方法找出概率最大的路径;手动标注文本训练模块,用于对手动标注的文本通过机器学习模型进行训练,将训练完的文书数据加载到数据库;文本自动标注模块,用于通过构建的语料标注库实现文本的自动标注,并将从数据库中获取的事件要素加载为自动标注的参考数据;注释数据评分模块,用于判断标注的正确性和帮助性,对数据库中的注释数据进行打分,并根据标注分数对来自数据库的数据进行排序;数据存储模块,用于将文本分词获得的术语存储在分词中间数据库中用于文本表示和自动标注,并将训练完的文书数据加载到数据库。9.一种计算机设备,其特征在于,计算机设备包括存储器和处理器,存储器存储有计算机程序,计算机程序被处理器执行时,使得处理器执行如权利要求1~7任意一项所述的关于裁判文书的文本自动标注方法的步骤。10.一种信息数据处理终端,其特征在于,信息数据处理终端用于实现如权利要求8所述的关于裁判文书的文本自动标注系统。
技术总结
本发明属于数据标注技术领域,公开了一种关于裁判文书的文本自动标注方法、系统、设备及终端,将带标点符号的文本分割成句子后输入Jieba汉语解析器进行分词;基于词频分词结果,采用动态规划的方法找出概率最大的路径,并将文本分词术语存储在分词中间数据库中;对手动标注的文本通过机器学习模型进行训练,并通过构建的语料标注库实现文本的自动标注;对数据库中的注释数据进行评分后自动重新加载标注,并根据标注分数进行数据排序。本发明通过使用文本增强和半监督学习相结合的方法,根据预设的事件抽取规则,对目标案件文书进行事件抽取并标注,结合外部在线数据库,极大的降低文本实体标注的人工成本,提升文本标注的效率与准确度。确度。确度。
技术研发人员:陈晓红 鲁潇 刘利枚
受保护的技术使用者:湖南工商大学
技术研发日:2023.02.11
技术公布日:2023/7/21
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
上一篇:一种蛋白纯化设备的制作方法 下一篇:一种均匀上墨液体粉笔及其换墨辅助组件的制作方法
