法律文书的量化检索方法、装置、存储介质及电子装置与流程

未命名 07-13 阅读:115 评论:0


1.本技术涉及法律文书检索领域,具体而言,涉及一种法律文书的量化检索方法、装置、存储介质及电子装置。


背景技术:

2.语义检索是近年来深度学习和自然语言处理技术在信息检索领域的重要应用之一。随着自然语言处理技术的日益发展和成熟,法律领域的智能化需求也日益增加,为法律文书语义检索系统的出现营造了良好的条件。
3.语义检索系统通过对用户查询文本进行分析和理解,搜索用户查询的真实意图。不同于传统的基于关键词匹配的检索方式,在语义检索中,即便用户查询不存在相应的关键字,语义检索系统也能够理解用户真实希望查询的内容,并为用户返回对应的检索结果。
4.语义向量检索技术是通过深度神经网络模型对文本进行向量表征,神经网络模型经过合理的训练之后具备对文本语义的理解能力,能够通过文本的向量表示反映文本的语义信息。然后传统的量化方法,以乘积量化(pq)为例,其核心依然是以向量聚类为主,其从本质上来讲是一种以精度换取效率,用算法提升精度的逻辑。但是将法律文书转化为结构化数据,并在结构化数据的基础上构建向量分布的方法并未出现,导致语义检索速率慢,效率低,且具有不可解释性。
5.针对相关技术中将法律文书转化为结构化数据,并在结构化数据的基础上构建向量分布的方法并未出现,导致语义检索速率慢,效率低,且具有不可解释性的问题,目前尚未提出有效的解决方案。


技术实现要素:

6.本技术的主要目的在于提供一种法律文书的量化检索方法、装置、存储介质及电子装置,以解决将法律文书转化为结构化数据,并在结构化数据的基础上构建向量分布的方法并未出现,导致语义检索速率慢,效率低,且具有不可解释性的问题。
7.为了实现上述目的,根据本技术的一个方面,提供了一种法律文书的量化检索方法。
8.根据本技术的法律文书的量化检索方法包括:获取并存储法律文书;从所述法律文书中结构化抽取出案情相关文本;将所述案情相关文本输入预先配置的索引构建模型中,得到文本语义向量;根据所述文本语义向量和对应的文书id构建文书索引;采用格量化器对所述文本语义向量进行重新量化编码,得到格量化语义向量;当接收到终端的用户请求时,根据所述文书索引和格量化语义向量在终端输出与请求内容对应的目标法律文书。
9.进一步的,当接收到终端的用户请求时,根据所述文书索引和格量化语义向量在终端输出与请求内容对应的目标法律文书包括:接收在终端输入的用户查询文本;将所述用户查询文本输入预先配置的索引构建模型中,得到查询语义向量;采用召回算法根据所述查询语义向量和格量化语义向量进行基于余弦相似度的topk召回;根据所述文书索引,
在所述终端输出排序后的topk结果所对应目标法律文书。
10.进一步的,所述预先配置的索引构建模型为预先训练好的基于中文bert的双塔模型。
11.进一步的,基于中文bert的双塔模型的训练包括:基于法律问答数据构建三元组数据集;通过所述三元组数据集训练基于中文bert的双塔模型,使双塔模型学习法律文书的向量表征空间。
12.进一步的,采用召回算法根据所述查询语义向量和格量化语义向量进行基于余弦相似度的topk召回包括:采用hnsw算法先建立分层可导航小世界网络,再根据所述查询语义向量和格量化语义向量进行基于余弦相似度的topk召回。
13.进一步的,采用召回算法根据所述查询语义向量和格量化语义向量进行基于余弦相似度的topk召回包括:采用召回算法自适应的调节所述查询语义向量的权重,再根据调整权重后的查询语义向量和格量化语义向量进行基于余弦相似度的topk召回。
14.进一步的,接收在终端输入的用户查询文本包括:检索接口接收在终端的用户接口输入的用户查询,并将所述用户查询文本传递到预先配置的索引构建模型中。
15.为了实现上述目的,根据本技术的另一方面,提供了一种法律文书的量化检索装置。
16.根据本技术的法律文书的量化检索装置包括:文书获取模块,用于获取并存储法律文书;结构化抽取模块,用于从所述法律文书中结构化抽取出案情相关文本;第一向量模块,用于将所述案情相关文本输入预先配置的索引构建模型中,得到文本语义向量;索引构建模块,用于根据所述文本语义向量和对应的文书id构建文书索引;格量化模块,用于采用格量化器对所述文本语义向量进行重新量化编码,得到格量化语义向量;文书输出模块,用于当接收到终端的用户请求时,根据所述文书索引和格量化语义向量在终端输出与请求内容对应的目标法律文书。
17.为了实现上述目的,根据本技术的另一方面,提供了一种计算机可读存储介质。
18.根据本技术的计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行所述的法律文书的量化检索方法。
19.为了实现上述目的,根据本技术的另一方面,提供了一种电子装置。
20.根据本技术的电子装置,包括:存储器和处理器,所述存储器中存储有计算机程序,其中,所述处理器被设置为运行所述计算机程序以执行所述的法律文书的量化检索方法。
21.在本技术实施例中,采用对法律文书进行量化检索的方式,通过获取并存储法律文书;从所述法律文书中结构化抽取出案情相关文本;将所述案情相关文本输入预先配置的索引构建模型中,得到文本语义向量;根据所述文本语义向量和对应的文书id构建文书索引;采用格量化器对所述文本语义向量进行重新量化编码,得到格量化语义向量;当接收到终端的用户请求时,根据所述文书索引和格量化语义向量在终端输出与请求内容对应的目标法律文书;达到了将法律文书转化为结构化数据,并在结构化数据的基础上构建向量分布的目的,从而实现了加快检索速度,提升检索效率,且具有可解释性的技术效果,进而解决了由于将法律文书转化为结构化数据,并在结构化数据的基础上构建向量分布的方法并未出现,导致语义检索速率慢,效率低,且具有不可解释性的技术问题。
附图说明
22.构成本技术的一部分的附图用来提供对本技术的进一步理解,使得本技术的其它特征、目的和优点变得更明显。本技术的示意性实施例附图及其说明用于解释本技术,并不构成对本技术的不当限定。在附图中:
23.图1是根据本技术实施例的法律文书的量化检索方法的流程示意图;
24.图2是根据本技术实施例的法律文书的量化检索装置的结构示意图;
25.图3是根据本技术一优选实施例的用户查询和检索结果反馈的工作流程图;
26.图4是根据本技术再一优选实施例的法律文书的量化检索方法的工作流程图。
具体实施方式
27.为了使本技术领域的人员更好地理解本技术方案,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分的实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本技术保护的范围。
28.需要说明的是,本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本技术的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
29.在本技术中,术语“上”、“下”、“左”、“右”、“前”、“后”、“顶”、“底”、“内”、“外”、“中”、“竖直”、“水平”、“横向”、“纵向”等指示的方位或位置关系为基于附图所示的方位或位置关系。这些术语主要是为了更好地描述本发明及其实施例,并非用于限定所指示的装置、元件或组成部分必须具有特定方位,或以特定方位进行构造和操作。
30.并且,上述部分术语除了可以用于表示方位或位置关系以外,还可能用于表示其他含义,例如术语“上”在某些情况下也可能用于表示某种依附关系或连接关系。对于本领域普通技术人员而言,可以根据具体情况理解这些术语在本发明中的具体含义。
31.此外,术语“安装”、“设置”、“设有”、“连接”、“相连”、“套接”应做广义理解。例如,可以是固定连接,可拆卸连接,或整体式构造;可以是机械连接,或电连接;可以是直接相连,或者是通过中间媒介间接相连,又或者是两个装置、元件或组成部分之间内部的连通。对于本领域普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
32.需要说明的是,在不冲突的情况下,本技术中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本技术。
33.根据本发明实施例,提供了一种法律文书的量化检索方法,如图1和4所示,该方法包括如下的步骤s101至步骤s106:
34.步骤s101、获取并存储法律文书;
35.可以从各个法律相关渠道获取法律文书,并且存储到数据库中(图4中标记2.文书数据),以待召回阶段通过文书id为用户返回对应法律文书。
36.步骤s102、从所述法律文书中结构化抽取出案情相关文本;
37.法律文书由于其特殊格式,采用结构化抽取技术可以比较容易的将其转化为结构数据;具体地,通过结构化抽取法律文书,可以得到“原告诉称”、“被告辩称”和“本院查明”三部分字段的内容,该三部分字段内容如实反映了案件的发生发展过程,抽取出来后,作为文书构建索引的案情相关文本(图4中标记1.文书数据)。对法律文书做了结构化处理,能够进一步挖掘法律文书中更深层次的标签,为获取更细致的文书索引提供保障。
38.步骤s103、将所述案情相关文本输入预先配置的索引构建模型中,得到文本语义向量;
39.步骤s104、根据所述文本语义向量和对应的文书id构建文书索引;
40.本实施例中,所述预先配置的索引构建模型为预先训练好的基于中文bert的双塔模型。
41.在本发明的实现过程中,索引构建模型采用基于中文bert的双塔模型实现。在对文书案情相关文本构建向量索引的过程中,保留文书id,并与双塔模型输出的对应的文本语义向量共同存储于内存空间中,由此可以构建文书索引(图4中标记3.文书索引)。构建文书索引的过程并不需要与用户进行交互,因此,可以通过训练好的双塔模型进行离线构建索引的操作。
42.本实施例中,双塔模型不是在公开预训练语言模型基础上预训练出来的,而是实际从零开始训练,让模型不断根据训练任务去模拟预测相应的答案。对比当前现有的技术,不是直接按照现有的流程直接使用或者直接训练语言模型,而是根据实际业务需求预训练相应的语言模型。
43.根据本发明实施例,优选的,基于中文bert的双塔模型的训练包括:
44.基于法律问答数据构建三元组数据集;
45.通过所述三元组数据集训练基于中文bert的双塔模型,使双塔模型学习法律文书的向量表征空间。
46.具体地,通过法律问答数据构建三元组数据集用于对双塔模型进行训练,问答数据可表示为对于特定的问题q(i),正样本是与之对应的答案负样本从与之不对应的其他回答中进行抽样。对于每个问题,从其他回答中抽样5个样本分别作为负样本,构成5条三元组数据作为训练模型所用的数据,采用三元组损失对模型进行训练。通过构造的训练数据使双塔模型学习法律领域文本的表征空间,训练的目的是在表征空间中,问题与正样本的余弦距离显著小于问题与负样本的余弦距离,即模型能够有效区分相关性样本与无关性样本。
47.步骤s105、采用格量化器对所述文本语义向量进行重新量化编码,得到格量化语义向量;
48.格量化器是一种较为专业的数学体系,并不是针对所有的数据分布都能够得到非常好的效果;在法律文书检索场景下,经过结构化后得到的相应的文本语义向量分布较为均匀且符合一定规律,故可以使用格量化器。
49.为此,基于预训练双塔模型得到文本语义向量之后,使用根据格量化器对生成的文本语义向量进行重新量化编码,通过构建特定的格结构,能够将原始向量分布进行重分
布,而且数据向量能够保持相对序(不会破坏文书id和文本语义向量之间的索引关系);如此,在解码过程中,借助格结构的简单属性,解码之后的匹配算法效率能够有效提升。
50.需要了解的是,格论是数学中非常重要的一种结构,在数学众多分支中都有非常重要的应用,如概率论、拓扑学、组合数学、线性代数等。格的定义如下:如果偏序集l的任意两个元素的集合{a,b}都有一个最小上界和一个最大上界,那么这个偏序集就是一个格结构;偏序集的定义如下:偏序集是满足自反性、反对称性及传递性的集合。
51.步骤s106、当接收到终端的用户请求时,根据所述文书索引和格量化语义向量在终端输出与请求内容对应的目标法律文书。
52.优选的,当接收到终端的用户请求时,根据所述文书索引和格量化语义向量在终端输出与请求内容对应的目标法律文书包括:接收在终端输入的用户查询文本;将所述用户查询文本输入预先配置的索引构建模型中,得到查询语义向量;采用召回算法根据所述查询语义向量和格量化语义向量进行基于余弦相似度的topk召回;根据所述文书索引,在所述终端输出排序后的topk结果所对应目标法律文书。预先配置的索引构建模型为预先训练好的基于中文bert的双塔模型。
53.当语义向量检索模块接收到由检索接口传递过来的用户查询后,通过双塔模型对用户查询文本计算得到对应的向量表征(图4中标记4.用户查询)。该查询语义向量随后被传递到召回与排序模块(图4中标记5.查询语义向量),首先通过召回算法对法律文书索引进行基于余弦相似度的topk召回过程,并根据余弦相似度由大到小进行排序(图4中标记6.文书索引)。最后,根据完成排序后topk结果的文书id,从存储法律文书的数据库中查询到对应的法律文书(图4中标记7.文书id),并为用户返回检索结果(图4中标记8.检索结果)。
54.优选的,接收在终端输入的用户查询文本包括:
55.检索接口接收在终端的用户接口输入的用户查询,并将所述用户查询文本传递到预先配置的索引构建模型中。
56.如图3所示,用户通过用户接口输入用户查询,该用户查询文本通过检索接口传递给语义向量检索模块,该模块完成检索后,将检索结果分别通过检索接口和用户接口返回给用户。如此,在格量化的基础上实现了法律文书语义检索,能够借助格结构的简单属性,提升匹配算法的效率,检索速率,且用自然语言处理技术和深度学习技术,对具体用户查询案例的检索结果进行解析,模型可解释性很好。
57.从以上的描述中,可以看出,本发明实现了如下技术效果:
58.在本技术实施例中,采用对法律文书进行量化检索的方式,通过获取并存储法律文书;从所述法律文书中结构化抽取出案情相关文本;将所述案情相关文本输入预先配置的索引构建模型中,得到文本语义向量;根据所述文本语义向量和对应的文书id构建文书索引;采用格量化器对所述文本语义向量进行重新量化编码,得到格量化语义向量;当接收到终端的用户请求时,根据所述文书索引和格量化语义向量在终端输出与请求内容对应的目标法律文书;达到了将法律文书转化为结构化数据,并在结构化数据的基础上构建向量分布的目的,从而实现了加快检索速度,提升检索效率,且具有可解释性的技术效果,进而解决了由于将法律文书转化为结构化数据,并在结构化数据的基础上构建向量分布的方法并未出现,导致语义检索速率慢,效率低,且具有不可解释性的技术问题。
59.优选的,采用召回算法根据所述查询语义向量和格量化语义向量进行基于余弦相
似度的topk召回包括:
60.采用hnsw算法先建立分层可导航小世界网络,再根据所述查询语义向量和格量化语义向量进行基于余弦相似度的topk召回。
61.本实施例中,召回与排序通过faiss工具进行实现。综合考虑召回率与检索效率,算法选择近似最近邻算法中的hnsw算法。hnsw算法是在nsw算法的基础上,增加“跳表”结构,对图中的每一个节点增加层数属性,根据层数构建分层的nsw图。其中,上层的节点作为下层节点的索引。
62.需要了解的是,在nsw算法中,所构建的图是介于正则图与随机图之间的小世界网络。在小世界网络图中,约定一个节点最多只有n个邻接节点。nsw算法包括两种检索过程,首先是基于贪心算法的贪婪检索:对于待检索节点和当前节点p,计算待检索节点到p的每个邻接节点距离,选择具有最小距离的节点q。若q不同于p,则当前节点移动至q,重复上述过程。若q与p相同,则算法已经贪心地找到了局部最近邻点。nsw的第二种检索过程是k近邻检索,基于上述贪婪检索过程实现,通过广度优先搜索寻找距离待检索节点最邻近的k个节点。召回与排序模块通过faiss工具进行实现。综合考虑召回率与检索效率,算法选择近似最近邻算法中的hnsw算法。hnsw算法是在nsw算法的基础上,增加“跳表”结构,对图中的每一个节点增加层数属性,根据层数构建分层的nsw图。其中,上层的节点作为下层节点的索引。
63.在nsw算法中,所构建的图是介于正则图与随机图之间的小世界网络。在小世界网络图中,约定一个节点最多只有n个邻接节点。nsw算法包括两种检索过程,首先是基于贪心算法的贪婪检索:对于待检索节点和当前节点p,计算待检索节点到p的每个邻接节点距离,选择具有最小距离的节点q。若q不同于p,则当前节点移动至q,重复上述过程。若q与p相同,则算法已经贪心地找到了局部最近邻点。nsw的第二种检索过程是k近邻检索,基于上述贪婪检索过程实现,通过广度优先搜索寻找距离待检索节点最邻近的k个节点。
64.hnsw算法在此基础上增加了层数属性,在层数为0的层中,小世界网络包含全部节点。随层数的增加,每层节点数量按照指数衰减规律逐渐减少,层数通过l=进行计算,其中m_l是标准化因子。节点的层数为l表示从0层到l层的小世界网络中均包含该节点,从l+1层开始则不包含该节点。对于待插入节点q和该节点计算的层数l,从l+1层至最高层的每一层检所得到q的最近邻节点;从0层到l层,每层检索q的局部最近邻n个节点,在该层将这n个节点与q之间添加边,并检查这n个节点邻接节点是否超过n。若l超过当前最高层数,则将q作为检索时的入口节点。
65.hnsw的k近邻检索阶段从最顶层的入口节点开始,检索节点q在最顶层的k个最近邻节点。在其他层,则以上一层的最近邻节点开始,检索本层节点q的k个最近邻节点,该过程按层数循环,直至第0层。
66.hnsw算法属于近似最近邻算法中的一种,每次查找的是局部最近邻节点,会导致部分检索精度的损失,但该算法可将暴力检索的o(n)优化为综合考虑检索的精度和效率,采用该算法实现本发明的召回与排序模块。本发明对法律文书的向量索引通过hnsw算法建立分层可导航小世界网络,通过k近邻查询算法对用户查询向量进行检索。通过近似最近邻算法实现文书向量索引的离散化,从而完成召回过程,进而人牺牲部分召
回率极大提升对向量的检索速度。
67.优选的,采用召回算法根据所述查询语义向量和格量化语义向量进行基于余弦相似度的topk召回包括:
68.采用召回算法自适应的调节所述查询语义向量的权重,再根据调整权重后的查询语义向量和格量化语义向量进行基于余弦相似度的topk召回。
69.本召回算法可以自适应地对相应的检索字段进行权重调节,再根据调整权重后的查询语义向量和格量化语义向量进行基于余弦相似度的topk召回。也可以由工程师根据实际业务需求调整相应的排序策略,有效提升了检索策略。
70.需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
71.根据本发明实施例,还提供了一种用于实施上述法律文书的量化检索方法的装置,如图2和4所示,该装置包括:
72.文书获取模块10,用于获取并存储法律文书;
73.可以从各个法律相关渠道获取法律文书,并且存储到数据库中(图4中标记2.文书数据),以待召回阶段通过文书id为用户返回对应法律文书。
74.结构化抽取模块20,用于从所述法律文书中结构化抽取出案情相关文本;
75.法律文书由于其特殊格式,采用结构化抽取技术可以比较容易的将其转化为结构数据;具体地,通过结构化抽取法律文书,可以得到“原告诉称”、“被告辩称”和“本院查明”三部分字段的内容,该三部分字段内容如实反映了案件的发生发展过程,抽取出来后,作为文书构建索引的案情相关文本(图4中标记1.文书数据)。对法律文书做了结构化处理,能够进一步挖掘法律文书中更深层次的标签,为获取更细致的文书索引提供保障。
76.第一向量模块30,用于将所述案情相关文本输入预先配置的索引构建模型中,得到文本语义向量;
77.索引构建模块,用于根据所述文本语义向量和对应的文书id构建文书索引;
78.本实施例中,所述预先配置的索引构建模型为预先训练好的基于中文bert的双塔模型。
79.在本发明的实现过程中,索引构建模型采用基于中文bert的双塔模型实现。在对文书案情相关文本构建向量索引的过程中,保留文书id,并与双塔模型输出的对应的文本语义向量共同存储于内存空间中,由此可以构建文书索引(图4中标记3.文书索引)。构建文书索引的过程并不需要与用户进行交互,因此,可以通过训练好的双塔模型进行离线构建索引的操作。
80.本实施例中,双塔模型不是在公开预训练语言模型基础上预训练出来的,而是实际从零开始训练,让模型不断根据训练任务去模拟预测相应的答案。对比当前现有的技术,不是直接按照现有的流程直接使用或者直接训练语言模型,而是根据实际业务需求预训练相应的语言模型。
81.根据本发明实施例,优选的,基于中文bert的双塔模型的训练包括:
82.基于法律问答数据构建三元组数据集;
83.通过所述三元组数据集训练基于中文bert的双塔模型,使双塔模型学习法律文书
的向量表征空间。
84.具体地,通过法律问答数据构建三元组数据集用于对双塔模型进行训练,问答数据可表示为对于特定的问题q(i),正样本是与之对应的答案负样本从与之不对应的其他回答中进行抽样。对于每个问题,从其他回答中抽样5个样本分别作为负样本,构成5条三元组数据作为训练模型所用的数据,采用三元组损失对模型进行训练。通过构造的训练数据使双塔模型学习法律领域文本的表征空间,训练的目的是在表征空间中,问题与正样本的余弦距离显著小于问题与负样本的余弦距离,即模型能够有效区分相关性样本与无关性样本。
85.格量化模块,用于采用格量化器对所述文本语义向量进行重新量化编码,得到格量化语义向量;
86.格量化器是一种较为专业的数学体系,并不是针对所有的数据分布都能够得到非常好的效果;在法律文书检索场景下,经过结构化后得到的相应的文本语义向量分布较为均匀且符合一定规律,故可以使用格量化器。
87.为此,基于预训练双塔模型得到文本语义向量之后,使用根据格量化器对生成的文本语义向量进行重新量化编码,通过构建特定的格结构,能够将原始向量分布进行重分布,而且数据向量能够保持相对序(不会破坏文书id和文本语义向量之间的索引关系);如此,在解码过程中,借助格结构的简单属性,解码之后的匹配算法效率能够有效提升。
88.需要了解的是,格论是数学中非常重要的一种结构,在数学众多分支中都有非常重要的应用,如概率论、拓扑学、组合数学、线性代数等。格的定义如下:如果偏序集l的任意两个元素的集合{a,b}都有一个最小上界和一个最大上界,那么这个偏序集就是一个格结构;偏序集的定义如下:偏序集是满足自反性、反对称性及传递性的集合。
89.文书输出模块,用于当接收到终端的用户请求时,根据所述文书索引和格量化语义向量在终端输出与请求内容对应的目标法律文书。
90.优选的,当接收到终端的用户请求时,根据所述文书索引和格量化语义向量在终端输出与请求内容对应的目标法律文书包括:接收在终端输入的用户查询文本;将所述用户查询文本输入预先配置的索引构建模型中,得到查询语义向量;采用召回算法根据所述查询语义向量和格量化语义向量进行基于余弦相似度的topk召回;根据所述文书索引,在所述终端输出排序后的topk结果所对应目标法律文书。预先配置的索引构建模型为预先训练好的基于中文bert的双塔模型。
91.当语义向量检索模块接收到由检索接口传递过来的用户查询后,通过双塔模型对用户查询文本计算得到对应的向量表征(图4中标记4.用户查询)。该查询语义向量随后被传递到召回与排序模块(图4中标记5.查询语义向量),首先通过召回算法对法律文书索引进行基于余弦相似度的topk召回过程,并根据余弦相似度由大到小进行排序(图4中标记6.文书索引)。最后,根据完成排序后topk结果的文书id,从存储法律文书的数据库中查询到对应的法律文书(图4中标记7.文书id),并为用户返回检索结果(图4中标记8.检索结果)。
92.优选的,接收在终端输入的用户查询文本包括:
93.检索接口接收在终端的用户接口输入的用户查询,并将所述用户查询文本传递到预先配置的索引构建模型中。
94.如图3所示,用户通过用户接口输入用户查询,该用户查询文本通过检索接口传递给语义向量检索模块,该模块完成检索后,将检索结果分别通过检索接口和用户接口返回给用户。如此,在格量化的基础上实现了法律文书语义检索,能够借助格结构的简单属性,提升匹配算法的效率,检索速率,且用自然语言处理技术和深度学习技术,对具体用户查询案例的检索结果进行解析,模型可解释性很好。
95.从以上的描述中,可以看出,本发明实现了如下技术效果:
96.在本技术实施例中,采用对法律文书进行量化检索的方式,通过获取并存储法律文书;从所述法律文书中结构化抽取出案情相关文本;将所述案情相关文本输入预先配置的索引构建模型中,得到文本语义向量;根据所述文本语义向量和对应的文书id构建文书索引;采用格量化器对所述文本语义向量进行重新量化编码,得到格量化语义向量;当接收到终端的用户请求时,根据所述文书索引和格量化语义向量在终端输出与请求内容对应的目标法律文书;达到了将法律文书转化为结构化数据,并在结构化数据的基础上构建向量分布的目的,从而实现了加快检索速度,提升检索效率,且具有可解释性的技术效果,进而解决了由于将法律文书转化为结构化数据,并在结构化数据的基础上构建向量分布的方法并未出现,导致语义检索速率慢,效率低,且具有不可解释性的技术问题。
97.优选的,采用召回算法根据所述查询语义向量和格量化语义向量进行基于余弦相似度的topk召回包括:
98.采用hnsw算法先建立分层可导航小世界网络,再根据所述查询语义向量和格量化语义向量进行基于余弦相似度的topk召回。
99.本实施例中,召回与排序通过faiss工具进行实现。综合考虑召回率与检索效率,算法选择近似最近邻算法中的hnsw算法。hnsw算法是在nsw算法的基础上,增加“跳表”结构,对图中的每一个节点增加层数属性,根据层数构建分层的nsw图。其中,上层的节点作为下层节点的索引。
100.需要了解的是,在nsw算法中,所构建的图是介于正则图与随机图之间的小世界网络。在小世界网络图中,约定一个节点最多只有n个邻接节点。nsw算法包括两种检索过程,首先是基于贪心算法的贪婪检索:对于待检索节点和当前节点p,计算待检索节点到p的每个邻接节点距离,选择具有最小距离的节点q。若q不同于p,则当前节点移动至q,重复上述过程。若q与p相同,则算法已经贪心地找到了局部最近邻点。nsw的第二种检索过程是k近邻检索,基于上述贪婪检索过程实现,通过广度优先搜索寻找距离待检索节点最邻近的k个节点。召回与排序模块通过faiss工具进行实现。综合考虑召回率与检索效率,算法选择近似最近邻算法中的hnsw算法。hnsw算法是在nsw算法的基础上,增加“跳表”结构,对图中的每一个节点增加层数属性,根据层数构建分层的nsw图。其中,上层的节点作为下层节点的索引。
101.在nsw算法中,所构建的图是介于正则图与随机图之间的小世界网络。在小世界网络图中,约定一个节点最多只有n个邻接节点。nsw算法包括两种检索过程,首先是基于贪心算法的贪婪检索:对于待检索节点和当前节点p,计算待检索节点到p的每个邻接节点距离,选择具有最小距离的节点q。若q不同于p,则当前节点移动至q,重复上述过程。若q与p相同,则算法已经贪心地找到了局部最近邻点。nsw的第二种检索过程是k近邻检索,基于上述贪婪检索过程实现,通过广度优先搜索寻找距离待检索节点最邻近的k个节点。
102.hnsw算法在此基础上增加了层数属性,在层数为0的层中,小世界网络包含全部节点。随层数的增加,每层节点数量按照指数衰减规律逐渐减少,层数通过l=进行计算,其中m_l是标准化因子。节点的层数为l表示从0层到l层的小世界网络中均包含该节点,从l+1层开始则不包含该节点。对于待插入节点q和该节点计算的层数l,从l+1层至最高层的每一层检所得到q的最近邻节点;从0层到l层,每层检索q的局部最近邻n个节点,在该层将这n个节点与q之间添加边,并检查这n个节点邻接节点是否超过n。若l超过当前最高层数,则将q作为检索时的入口节点。
103.hnsw的k近邻检索阶段从最顶层的入口节点开始,检索节点q在最顶层的k个最近邻节点。在其他层,则以上一层的最近邻节点开始,检索本层节点q的k个最近邻节点,该过程按层数循环,直至第0层。
104.hnsw算法属于近似最近邻算法中的一种,每次查找的是局部最近邻节点,会导致部分检索精度的损失,但该算法可将暴力检索的o(n)优化为综合考虑检索的精度和效率,采用该算法实现本发明的召回与排序模块。本发明对法律文书的向量索引通过hnsw算法建立分层可导航小世界网络,通过k近邻查询算法对用户查询向量进行检索。通过近似最近邻算法实现文书向量索引的离散化,从而完成召回过程,进而人牺牲部分召回率极大提升对向量的检索速度。
105.优选的,采用召回算法根据所述查询语义向量和格量化语义向量进行基于余弦相似度的topk召回包括:
106.采用召回算法自适应的调节所述查询语义向量的权重,再根据调整权重后的查询语义向量和格量化语义向量进行基于余弦相似度的topk召回。
107.本召回算法可以自适应地对相应的检索字段进行权重调节,再根据调整权重后的查询语义向量和格量化语义向量进行基于余弦相似度的topk召回。也可以由工程师根据实际业务需求调整相应的排序策略,有效提升了检索策略。
108.显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
109.以上所述仅为本技术的优选实施例而已,并不用于限制本技术,对于本领域的技术人员来说,本技术可以有各种更改和变化。凡在本技术的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本技术的保护范围之内。

技术特征:
1.一种法律文书的量化检索方法,其特征在于,包括:获取并存储法律文书;从所述法律文书中结构化抽取出案情相关文本;将所述案情相关文本输入预先配置的索引构建模型中,得到文本语义向量;根据所述文本语义向量和对应的文书id构建文书索引;采用格量化器对所述文本语义向量进行重新量化编码,得到格量化语义向量;当接收到终端的用户请求时,根据所述文书索引和格量化语义向量在终端输出与请求内容对应的目标法律文书。2.根据权利要求1所述的量化检索方法,其特征在于,当接收到终端的用户请求时,根据所述文书索引和格量化语义向量在终端输出与请求内容对应的目标法律文书包括:接收在终端输入的用户查询文本;将所述用户查询文本输入预先配置的索引构建模型中,得到查询语义向量;采用召回算法根据所述查询语义向量和格量化语义向量进行基于余弦相似度的topk召回;根据所述文书索引,在所述终端输出排序后的topk结果所对应目标法律文书。3.根据权利要求1或2所述的量化检索方法,其特征在于,所述预先配置的索引构建模型为预先训练好的基于中文bert的双塔模型。4.根据权利要求3所述的量化检索方法,其特征在于,基于中文bert的双塔模型的训练包括:基于法律问答数据构建三元组数据集;通过所述三元组数据集训练基于中文bert的双塔模型,使双塔模型学习法律文书的向量表征空间。5.根据权利要求2所述的量化检索方法,其特征在于,采用召回算法根据所述查询语义向量和格量化语义向量进行基于余弦相似度的topk召回包括:采用hnsw算法先建立分层可导航小世界网络,再根据所述查询语义向量和格量化语义向量进行基于余弦相似度的topk召回。6.根据权利要求2所述的量化检索方法,其特征在于,采用召回算法根据所述查询语义向量和格量化语义向量进行基于余弦相似度的topk召回包括:采用召回算法自适应的调节所述查询语义向量的权重,再根据调整权重后的查询语义向量和格量化语义向量进行基于余弦相似度的topk召回。7.根据权利要求2所述的量化检索方法,其特征在于,接收在终端输入的用户查询文本包括:检索接口接收在终端的用户接口输入的用户查询,并将所述用户查询文本传递到预先配置的索引构建模型中。8.一种法律文书的量化检索装置,其特征在于,包括:文书获取模块,用于获取并存储法律文书;结构化抽取模块,用于从所述法律文书中结构化抽取出案情相关文本;第一向量模块,用于将所述案情相关文本输入预先配置的索引构建模型中,得到文本语义向量;
索引构建模块,用于根据所述文本语义向量和对应的文书id构建文书索引;格量化模块,用于采用格量化器对所述文本语义向量进行重新量化编码,得到格量化语义向量;文书输出模块,用于当接收到终端的用户请求时,根据所述文书索引和格量化语义向量在终端输出与请求内容对应的目标法律文书。9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行所述权利要求1、2、5至7中任一项所述的法律文书的量化检索方法。10.一种电子装置,包括:存储器和处理器,其特征在于,所述存储器中存储有计算机程序,其中,所述处理器被设置为运行所述计算机程序以执行所述权利要求1、2、5至7中任一项所述的法律文书的量化检索方法。

技术总结
本申请公开了一种法律文书的量化检索方法、装置、存储介质及电子装置。该量化检索方法包括:获取并存储法律文书;从所述法律文书中结构化抽取出案情相关文本;将所述案情相关文本输入预先配置的索引构建模型中,得到文本语义向量;根据所述文本语义向量和对应的文书ID构建文书索引;采用格量化器对所述文本语义向量进行重新量化编码,得到格量化语义向量;当接收到终端的用户请求时,根据所述文书索引和格量化语义向量在终端输出与请求内容对应的目标法律文书。本申请解决了由于将法律文书转化为结构化数据,并在结构化数据的基础上构建向量分布的方法并未出现,导致语义检索速率慢,效率低,且具有不可解释性的技术问题。且具有不可解释性的技术问题。且具有不可解释性的技术问题。


技术研发人员:肖熊锋 杜向阳
受保护的技术使用者:北京擎盾信息科技有限公司
技术研发日:2023.03.15
技术公布日:2023/7/12
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐