一种合同条款风险检查方法、系统、设备和存储介质
未命名
10-09
阅读:160
评论:0
1.本发明属于自然语言处理技术领域,具体涉及一种合同条款风险检查方法、系统、设备和存储介质。
背景技术:
2.合同是民事主体之间设立、变更、终止民事法律关系的协议。在商业活动中,合同,尤其是建设工程合同,是项目管理的依据,也是约定当事人责权利关系的书面协议,双方当事人根据合同约定享受权利并履行对应的责任义务。由于建设工程合同具有履约周期长、条款内容复杂等特点,当事人在履约过程中因合同条款格式不规范、内容不完备等合同风险因素诱发潜在法律纠纷,可能致使责任方面临巨额经济损失。近六年我国建设工程合同纠纷引发的案件数量增速始终居高不下,2019年度纠纷裁判文书为46.7万份,争议标的总额达4376.41亿元,表明依赖经验性的建设工程合同风险管理存在大量问题。
3.合同风险管理指合同从订立、履约到终止全生命周期中对合同风险因素的识别、估计、评价和控制行为。合同风险因素具体包括合同缺陷风险和履约过程风险,前者指合同订立阶段因条款缺漏、内容二义性、责权关系失衡等条款实质内容不足引发的风险,可通过合同检测及时规避;后者指合同履约阶段因工程变更、工期延后、支付违约、质量缺陷等事件引发的风险,并通过索赔和争议解决方式进行风险控制。在众多合同缺陷风险因素中,合同条款缺漏风险指在建设工程合同订立阶段双方当事人未将部分约定写入合同中,导致一方无法依据条款行使权利或提出索赔要求。若能在合同订立阶段充分做好风险检测工作,就能尽量减少当事人在后期合同履行阶段可能出现的投机倾向。
4.在建设工程合同订立阶段的风险检测过程通常由公司各部门分别审核、共同会商。这类传统的合同检测方法一方面依赖人员经验积累和主观判断,导致各部门合同风险管理的水平不一。另一方面无法满足短暂招投标期内大批量的合同检测需求,导致履约过程合同风险仍不断显现,引发大量纠纷案件。目前,合同风险检测长期存在条款缺陷检测不完全和审查效率低下三方面问题:(1)由人工疏漏引发的合同条款缺陷频繁出现,如文字表述不正确、主体不当、金额大小写不符等。尤其当合同在各部门多次流转审查后,更增加了出现人工疏漏问题的可能性;(2)审核方式枯燥且低效。尽管审查人员已经非常熟悉合同内容,但为防范磋商过程中对方当事人有意或无意的修改,仍需要对合同全部或部分条款进行多次形式检查。一份合同往往需要在各部门流转十余小时,影响企业合同管理的效率;(3)审核结果受主观评价影响大。由于审查人员的知识体系和教育程度不同,对同一条款可能给出完全迥异的评价,同时审查人员的思维定式也容易导致合同风险检测存在“认识边界”问题。
技术实现要素:
5.针对上述问题,本发明第一方面提供一种合同条款风险检查方法,包括步骤:构建条款语义相似度计算模型;获取待检查合同,将合同中的待检查条款输入条款语义相似度
计算模型;获得待检查条款与标准条款的语义相似度,其中,语义相似度低于设定阈值的条款被确定为风险条款。
6.优选地,方法还包括步骤:构建条款多标签分类模型和标准条款标签集合,标准条款标签包括合同的基本要素;将待检查合同中的待检查条款输入条款多标签分类模型,获得待检查条款标签集合;将待检查条款标签集合与标准条款标签集合对比,确定待检查合同是否缺失条款标签,并将缺失条款标签的待检查合同标记为风险合同。
7.优选地,在将合同中的待检查条款输入所述条款语义相似度计算模型前,还包括步骤:预设多个合同领域,对每个合同领域设计对应的标准条款标签集合;构建合同文本分类模型,将待检查的合同归类为预设的合同领域。从而,对于合同文本分类模型给出的不同类别,在输入条款多标签分类模型后,会用对应的不同的标准条款标签集合去匹配,能够根据提取的合同文本词向量特征将合同按所属类别高效归档,提升合同条款语义相似度算法的效率和准确度。
8.优选地,标准条款标签还包括从训练集中预先统计获得的合同高频词。
9.优选地,在将合同中的待检查条款输入条款多标签分类模型前,还包括步骤:对比待检查合同的与标准合同的同级标题,将对比不一致的待检查合同直接标记为风险合同。
10.优选地,条款语义相似度计算模型基于bert预训练模型构建,并在输入表征层后引入matchpyramid结构,将输入表征层输入的上下文编码向量表示为二维的匹配矩阵。借助matchpyramid结构,可以从词语、短语和句子水平构建匹配矩阵,降低无关内容对计算的影响,实现合同条款的精确匹配。
11.优选地,在将合同中的待检查条款输入条款多标签分类模型前,还包括对超过条款多标签分类模型的字符限制的长条款进行分割处理,其中,采用以下步骤确定分割点:将长条款的自然段间隔作为潜在分割点;对比每个潜在分割点两侧文本的相似度,将相似度最高的潜在分割点作为最终的分割点。
12.本发明第二方面提供一种合同条款风险检查系统,包括:
13.模型训练模块,配置用于构建条款语义相似度计算模型;
14.相似度计算模块,配置用于获取待检查合同,将合同中的待检查条款输入条款语义相似度计算模型;
15.风险条款确认模块,配置用于获得待检查条款与标准条款的语义相似度,其中,语义相似度低于设定阈值的条款被确定为风险条款。
16.本发明第三方面提供一种合同条款风险检查设备,包括:处理器以及与处理器耦接的存储器;存储器上存储有可在处理器上运行的合同条款风险检查程序,合同条款风险检查程序被处理器执行时实现如第一方面中任一项的合同条款风险检查方法的步骤。
17.本发明第四方面提供一种存储介质,其上存储有合同条款风险检查程序,合同条款风险检查程序被处理器执行时实现如第一方面中任一项所述的合同条款风险检查方法的步骤。
18.本发明提出的方案把合同条款缺漏检测任务分解为合同文本分类和条款相似度问题,以语言学、nlp技术、深度学习技术和建设工程合同管理为理论依据,使用计算机技术实现对合同文本自动分类、条款多标签分类和条款语义相似度计算,深度学习模型cnn、lstm和bert等均可实现相应的算法。该方案可改善依赖经验的传统合同审查方式,达成智
能检测合同条款缺漏风险的目标,为解决合同风险检测长期存在的依赖人员主观经验、检测效率低下和风险检测不全面等问题提供可行的解决方法。
附图说明
19.为了便于描述,附图中仅示出了与有关发明相关的部分。
20.图1为本发明针对的问题和解决方案说明;
21.图2为我国示范文本标准合同结构形式;
22.图3为本发明一具体实施例中各潜在分割点对应的分割点前后的文本相似度;
23.图4为本发明一具体实施例中潜在分割点的相似度曲线;
24.图5为本发明另一具体实施例中基于matchpyramid结构的bert语义相似度计算模型结构图;
25.图6为本发明另一具体实施例中合同条款检测系统架构图;
26.图7为本发明另一具体实施例中合同条款缺漏检测系统的工作流程图;
27.图8为本发明另一具体实施例中合同条款风险检查系统的结构示意图。
具体实施方式
28.下面结合附图和实施例对本技术作进一步的详细说明。此处所描述的具体实施例仅用于解释相关发明,而非对该发明的限定。在不冲突的情况下,本技术中的实施例及实施例中的特征可以相互组合。
29.为改进合同风险检测方法,近年来大数据(big data)、自然语言处理(natural language processing,nlp)、深度学习(deep learning,dl)等前沿信息技术已逐步应用于建设工程项目合规性检测、辅助决策等领域,新兴数据科学的发展为合同风险管理摆脱固有模式提供技术支持。作为将非结构化文本自动进行结构化处理的计算机技术,nlp技术成为实现合同风险智能检测的关键工具。nlp技术是融合了语言学和计算机科学的综合学科,也是目前人工智能主要的研究方向。dl技术则进一步提升nlp技术抽取信息、学习语料特征的能力。在计算机和ai技术取得长足进步的今天,采用智能化手段提升合同检测效率,减少合同条款缺陷风险,不仅满足建设工程合同风险控制的实践需要,也成为合同管理领域最前沿的研究方向之一。目前已有学者和公司开始尝试使用计算机技术进行合同管理及挖掘合同隐性知识,已有学者提出基于nlp的施工合同风险条款抽取模型,实现对风险条款的自动识别;以色列公司开发了首个ai合同审核平台lawgeex,初步实现合同语义智能理解和风险自动检测。
30.发明人通过对中文建设工程合同条款的研究提出本发明。建设工程合同存在各类风险因素,其中合同条款缺漏风险检测的主要内容是识别是否缺失对履约阶段产生重大影响的合同条款,是后续分析条款责权利关系的基础。因此本发明着眼于建设工程合同条款缺漏风险,设计了基于nlp与深度学习技术的合同条款缺漏风险智能检测方案,提出不依赖人工参与的方式,利用计算机技术实现对合同条款缺漏风险的智能检测。
31.图1为本发明针对的问题和解决方案说明。针对如图1所述的现有技术存在的问题,提出将nlp涉及的语言学领域理论知识引入建设工程合同风险管理中的解决方案。在一具体实施例中,首先,使用网络爬虫和easy data augmentation技术获取大量公开的合同
文本语料,利用中文分词、去除停用词、文本表示等nlp技术将合同条款转化为可被计算机识别的语言形式。其次,将卷积神经网络和长短时记忆神经网络用于自动提取合同文本特征,并融合两个模型以提升分类模型性能。最后,进行建设工程合同条款相似度算法研究,从分类学角度设计了合同条款多维度标签体系。基于bert模型设计了合同条款多标签分类算法,减小语义相似度数据的计算量。并将matchpyramid结构引入bert模型中,设计了合同条款语义相似度算法,获取词语特征匹配矩阵并进行卷积操作,根据文本交互信息计算条款的语义相似度。在上述技术的基础上,进行了建设工程合同条款缺漏检测原型系统的设计。
32.对于合同文本格式的预处理,提出利用多种nlp技术实现对合同条款文本格式的转换和处理。选择开源工具库jieba实现合同条款的中文分词、去除停用词和词频统计任务;使用分布式表示技术word2vec将合同条款转换为词向量空间;针对bert模型只能处理512字符以下文本的情况,利用texttilling算法计算条款的余弦相似度实现长文本分割处理。最终将合同条款转换为计算机可以理解的结构化文本。
33.【实施例1】合同文本分类算法
34.本实施例构建了建设工程合同分类模型。使用网络爬虫和easy data augmentation技术获取大量公开的合同文本语料,原始合同语料库文本仍为大段描述性内容,故需要对中文文本进行文本预处理,清洗掉不影响文本表达的无效字词。本方法进行中文nlp预处理的下一步工作是对合同条款进行文本表示,故选择了nlp技术的中文分词、去除停用词和词频统计三种方法。
35.合同条款等中文文本是以“字”作为书写的最小单位,与英文不同,中文词语不存在明确的间隔标记,所以中文分词操作的目的是根据一定规则将自动识别中文文本的字符串切分为合理的词语序列;去除停用词则是将句子划分为词的集合,剔除合同文本中对文本处理没有太大影响但高频出现的连词、代词和介词如“的”、“所以”、“因此”等;词频统计的目的是求出相邻字间同时出现的频率或概率用于衡量词语的可信度,同时获得的关键词词频统计信息也作为后续多标签分类的标签选择的有效参考。本系统选择python开源的第三方中文分词库jieba库作为实现文本预处理的工具。
36.通过中文nlp技术处理后的合同仍为自然语言形式下的非结构化文本。为使计算机能够处理合同文本,本系统通过自然语言建模的方法将其转换为结构化的数字向量形式。自然语言建模的方法可以分为基于规则、基于统计和基于深度学习三类。本系统选择基于深度学习的文本表示方法。文本表示方法主要通过预训练技术实现,word2vec在模型结构和训练效率上具有稳定和高效的优势,在大规模文本语料中无监督训练词向量任务中具有良好的表现,是在预训练技术中应用最广泛的分布式表示技术,本系统选择word2vec模型作为合同文本表示的工具。
37.优选实施例中,将卷积神经网络和长短时记忆神经网络用于自动提取合同文本特征,并融合两个模型以提升分类模型性能。建设工程合同文本分类本质是一种长文本分类任务,合同条款的文本不仅包含了词语本身的局部信息,还包含词语与上下文其他条款的序列信息。cnn模型是通过若干不同卷积核实现对词向量一维方向的卷积,优点在于容易获取文本的局部关键信息,可以很好地完成短文本分类任务。而lstm模型更容易学习文本中的上下文序列信息,对整体的上下文信息更敏感。以上两种深度学习模型提取到的特征类
型可能存在一定差异,所以可以考虑综合cnn和lstm模型的优点,提升对建设工程合同文本的分类效果。模型融合又称为集成学习(ensemble learning)或多分类器系统,主要应用在分类和回归任务中,将多个分类模型的计算结果按需求进行组合,从而最大程度利用每个模型的优势,有效提高模型的泛化能力并降低模型过拟合的风险。
38.本系统选择平均法的线性加权方法,在训练过程中,cnn和lstm模型各输出一个概率预测矩阵,将每个模型的概率矩阵按系数加权平均,在训练过程根据分类结果动态调节权重大小。模型实验过程中发现当cnn和lstm的权重比为3:7时,融合模型分类的准确率最高。
39.本实施例从算法原理的角度分析两种深度学习模型对文本特征提取方式和文本特征关注点的差异。采用线性加权的方法融合cnn和lstm模型,提升了合同文本分类模型的计算精度。实验结果表明,融合后的分类模型精确率、召回率和f1值达到0.882、0.921和0.898,在建设工程合同分类结果中施工、勘察设计合同的分类结果较优。
40.【实施例2】多款多标签分类算法
41.本实施例中,通过建设工程合同条款相似度算法研究,从分类学角度设计了合同条款多维度标签体系。基于bert模型设计了合同条款多标签分类算法,减小语义相似度数据的计算量。
42.首先通过文本分割拆分整篇合同文本,根据章节结构判断合同是否属于标准合同条件。
43.(1)确定文本分割基本单元
44.在nlp任务中句子、段落或篇章均能够作为文本分割的基本单元。然而句子所包含的语义信息容量相对较少,容易忽略句子在语境中的作用;篇章所包含的信息量大,但目前nlp技术常用的模型无法对篇章级别的语义信息进行精准处理,导致模型很难获得文本语料的细节信息;而段落长度介于句子和篇章,能够很好平衡语义单元信息量和模型实现可能性的关系。在建设工程合同中,合同条款按照结构层次可分为章、节、条、款、项五个部分。其中“章”和“节”是对同一类合同条款的集合归类,使用阿拉伯数字一级标题和二级标题编号;“条”是组成合同的基本单元,一份合同由若干条合同条款组成,使用阿拉伯数字三级标题编号;“款”是“条”的组成内容,具体表现为合同条款的自然段。每个自然段为一款,款前无阿拉伯数字编号;“项”则是通过枚举的方式对“款”内自然段文字的详细说明。因此,本文选择“条”作为文本分割以及后续多标签分类和语义相似度计算的基本单元。
45.(2)判断合同文本结构
46.建设工程合同文本按照结构特点可分为标准合同条件和非标准合同条件,两者在合同章节编排、语言叙述等方面都存在着很大不同。在分割基本单元时,若专门识别合同的一级标题序号和标题内容,便能判断合同是否属于标准合同条件。
47.标准合同条件依次由合同协议书、通用条款、专用合同条款三部分组成:合同协议书仅对合同双方及工程项目做简要介绍,说明合同所要达到的目标,实质性内容较少,主要包括合同当事人基本信息、项目名称、合同文件解释顺序以及当事人签章等;通用条款是合同文本最重要的组成部分,将反映工程管理情况且普遍适用的条款内容提取出来形成标准独立的合同文本模块;专用合同条款反映了工程项目的特殊性,是对合同通用条款的补充、删减和特别说明。目前国际工程项目常用的标准合同条件fidic合同条件、《示范文本》和
aia合同都采用这种组成方式,合同结构形式如图2所示。
48.(3)合同长条款分割
49.研究人员在构建bert模型时,为达到模型计算和运行效率综合最优,在位置嵌入层规定了bert输入数据的最大长度限制为512字符。若文本长度大于512需要截断,小于该长度则需要补零处理。本系统使用jieba工具的分词功能统计合同文本长度分布情况,发现合同条款长度主要集中在200-300区间内,长度超过512字符的条款数量占全部训练集数量的1.43%。对于超过512字符的合同条款需要进行长文本语句分割,由于合同条款通常含有一至多个并列项,需要考虑长文本分割位置,确保分割后两部分内容包含意思相近的“款”和“项”。下面介绍算法的实现过程。
50.划分文本单位(tokenization):大部分长条款内容主要为依次列举在各种情况下的假设情况和责权约定情况,通常各个小段分界为“句号/分号+回车+序号”。本系统以此为潜在分割点,将原始合同条款文本切分为多个伪句子(pseudo sentence)。
51.①
余弦相似度计算:潜在分割点两侧文本向量分别为x={x1,x2,
…
,xn}和y={y1,y2,
…
,yn},其中n为合同条款中文分词后词个数,向量余弦值的计算公式如下:
[0052][0053]
其中xi为潜在分割点左侧文本向量中词语i的个数;yi为潜在分割点右侧文本向量中词语i的个数;b1为左侧文本向量;b2为右侧文本向量;t为文本总单词数;为单词t在块b1中的权重;为单词t在块b2中的权重;
[0054]
②
边界识别(boundary identification):将各潜在分割点对应的间隔点前后文本相似度以深度值(depth score)表示。以图3为例,间隔点g1存在左右两个最高点,而间隔点g2只在右边有一个最高点。则令间隔点g3左右两侧均为递减状态,无峰值则间隔点gapi对应的深度值计算公式为:
[0055]
depthi=max{(consim
i,left-consimi),0}+max{(consim
i,right-consimi0),0}
[0056]
其中cossim
i,left
为间隔点左侧相似度峰值;cossim
i,right
为分割点右侧的相似度峰值。计算过程中当间隔点相似度cossim最小时,此时该目标间隔点对应depth恰好相反为最大值。选取相似度值高于给定阈值的潜在分割点作为原保障责任描述的文本分割位置。本实施例中,应用hearst在multi-paragraph segmentation of expository text中给出的阈值定义:
[0057]
f(μ,σ)=μ-σ/2
[0058]
其中μ和σ分别为深度值序列的平均值和标准差。
[0059]
最终得到合同条款文本分割相似度曲线图像,x轴代表间隔点序列组成,点c0和c5的相似度为0,表示施工合同条款开始处与结尾处的相似度值。根据相似度计算结果,条款潜在分割点g2的相似度满足阈值要求,则将其作为文本分割点,获得相似度曲线如图4所示。
[0060]
然后根据分类学和建设工程合同领域知识构建合同条款多维度标签体系,为各章条款标注对应的标签。
[0061]
本文综合了基于词频统计和基于合同领域知识两种方法,构建适用于建设工程施
工合同的多维度标签体系。根据词频大小统计的条款高频关键词通常最能代表合同文本内容的特征。本系统在tf-idf词频统计模块中,除去无实质意义的停用词后,筛选出部分条款标签关键词。
[0062]
仅根据词频大小得到的标签无法充分全面的体现出合同条款的特性,合同标签还应包括合同参与方、法律关系、合同标的等内容。考虑到建设工程合同标签与项目管理理论、建设法律法规具有很高的关联性,为此本文引入基于合同领域知识的方法作为概念补充,额外从合同通用条款、建设工程项目管理知识和《中华人民共和国建筑法》提取部分补充标签,扩大生成标签的覆盖率。
[0063]
通用条款各个章节条款的小标题基本概括了条款的名词短语,从中抽取的章节关键词能够覆盖施工建造全阶段以及各阶段所涉及的相关事物,有效提高标签体系框架的广度和深度。本系统还引入了建设工程项目管理知识和《中华人民共和国建筑法》的重要术语作为概念补充。在此基础上,借助分类学的类别分类方法对标签关键词进行上下位类别归纳和整理,获得具有统一分类层次的建设工程合同条款多维度标签体系。
[0064]
本系统构建的条款多维度标签体系涵盖了建设工程合同管理的关注要素以及质量、成本、工期三大项目管理目标,分为三级标签,其中一级标签6个、二级标签36个、三级标签231个。一级标签是对合同条款所处的任一阶段所涉及的当事人和相关物品、行为的描述;二级标签是对一级标签的细化,例如一级标签“合同主体及参与方”可细分为“发包人”、“承包人”、“监理人”、“供应商”等不同角色;三级标签则进一步规定二级标签包含的具体内容,通常一个二级对应多个三级标题。
[0065]
考虑到一级标签界定范围过广,而三级标签数量过多,分类模型的计算能力无法满足要求。所以本系统选择以二级标签作为分类依据,根据条款描述的内容打上多个二级标签。
[0066]
最后将训练语料依次输入bert输入表征模块的词嵌入层、段落嵌入层和位置嵌入层,在预训练层进行词语和句子水平训练,获取条款的语义信息。基于bert模型的合同条款多标签分类算法训练过程分为输入表征层、预训练层和微调层。
[0067]
输入表征层(input representation layer)由三个嵌入层组成,在词嵌入层采用中文分字处理方法处理词向量层,在段落嵌入层为考虑短语顺序信息加入了位置嵌入层,在训练过程中不断调整嵌入层参数值。
[0068]
bert模型预训练层(pre-training layer)分为bert-base和bert-large两种模型,区别在于transformer编码器的层数(l)、多头注意力机制中的头数(a)和隐藏状态维度(h)不同。bert-base模型三个参数分别为l=12,a=12,h=768,参数总数为110m。在bert-large模型中l=24,a=16,h=1024,参数总数为340m。预训练层通过遮罩语言模型(mlm)和预测下一句(nsp)方法分别捕捉单词和句子级别的文本表征。
[0069]
微调层(fine-training layer)目的是进一步提升bert模型在指定下游任务的应用效果。bert模型采用了将多标签分类问题转换为二元关联的微调策略。在标签空间大小为q的多标签语义索引任务中,将文本数据依次输入q个基分类器处理,再按一定规则把基分类器的输出组合为一个实例的标签集预测结果。分类器输出的概率值p的计算结果如下:
[0070]
p=softmax(cw)
[0071]
其中c为文本向量值;w为微调过程中引入的新权重参数。bert模型原有权重和新
权重参数w将根据微调结果随时变动,以实现bert模型对多标签分类结果最优的目的。优化过程中目标函数类别交叉熵(categorical cross entropy,cce)的计算公式如下:
[0072]
cce=-log(pi)
[0073]
其中pi为正确类别对应的softmax函数输出值。
[0074]
本实施例中,针对多标签分类算法暂无统一分类标准的现状,在分类学的基础上基于词频统计和合同领域知识构建了建设工程合同条款多维度标签体系,将bert预训练模型用于实现条款多标签分类。实验结果表明,模型精确率、召回率和f1值达到0.805、0.772和0.782,条款多标签分类模型对不同频次下合同标签都具有较好的预测效果,验证了bert模型在多标签分类任务中的有效性,可实现对缺漏条款标签的初步筛选。
[0075]
【实施例3】条款语义相似度算法
[0076]
将matchpyramid结构引入bert模型中,设计了合同条款语义相似度算法,获取词语特征匹配矩阵并进行卷积操作,根据文本交互信息计算条款的语义相似度。
[0077]
matchpyramid结构体现了层次化匹配的思想,利用两个文本间词语对应的词向量点积或者余弦相似度构建二维的匹配矩阵,将文本匹配问题转换为图像识别任务。基于matchpyramid的bert模型首先将合同文本匹配细化为词语水平匹配、短语水平匹配和句子水平匹配三个层级。在判断两个合同条款的词语相似度后继续判断多个词语组成的短语是否有相同的意思,最后再判断整体句子的语义是否相似。
[0078]
图5为基于matchpyramid结构的bert语义相似度计算模型结构图。其包括:
[0079]
(1)输入表征层
[0080]
在输入表征层(input representation layer)依次将句子p={p1,p2,
…
,pm}和句子q={q1,q2,
…
,qm}用[sep]和[cls]特殊符号拼接成句子d,其计算公式如下:
[0081]
d={[cls],p1,p2,
…
,pm,[sep],q1,q2,
…qn
,[sep]}
[0082]
将d中的每个字符分别通过token embedding、segment embedding和positional embedding依次得到对应的向量信息,组合这三个向量获得字符的嵌入表示s,进而在bert模型进行编码得到序列的上下文编码向量h∈r
l
×
d[89]
,其计算公式如下:
[0083]
h={h0,h1,
…
,h
l-1
}
[0084]
其中l为序列d的长度;hi为d的第i个字符的上下文表示;h0为特殊符号[cls]的向量表示。
[0085]
(2)匹配层
[0086]
matchpyramid结构主要应用在匹配层(matching layer)和匹配信息提取层(information extraction layer)。为此将文本匹配的输入表示为二维的匹配矩阵(matching matrix),借助二维卷积的方法获得句子的空间向量表示并通过多层感知机计算相似度。对编码层的上下文向量进行匹配得到匹配矩阵e,e中第i行第j列的元素e
i,j
代表p中第i个词语和q中第j个词语间的相似度。匹配矩阵e的计算公式如下:
[0087][0088]
e=ξ(h
(p)
,h
(q)
)
[0089]
其中ξ为匹配矩阵计算函数,可通过指示函数、余弦相似度和点积三种方法计算得到。试验表明与指数函数、余弦相似度方法比较,点积方法进一步考虑词向量的范数,能够
更好地表示词向量间的关系,本系统选用点积方式计算匹配矩阵。点积方式的匹配矩阵计算公式如下:
[0090][0091]
其中和分别为词语和的向量表示,文本向量的数量积即为点积方式的计算结果。
[0092]
(3)匹配信息提取层
[0093]
matchpyramid结构对待匹配文本的信息抽取可以视为计算机图像处理领域的图像相似度比对算法。在图像相似度比对过程中,浅层卷积核用于捕获图片的局部信息,深层卷积核用于捕获图片的全局信息,局部信息是全局信息的信号来源,类似于若干像素点呈现出完整的图像信息。类比到语义相似度计算中,词语水平的匹配信息决定短语水平的匹配信息,短语水平的匹配信息决定句子水平的匹配信息。
[0094]
(4)输出层
[0095]
输出层依次由两层卷积层和池化层堆叠而成。第一层卷积层的卷积核尺寸设置为(3,3,64),第二层卷积核尺寸设置为(3,3,128);第一层池化层尺寸设置为(2,2),第二层池化层设置为全局最大池化,生成长度为通道数的向量r2。使用多层cnn抽取不同水平的匹配信息的卷积计算公式如下:
[0096][0097]
在多层感知机中将a
i,j
与[cls]的编码信息进行组合,并在softmax函数中计算每个组合向量的相似度概率值,其计算公式如下:
[0098]
r=[r2;h0]
[0099]
p=softmax(wrr+br)
[0100]
其中wr和br为前期训练获得的模型权重;p为组合向量的相似度概率值。最后通过损失函数l更新模型权重的数值,计算公式如下:
[0101][0102]
其中yi为真实的标签类别;pi为预测的标签类别。
[0103]
将待检测条款和标准条款集输入bert输入表征层中,获得字符嵌入向量信息并进行上下文向量编码工作。本系统将matchpyramid结构引入bert中,从词语、短语和句子水平构建匹配矩阵,降低无关内容对计算的影响,实现合同条款的精确匹配。最终模型输出与标准合同条款语义存在差异的条款,由合同审查人员进一步判断是否存在缺漏。
[0104]
本实施例中,引入matchpyramid结构替代softmax函数,改善了bert模型在相似度计算任务中预测效果不佳的问题。在词语、短语和句子层面组成合同条款的匹配矩阵,根据信息抽取和特殊符号[cls]编码信息的融合结果,得出合同条款的文本语义相似度。实验结果表明,模型测试的精确率、召回率和f1值达到0.709、0.698和0.703,说明模型能够较好地完成条款间语义相似度的计算过程,实现对合同缺漏条款的智能检测。同时根据计算结果可以得出语义相似度计算模型的信息抽取效果受条款长度影响的结论,条款越长则相似度计算的效果越不稳定。
[0105]
【实施例4】条款缺漏检测系统
[0106]
本实施例设计了建设工程合同条款缺漏检测原型系统,包括以下几方面的系统功能需求:
[0107]
(1)数据获取功能:通过网络爬虫技术和各类渠道获取合同文本数据,用于训练合同分类算法和条款相似度算法模块;
[0108]
(2)文本预处理功能:对合同文本进行数据增强、中文分词和文本表示等工作,将非结构化合同文本转化为结构化数据;
[0109]
(3)合同文本分类功能:对不同类别合同高效分类和归档,根据处理合同的类型特点训练对应的文本分类模型;
[0110]
(4)多标签分类功能:为合同条款标记对应的标签,并初步判断合同条款是否存在标签缺漏;
[0111]
(5)语义相似度计算功能:将待检测条款输入语义相似度算法模块,根据语义信息匹配结果完成合同条款缺漏风险检测;
[0112]
(6)管理及使用功能:系统使用对象主要为管理员及个人用户,其中管理员的使用范围包括对系统底层数据以及算法进行日常更新和维护,以及对个人用户的基本信息、操作范围进行管理。个人用户的使用范围包括在系统中实现合同缺漏风险检测和修改基本信息等操作。
[0113]
建设工程合同条款缺漏检测原型系统的架构设计,选择以浏览器/服务器模式实现数据存储及访问、业务处理功能,同时支持用户通过浏览器访问检测系统进行问题查询以及管理员对系统的维护升级功能。系统总体架构如图6所示,检测系统自下而上分为基础设施层、数据资源层、算法模型层、业务应用层和交互表示层五个功能模块。下面对各功能模块依次进行介绍。
[0114]
(1)基础设施层
[0115]
基础设施层位于合同条款检测系统架构的最底层,为其他各层提供硬件、软件、存储系统和网络服务资源等基础类库服务。本地计算机和服务器设置在同一局域网下,用户将合同数据存入本地计算机后,使用ftp同步上传到服务器进行文本处理和文件存储。
[0116]
(2)数据资源层
[0117]
数据资源层由本地数据库、网络数据库和条款标签库组成,主要对存储数据信息进行增添、删减、修改和查询,为算法模型层和业务应用层提供实时数据支持服务。三个数据库的数据需分类存放,以满足不同区域、不同类型条款检测的需求。本地数据库来源于课题组项目参与的建设工程实际项目相关合同文本。网络数据库来源于使用requests爬虫库从北大法宝网等国内公开法律文书网站中抓取的建设工程合同,从而获得合同标题、文本内容等信息。
[0118]
(3)算法模型层
[0119]
算法模型层是业务应用层处理功能实现的基础,主要作用是使用网络爬虫、nlp技术和深度学习技术实现数据获取、合同文本预处理、文本分类和语义相似度算法。算法模型层可以通过优化深度学习计算有效改善计算机处理效率的问题,从而将计算机硬件效率发挥到极致。
[0120]
(4)业务应用层
[0121]
业务应用层是检测系统的核心结构,主要作用是根据交互表示层发出的操作指令
读取数据资源层存储的合同数据信息并输入至对应的算法模块。业务应用层主要包括文本预处理、合同分类和相似度计算三个功能模块。系统管理员通过文本预处理模块对数据资源层的本地数据库、网络数据库信息进行修改维护和更新工作。个人用户在进行条款缺漏检测操作时,将待检测合同文本输入检测系统中,在文本预处理模块使用eda技术对文本随机词进行数据增强处理。文本分类模块的cnn和lstm模型分别生成文本特征映射后,根据设定的权重将两组特征映射合并,获得合同文本分类结果。文本分割模块将合同以“条”为基本单元,切割成若干段合同条款,并对超过512字符的合同条款进行长文本分割。然后将合同输入条款多标签分类模型中,对合同条款进行多标签预测和标签缺漏检测。待检测合同条款还需要进一步输入相似度计算模块,判定是否存在因语义表达不明确而导致的合同条款缺漏风险。经过一系列完整系统模块后,在交互表示层界面中输出最终的条款缺漏检测结果。
[0122]
(5)交互表示层
[0123]
交互表示层位于系统框架的顶层,主要作用是将业务应用层数据与管理员、个人用户进行交互并输出操作指令结果。交互表示层包括系统管理员使用的系统管理、数据维护、算法维护和归档管理模块,以及属于个人用户的合同输入和合同缺漏检测模块。
[0124]
图7为本实施例中合同条款缺漏检测系统的工作流程图,具体地:
[0125]
首先个人用户输入待检测合同文本,经过文本预处理、文本表示一系列处理,输入融合深度学习分类模型中判断合同文本的分类结果本实施例中,判断是否属于施工合同;
[0126]
然后对施工合同文本进行条款文本分割,判断合同是否属于标准合同,并对长条款进行分割。将条款输入多标签分类模型与合同条款标签库比较判断是否存在合同条款标签遗漏,输出标签检测结果;
[0127]
最后输入语义相似度计算模型,从词语、短语和句子层面构造匹配矩阵,计算文本相似度。若语义相似度满足阈值,则合同条款通过检测,若不满足则输出该合同条款,交给合同审查人员做进一步的风险评价。
[0128]
本实施例设计了基于nlp和dl技术的建设工程合同条款缺漏检测原型系统。根据系统应用需求设计了相应的系统功能模块和运行流程。系统测试结果说明本文设计的建设工程合同条款缺漏检测系统具有可实现性,能够实现合同条款错漏识别的功能。
[0129]
图8为另一具体实施例中合同条款风险检查系统800的结构示意图,其包括:
[0130]
模型训练模块801,配置用于构建条款语义相似度计算模型;
[0131]
相似度计算模块802,配置用于获取待检查合同,将合同中的待检查条款输入条款语义相似度计算模型;
[0132]
风险条款确认模块803,配置用于获得待检查条款与标准条款的语义相似度,其中,语义相似度低于设定阈值的条款被确定为风险条款。
[0133]
本发明设计了基于nlp和深度学习的建设工程合同条款缺漏风险检测整体方案。将nlp技术涉及的语言学理论应用于建设工程合同风险管理领域,把合同条款缺漏检测任务分解为合同文本分类和条款相似度问题,并使用深度学习模型cnn、lstm和bert实现相应的算法,为改善依赖经验的传统合同审查方式提出了可行方案。
[0134]
尽管结合优选实施方案具体展示和介绍了本技术的内容,但所属领域的技术人员应该明白,在不脱离所附权利要求书所限定的本技术的精神和范围内,没有做出创造性劳
动的情况下,在形式上和细节上对本技术做出的各种变化,均为本技术的保护范围。
技术特征:
1.一种合同条款风险检查方法,其特征在于,包括步骤:构建条款语义相似度计算模型;获取待检查合同,将合同中的待检查条款输入所述条款语义相似度计算模型;获得待检查条款与标准条款的语义相似度,其中,语义相似度低于设定阈值的条款被确定为风险条款。2.根据权利要求1所述的合同条款风险检查方法,其特征在于,还包括步骤:构建条款多标签分类模型和标准条款标签集合,所述标准条款标签包括合同的基本要素;将待检查合同中的待检查条款输入所述条款多标签分类模型,获得待检查条款标签集合;将所述待检查条款标签集合与标准条款标签集合对比,确定所述待检查合同是否缺失条款标签,并将缺失条款标签的待检查合同标记为风险合同。3.根据权利要求2所述的合同条款风险检查方法,其特征在于,在将合同中的待检查条款输入所述条款语义相似度计算模型前,还包括步骤:预设多个合同领域,对每个合同领域设计对应的标准条款标签集合;构建合同文本分类模型,将待检查的合同归类为预设的合同领域。4.根据权利要求3所述的合同条款风险检查方法,其特征在于,所述标准条款标签还包括从训练集中预先统计获得的合同高频词。5.根据权利要求3所述的合同条款风险检查方法,其特征在于,在将合同中的待检查条款输入所述条款多标签分类模型前,还包括步骤:对比待检查合同的与标准合同的同级标题,将对比不一致的待检查合同直接标记为风险合同。6.根据权利要求1所述的合同条款风险检查方法,其特征在于,所述条款语义相似度计算模型基于bert预训练模型构建,并在输入表征层后引入matchpyramid结构,将输入表征层输入的上下文编码向量表示为二维的匹配矩阵。7.根据权利要求3所述的合同条款风险检查方法,其特征在于,在将合同中的待检查条款输入所述条款多标签分类模型前,还包括对超过所述条款多标签分类模型的字符限制的长条款进行分割处理,其中,采用以下步骤确定分割点:将所述长条款的自然段间隔作为潜在分割点;对比每个潜在分割点两侧文本的相似度,将相似度最高的潜在分割点作为最终的分割点。8.一种合同条款风险检查系统,其特征在于,包括:模型训练模块,配置用于构建条款语义相似度计算模型;相似度计算模块,配置用于获取待检查合同,将合同中的待检查条款输入所述条款语义相似度计算模型;风险条款确认模块,配置用于获得待检查条款与标准条款的语义相似度,其中,语义相似度低于设定阈值的条款被确定为风险条款。9.一种合同条款风险检查设备,其特征在于,包括:处理器以及与所述处理器耦接的存储器;所述存储器上存储有可在所述处理器上运行的合同条款风险检查程序,所述合同条
款风险检查程序被所述处理器执行时实现如权利要求1至7中任一项所述的合同条款风险检查方法的步骤。10.一种存储介质,其特征在于,其上存储有合同条款风险检查程序,所述合同条款风险检查程序被处理器执行时实现如权利要求1至7中任一项所述的合同条款风险检查方法的步骤。
技术总结
本发明提供一种合同条款风险检查方法、系统、设备和存储介质,方法包括步骤:构建条款语义相似度计算模型;获取待检查合同,将合同中的待检查条款输入条款语义相似度计算模型;获得待检查条款与标准条款的语义相似度,其中,语义相似度低于设定阈值的条款被确定为风险条款。方案把合同条款缺漏检测任务分解为合同文本分类和条款相似度问题,以语言学、NLP技术、深度学习技术和建设工程合同管理为理论依据,使用计算机技术实现对合同文本自动分类、条款多标签分类和条款语义相似度计算,改善了依赖经验的传统合同审查方式存在的依赖人员主观经验、检测效率低下和风险检测不全面等问题。题。题。
技术研发人员:周红 白世超 高滨玮 汤世隆 王书钰
受保护的技术使用者:厦门大学
技术研发日:2023.06.02
技术公布日:2023/10/8
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
