文本相似度识别方法、装置、计算机设备及存储介质与流程

未命名 09-07 阅读:88 评论:0


1.本发明涉及自然语言处理技术领域,尤其涉及一种文本相似度识别方法、装置、计算机设备及存储介质。


背景技术:

2.随着科学技术的发展,深度学习、机器学习等技术逐渐在不同领域上广泛应用。例如,自然语言处理领域、语音识别领域或者图像识别领域等。自然语言处理领域中包含了文本分类、文本检索和文本匹配等基础任务,这些基础任务中最重要的技术之一即为文本相似度计算技术。例如,在金融或者保险相关的业务人员在制作简报分析时往往需要采集大量的相关文档进行前期调研,而这些相关文档与其调研分析主题的相似度是判断文档是否能作为参考文档的重要指标。
3.现有技术中,一般仅通过神经网络提取如词向量、句向量或者文本向量等文本特征,再利用余弦相似度对这些文本特征进行相似度计算。在面对复杂的特征空间时,上述方法提取得到的文本特征无法准确表示具体的意义(如句子意义或者文档意义等),从而导致文本相似度计算准确率较低。


技术实现要素:

4.本发明实施例提供一种文本相似度识别方法、装置、计算机设备及存储介质,以解决现有技术文本相似度计算准确率较低的问题。
5.一种文本相似度是被方法,包括:
6.获取目标文档,所述目标文档中包括至少一个文档句子;
7.基于所有所述文档句子进行图模型构建,得到所述目标文档对应的句子图模型;所述句子图模型中包含与所述文档句子一一对应的句子节点;
8.确定每两个所述句子节点在所述句子图模型中的节点距离;
9.根据所述节点距离,确定所述目标文档中每两个文档句子之间的文本相似度。
10.一种文本相似度识别装置,包括:
11.文档获取模块,用于获取目标文档,所述目标文档中包括至少一个文档句子;
12.图模型构建模块,用于基于所有所述文档句子进行图模型构建,得到所述目标文档对应的句子图模型;所述句子图模型中包含与所述文档句子一一对应的句子节点;
13.节点距离确定模块,用于确定每两个所述句子节点在所述句子图模型中的节点距离;
14.相似度确定模块,用于根据所述节点距离,确定所述目标文档中每两个文档句子之间的文本相似度。
15.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述文本相似度识别方法。
16.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述文本相似度识别方法。
17.上述文本相似度识别方法、装置、计算机设备及存储介质,通过对文档句子进行图模型构建的方式,使得文档句子对应的句向量在句子图模型中以句子节点存在,再通过每两个句子节点在句子图模型之间的距离来测算文档句子之间的相似度,能够有效捕捉目标文档中文档句子的上下文信息,从而得到了单个句子和其它文档句子之间的差异性特征,提高文档摘要任务或者文档检索任务的准确率。
附图说明
18.为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
19.图1是本发明一实施例中文本相似度识别方法的一应用环境示意图;
20.图2是本发明一实施例中文本相似度识别方法的一流程图;
21.图3是本发明一实施例中文本相似度识别装置的一原理框图;
22.图4是本发明一实施例中计算机设备的一示意图。
具体实施方式
23.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
24.本发明实施例提供的文本相似度识别方法,该文本相似度识别方法可应用如图1所示的应用环境中。具体地,该文本相似度识别方法应用在文本相似度识别系统中,该文本相似度识别系统包括如图1所示的客户端和服务器,客户端与服务器通过网络进行通信,用于解决现有技术文本相似度计算准确率较低的问题。其中,客户端又称为用户端,是指与服务器相对应,为客户提供本地服务的程序。客户端可安装在但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备上。服务端可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
25.在一实施例中,如图2所示,提供一种文本相似度识别方法,以该方法应用在图1中的服务器为例进行说明,包括如下步骤:
26.s10:获取目标文档,所述目标文档中包括至少一个文档句子。
27.可以理解地,在执行文档检索、文档摘要或者其它文本匹配任务时,均会预先设定用于执行上述任务的文档,即为目标文档。目标文档可以通过爬虫技术或者用户自行导入,目标文档可以为论文、期刊或者新闻等,例如金融领域中的金融研发等分析报告。进一步地,在获取到目标文档之后,可以对目标文档进行以句子为单位的文档拆分,得到多个文档句子。文档拆分的方法可以通过识别目标文档中的标点符号(如逗号、句号或者感叹号等),以标点符号作为一个文档句子的结尾进行拆分。
28.s20:基于所有所述文档句子进行图模型构建,得到所述目标文档对应的句子图模型;所述句子图模型中包含与所述文档句子一一对应的句子节点。
29.可以理解地,现有技术中是对单独的两个文档句子之间的相似度进行计算,这样的方式往往会忽略文档句子在目标文档中的关联关系,亦或者句子和文档之间的关联关系等高维特征,导致文档摘要任务或者文档检索任务的准确率较低。因此,本实施例提出对文档句子进行图模型构建的方式,使得文档句子对应的句向量在句子图模型中以句子节点存在,再通过每两个句子节点在句子图模型之间的距离来测算文档句子之间的相似度,能够有效捕捉目标文档中文档句子的上下文信息,从而得到了单个句子和其它文档句子之间的差异性特征,提高文档摘要任务或者文档检索任务的准确率。
30.进一步地,在句子图模型中,每一个文档句子对应一个句子节点,该句子节点表征的是该文档句子对应的向量表征。句子节点之间可以通过一个关系边直接连接,或者多个关系边间接连接。关系边对应的边长度值即表征了该关系边连通的两个句子节点所对应的文档句子之间的相似程度。
31.s30:确定每两个所述句子节点在所述句子图模型中的节点距离。
32.具体地,在基于所有文档句子进行图模型构建,得到目标文档对应的句子图模型之后,即可通过句子节点在句子图模型中的连接关系确定节点距离。
33.在上述说明中指出,句子节点之间可以通过一个关系边直接连接,或者多个关系边间接连接。因此,当两个句子节点之间通过一个关系边直接连接时,该关系边的边长度值即表征这两个句子节点对应的文档句子之间的相似程度。当两个句子节点之间是通过多个关系边间接连接的,所有关系边的边长度值之和即表征这两个句子节点对应的文档句子之间的相似程度。
34.进一步地,在步骤s30中,需要确定在句子图模型中所有具有连接关系(即上述直接连接或者间接连接)的句子节点之间的节点距离。
35.s40:根据所述节点距离,确定所述目标文档中每两个文档句子之间的文本相似度。
36.一般性地,在文本摘要或者文本检索等任务中,通过如余弦相似度等计算句子或者文档之间的相似度时,当两个句子之间的相似距离越大,文本相似度越小;反之,两个句子之间的相似距离越小,文本相似度越大。在步骤s30中计算得到的节点距离恒大于零,因此将节点距离的倒数作为与其对应的两个句子节点对应的文档句子之间的文本相似度。如此,即可在制作简报分析时,能够根据文本相似度从大批量的文档中找出与主题最密切相关的文档,从而提高了相关业务人员制作简报分析的效率以及可靠性。
37.在本实施例中,对文档句子进行图模型构建的方式,使得文档句子对应的句向量在句子图模型中以句子节点存在,再通过每两个句子节点在句子图模型之间的距离来测算文档句子之间的相似度,能够有效捕捉目标文档中文档句子的上下文信息,从而得到了单个句子和其它文档句子之间的差异性特征,提高文档摘要任务或者文档检索任务的准确率。
38.在一实施例中,步骤s20中,也即所述基于所有所述文档句子进行图模型构建,得到所述目标文档对应的句子图模型,包括:
39.(1)对所述文档句子进行向量转换,得到所述文档句子对应的句子向量。
40.(2)构建所述句子向量对应的句子节点;一个所述句子向量对应一个所述句子节点。
41.(3)对所有所述句子节点进行关系边构建,得到所述句子图模型。
42.针对上述步骤作出相关解释如下:
43.可以理解地,句子向量即为文档句子对应的向量表征。可以采用one-hot编码、词袋模型或者bert模型等方法对文档句子进行向量转换,最终确定每一个文档句子分别对应的句子向量。
44.进一步地,在确定文档句子对应的句子向量之后,即可将每一个句子向量视为句子图模型中的一个节点,即句子节点。由于句子图模型能够反应句子节点中的句子向量之间的关联关系以及相似程度,因此在构建每一句子向量对应的句子节点后,在句子节点之间构建节点关系边,最终形成目标文档对应的句子图模型。
45.在一实施例中,所述对所有所述句子节点进行关系边构建,得到所述句子图模型,包括:
46.(1)根据所述文档句子在所述目标文档中的顺序,生成所述文档句子对应的顺序编码值。
47.(2)将所有所述句子节点按照与其对应的文档句子的顺序编码值插入至预设节点队列中,并从所述预设节点队列中选取一个句子节点作为目标节点。
48.可以理解地,针对一个包含多个文档句子的目标文档而言,文档句子在目标文档中是顺次出现的,且前后相邻的文档句子之间往往具有一定的关联关系。例如,前一个句子为问句时,后一个或者后几个句子往往包含对该问句的回答。因此,根据文档句子在目标文档中出现的顺序,对每一个文档句子进行编码,得到文档句子对应的顺序编码值。也即,目标文档中出现的第一个文档句子,其顺序编码值即可设置为1;目标文档中出现的第二个文档句子,其顺序编码值即可设置为2,依此类推,在此不再赘述。
49.(3)获取预设共现阈值,从除所述目标节点之外的所有所述句子节点中选取预设共现阈值个句子节点作为所述目标节点对应的关系节点,并在所述目标节点和每一个所述关系节点之间进行关系边构建,得到节点关系边。
50.可以理解地,在上述说明中指出目标文档中的文档句子之间可能存在关联关系,即所谓的上下文关系。但往往存在上下文关系的文档句子是顺次出现(如两个相邻的文档句子),亦或者是在一定范围内出现(如一个文档句子和在其前面的两个文档句子,或者在其后面的三个文档句子)。因此,通过设置预设共现阈值来控制与每一个句子节点对应的文档句子具有关联关系的其它文档句子的数量。如此,无需在句子图模型中构造每一个句子节点和所有其它句子节点之间的关系边,减少了构建句子图模型的时间。同时,减少关联关系较少的句子节点之间的关系边,能够更加聚焦于理论上具有关联关系的句子节点之间的相似程度,提高文档检索或者文档摘要任务的准确率。
51.进一步地,在获取预设共现阈值之后,即可从除目标节点之外的所有句子节点中选取预设共现阈值个句子节点作为该目标节点的关系节点。进而即可在目标节点和与其对应的关系节点之间构建节点关系边。例如,预设共现阈值设置为3,则一个目标节点对应存在至多3个关系节点。也即,在句子图模型中,一个句子节点至多与三个其它句子节点(即与其对应的关系节点)之间通过一个节点关系边直接连接。
52.(4)从所述预设节点队列中选取一个句子节点作为新的目标节点,所述新的目标节点为所述预设节点队列中未被选取过的句子节点。
53.(5)继续确定新的目标节点的节点关系边,直至所有所述句子节点均被选取完毕之后,基于所有所述节点关系边,生成所述句子图模型。
54.具体地,在目标节点和每一个关系节点之间进行关系边构建,得到节点关系边,即可从预设节点队列中选取一个句子节点作为新的目标节点(该新的目标节点与上述步骤中的目标节点不是同一个句子节点,也即每一轮选取的句子节点均不同),并通过上述步骤确定与该新的目标节点对应的节点关系边,并继续取另一个目标节点(与上述新的目标节点和初始选取的目标节点均不是同一个句子节点)。在所有的句子节点均被选取完成,也即每一个句子节点均和与其对应的关系节点之间构建完成节点关系边,即表征预设节点队列中的所有句子节点均选取完成。最终,每一个句子节点选取完成后,即可得到目标文档对应的句子图模型。
55.在本实施例中,通过引入预设共现阈值的方式,减少每一个句子节点的节点关系边的构建,如此提高了句子图模型的构建效率。进一步地,还可以选取关联关系较高(相邻)的句子节点之间进行节点关系边构建连接,减小了关联关系较弱的句子节点的节点关系边对句子图模型的影响,从而提高句子图模型构建的准确性。
56.在一实施例中,所述从除所述目标节点之外的所有所述句子节点中选取预设共现阈值个句子节点作为所述目标节点对应的关系节点,包括:
57.(1)将顺序编码值小于所述目标节点对应的顺序编码值的句子节点确定为待选取节点。
58.可以理解地,在本实施例中提出一种方式,即选取在目标节点对应的文档句子之前的预设共现阈值个句子节点作为关系节点进行关系边构建。除此之外,也可以选择在目标节点对应的文档句子之后的预设共现阈值个句子节点作为关系节点进行关系边构建,或者选择在目标节点对应的文档句子之前,以及之后的预设共现阈值个句子节点作为关系节点进行关系边构建(如预设共现阈值设置为3时,选取目标节点对应的文档句子之前的1个文档句子的句子节点,以及之后的2个文档句子的句子节点)。
59.因此,在获取预设共现阈值之后,即可将所有句子节点的顺序编码值和目标节点的顺序编码值进行比较,将顺序编码值小于目标节点对应的顺序编码值的句子节点确定为该目标节点对应的待选取节点。
60.(2)确定所述待选取节点的节点数量,并将所述节点数量和所述预设共现阈值进行比较。
61.可理解地,节点数量即指示待选取节点的总数量。针对不同的目标节点,其对应的待选取节点的节点数量不同。例如,排序第二的目标节点对应的待选取节点的节点数量为1(即排序第一的句子节点)。排序第十的目标节点对应的待选取节点的节点数量为9(即排序第一至排序第九的句子节点)。
62.(3)在所述节点数量大于所述预设共现阈值时,从所有所述待选取节点中,选择顺序编码值最大的预设共现阈值个待选取节点作为所述关系节点。
63.具体地,在将节点数量和预设共现阈值进行比较之后,若节点数量大于预设共现阈值,则表征存在超过预设共现阈值的待选取节点可供选择。此时,需要考虑待选取节点和
目标节点之间存在关联关系的可能性,在上述说明中指出相邻一个或者预设共现阈值个的文档句子之间具有关联关系的可能性较大,因此从所有待选取节点中,选择顺序编码值最大的预设共现阈值个待选取节点作为所述关系节点。也即,选择距目标节点对应的文档句子最近的预设共现阈值个文档句子对应的待选取节点作为关系节点。
64.(4)在所述节点数量小于或等于所述预设共现阈值时,将所有所述待选取节点确定为所述目标节点对应的关系节点。
65.具体地,在将节点数量和预设共现阈值进行比较之后,若节点数量小于或等于预设共现阈值,则此时所有待选取节点和目标节点距离均在预设共现阈值范围内,因此,将所有待选取节点确定为目标节点对应的关系节点。
66.在一实施例中,所述在所述目标节点和每一个所述关系节点之间进行关系边构建,得到节点关系边,包括:
67.(1)通过预设距离算法对所述目标节点对应的句子向量和所述关系节点对应的句子向量进行距离计算,确定所述目标节点和所述关系节点之间的距离值。
68.(2)连接所述目标节点和所述关系节点形成节点关系边,并将所述目标节点和所述关系节点之间的距离值作为该节点关系边的边长度值。
69.可以理解地,预设距离算法可以为欧式距离算法。距离值表征目标节点对应的文档句子和关系节点对应的文档句子之间的相似程度。
70.具体地,在确定和目标节点对应的关系节点之后,获取目标节点中对应存储的文档句子的句子向量,以及关系节点中对应存储的文档句子的句子向量。对两个句子向量进行欧式距离计算,得到目标节点和关系节点之间的距离值。进一步地,在目标节点和关系节点之间用关系边连接,即得到目标节点和关系节点之间的节点关系边,再将对应的距离值确定为该节点关系边的边长度值。通过上述方法即可确定,所有通过一个节点关系边直接连接的两个句子节点之间的节点关系边的边长度值。
71.在一实施例中,所述确定每两个所述句子节点在所述句子图模型中的节点距离,包括:
72.(1)随机选取一个句子节点作为起始节点,并将所述句子图模型中与所述起始节点连通的句子节点确定为终点节点。
73.可以理解地,在上述说明中指出:句子节点之间可以通过一个关系边直接连接,或者多个关系边间接连接。因此,凡是能够和起始节点通过一个节点关系边直接连接,或者多个节点关系边间接连接的句子节点,即视为终点节点。针对不同的句子节点作为起始节点时,其对应的终点节点均可能不相同,数量也不同。
74.(2)将所述起始节点和一个所述终点节点记录为一个句子节点组,并检测所述句子节点组在所述句子图模型中的连通线路;所述连通线路为连通所述句子节点组中起始节点和终点节点的线路;所述连通线路包括至少一个节点关系边。
75.具体地,在确定与起始节点对应的终点节点之后,将起始节点和一个终点节点记录为一个句子节点组。也即,起始节点需要和每一个终点节点均分别生成一个句子节点组。例如,一个起始节点对应三个终点节点时,该起始节点分别个三个终点节点生成三个句子节点组,且每一个句子节点组中均包含起始节点以及一个不同的终点节点。进一步地,在确定句子节点组后,检测句子节点组中的起始节点和终点节点在句子图模型中的连通线路,
也即检测在句子图模型中连通起始节点和终点节点的线路。该连通线路存在两种情况:第一:起始节点和终点节点通过一个节点关系边直接连接;第二:起始节点和终点节点通过多个节点关系边间接连接,因此连通线路中包括至少一个节点关系边。
76.(3)当所述句子节点组在所述句子图模型中有且仅有一个所述连通线路时,将该连通线路上所有节点关系边对应的边长度值之和,确定为所述句子节点组中起始节点和终点节点之间的节点距离。
77.具体地,在检测句子节点组在句子图模型中的连通线路之后,若句子节点组在句子图模型中有且仅有一个连通线路时,也即该句子节点组中的起始节点和终点节点只能通过一种连接方式连接,无法从其它节点关系边连通。进而将该连通线路上所有节点关系边对应的边长度值之和确定为该句子节点组中起始节点和终点节点之间的节点距离。
78.在一实施例中,所述检测所述句子节点组在所述句子图模型中的连通线路之后,还包括:
79.(1)当所述句子节点组在所述句子图模型中存在超过两个所述连通线路时,获取所述句子节点组对应的每一所述连通线路的总边长度;所述总边长度是指所述连通线路上所有节点关系边对应的边长度值之和。
80.具体地,在检测句子节点组在句子图模型中的连通线路之后,若句子节点组在句子图模型中存在超过两个连通线路时,也即存在两个或者两个以上连通线路,进而需要查询最短连接线路确定该句子节点组中两个句子节点的节点距离。因此,将连通线路上所有节点关系边的边长度值之和确定为该连通线路的总边长度。
81.(2)将最短线路对应的总边长度确定为所述句子节点组中起始节点和终点节点之间的节点距离;所述最短线路是指总边长度最小的连通线路。
82.具体地,在获取句子节点组对应的每一连通线路的总边长度之后,比较每一连通线路的总边长度。将总边长度最小的连通线路确定为最短线路,再将该最短线路的总边长度确定为该句子节点组中起始节点和终点节点之间的节点距离。
83.进一步地,通过上述方法即可确定每两个句子节点之间的节点距离,当句子节点组存在多个连通线路时,通过查询最短线路的方法可以使得最终确定句子节点组中起始节点和终点节点之间的相似程度更准确,进而提高文档检索和文档摘要等任务的准确率。
84.应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
85.在一实施例中,提供一种文本相似度识别装置,该文本相似度识别装置与上述实施例中文本相似度识别方法一一对应。如图3所示,该文本相似度识别装置包括文档获取模块10、图模型构建模块20、节点距离确定模块30和相似度确定模块40。各功能模块详细说明如下:
86.文档获取模块10,用于获取目标文档,所述目标文档中包括至少一个文档句子;
87.图模型构建模块20,用于基于所有所述文档句子进行图模型构建,得到所述目标文档对应的句子图模型;所述句子图模型中包含与所述文档句子一一对应的句子节点;
88.节点距离确定模块30,用于确定每两个所述句子节点在所述句子图模型中的节点距离;
89.相似度确定模块40,用于根据所述节点距离,确定所述目标文档中每两个文档句子之间的文本相似度。
90.优选地,图模型构建模块20包括:
91.向量转换子模块,用于对所述文档句子进行向量转换,得到所述文档句子对应的句子向量;
92.节点构建子模块,用于构建所述句子向量对应的句子节点;一个所述句子向量对应一个所述句子节点;
93.关系边构建子模块,用于对所有所述句子节点进行关系边构建,得到所述句子图模型。
94.优选地,关系边构建子模块包括:
95.顺序编码单元,用于根据所述文档句子在所述目标文档中的顺序,生成所述文档句子对应的顺序编码值;
96.节点排序单元,用于将所有所述句子节点按照与其对应的文档句子的顺序编码值插入至预设节点队列中,并从所述预设节点队列中选取一个句子节点作为目标节点;
97.关系边构建单元,用于获取预设共现阈值,从除所述目标节点之外的所有所述句子节点中选取预设共现阈值个句子节点作为所述目标节点对应的关系节点,并在所述目标节点和每一个所述关系节点之间进行关系边构建,得到节点关系边;
98.节点选取单元,用于从所述预设节点队列中选取一个句子节点作为新的目标节点,所述新的目标节点为所述预设节点队列中未被选取过的句子节点;
99.模型构建单元,用于继续确定新的目标节点的节点关系边,直至所有所述句子节点均被选取完毕之后,基于所有所述节点关系边,生成所述句子图模型。
100.优选地,关系边构建单元包括:
101.节点顺序比较子单元,用于将顺序编码值小于所述目标节点对应的顺序编码值的句子节点确定为待选取节点;
102.节点数量比较子单元,用于确定所述待选取节点的节点数量,并将所述节点数量和所述预设共现阈值进行比较;
103.第一节点选取子单元,用于在所述节点数量大于所述预设共现阈值时,从所有所述待选取节点中,选择顺序编码值最大的预设共现阈值个待选取节点作为所述关系节点;
104.第二节点选取子单元,用于在所述节点数量小于或等于所述预设共现阈值时,将所有所述待选取节点确定为所述目标节点对应的关系节点。
105.优选地,关系边构建单元还包括:
106.节点距离计算子单元,用于通过预设距离算法对所述目标节点对应的句子向量和所述关系节点对应的句子向量进行距离计算,确定所述目标节点和所述关系节点之间的距离值;
107.节点连接子单元,用于连接所述目标节点和所述关系节点形成节点关系边,并将所述目标节点和所述关系节点之间的距离值作为该节点关系边的边长度值。
108.优选地,节点距离确定模块30包括:
109.连通节点检测子模块,用于随机选取一个句子节点作为起始节点,并将所述句子图模型中与所述起始节点连通的句子节点确定为终点节点;
110.连通线路检测子模块,用于将所述起始节点和一个所述终点节点记录为一个句子节点组,并检测所述句子节点组在所述句子图模型中的连通线路;所述连通线路为连通所述句子节点组中起始节点和终点节点的线路;所述连通线路包括至少一个节点关系边;
111.第一距离确定子模块,用于当所述句子节点组在所述句子图模型中有且仅有一个所述连通线路时,将该连通线路上所有节点关系边对应的边长度值之和,确定为所述句子节点组中起始节点和终点节点之间的节点距离。
112.优选地,节点距离确定模块30还包括:
113.边长度获取子模块,用于当所述句子节点组在所述句子图模型中存在超过两个所述连通线路时,获取所述句子节点组对应的每一所述连通线路的总边长度;所述总边长度是指所述连通线路上所有节点关系边对应的边长度值之和;
114.第二距离确定子模块,用于将最短线路对应的总边长度确定为所述句子节点组中起始节点和终点节点之间的节点距离;所述最短线路是指总边长度最小的连通线路。
115.关于文本相似度识别装置的具体限定可以参见上文中对于文本相似度识别方法的限定,在此不再赘述。上述文本相似度识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
116.在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储上述实施例文本相似度识别方法中使用到的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种文本相似度识别方法。
117.在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述实施例中的文本相似度识别方法。
118.在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述实施例中的文本相似度识别方法。
119.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram
(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
120.所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
121.以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

技术特征:
1.一种文本相似度识别方法,其特征在于,包括:获取目标文档,所述目标文档中包括至少一个文档句子;基于所有所述文档句子进行图模型构建,得到所述目标文档对应的句子图模型;所述句子图模型中包含与所述文档句子一一对应的句子节点;确定每两个所述句子节点在所述句子图模型中的节点距离;根据所述节点距离,确定所述目标文档中每两个文档句子之间的文本相似度。2.如权利要求1所述的文本相似度识别方法,其特征在于,所述基于所有所述文档句子进行图模型构建,得到所述目标文档对应的句子图模型,包括:对所述文档句子进行向量转换,得到所述文档句子对应的句子向量;构建所述句子向量对应的句子节点;一个所述句子向量对应一个所述句子节点;对所有所述句子节点进行关系边构建,得到所述句子图模型。3.如权利要求2所述的文本相似度识别方法,其特征在于,所述对所有所述句子节点进行关系边构建,得到所述句子图模型,包括:根据所述文档句子在所述目标文档中的顺序,生成所述文档句子对应的顺序编码值;将所有所述句子节点按照与其对应的文档句子的顺序编码值插入至预设节点队列中,并从所述预设节点队列中选取一个句子节点作为目标节点;获取预设共现阈值,从除所述目标节点之外的所有所述句子节点中选取预设共现阈值个句子节点作为所述目标节点对应的关系节点,并在所述目标节点和每一个所述关系节点之间进行关系边构建,得到节点关系边;从所述预设节点队列中选取一个句子节点作为新的目标节点,所述新的目标节点为所述预设节点队列中未被选取过的句子节点;继续确定新的目标节点的节点关系边,直至所有所述句子节点均被选取完毕之后,基于所有所述节点关系边,生成所述句子图模型。4.如权利要求3所述的文本相似度识别方法,其特征在于,所述从除所述目标节点之外的所有所述句子节点中选取预设共现阈值个句子节点作为所述目标节点对应的关系节点,包括:将顺序编码值小于所述目标节点对应的顺序编码值的句子节点确定为待选取节点;确定所述待选取节点的节点数量,并将所述节点数量和所述预设共现阈值进行比较;在所述节点数量大于所述预设共现阈值时,从所有所述待选取节点中,选择顺序编码值最大的预设共现阈值个待选取节点作为所述关系节点;在所述节点数量小于或等于所述预设共现阈值时,将所有所述待选取节点确定为所述目标节点对应的关系节点。5.如权利要求3所述的文本相似度识别方法,其特征在于,所述在所述目标节点和每一个所述关系节点之间进行关系边构建,得到节点关系边,包括:通过预设距离算法对所述目标节点对应的句子向量和所述关系节点对应的句子向量进行距离计算,确定所述目标节点和所述关系节点之间的距离值;连接所述目标节点和所述关系节点形成节点关系边,并将所述目标节点和所述关系节点之间的距离值作为该节点关系边的边长度值。6.如权利要求1所述的文本相似度识别方法,其特征在于,所述确定每两个所述句子节
点在所述句子图模型中的节点距离,包括:随机选取一个句子节点作为起始节点,并将所述句子图模型中与所述起始节点连通的句子节点确定为终点节点;将所述起始节点和一个所述终点节点记录为一个句子节点组,并检测所述句子节点组在所述句子图模型中的连通线路;所述连通线路为连通所述句子节点组中起始节点和终点节点的线路;所述连通线路包括至少一个节点关系边;当所述句子节点组在所述句子图模型中有且仅有一个所述连通线路时,将该连通线路上所有节点关系边对应的边长度值之和,确定为所述句子节点组中起始节点和终点节点之间的节点距离。7.如权利要求6所述的文本相似度识别方法,其特征在于,所述检测所述句子节点组在所述句子图模型中的连通线路之后,还包括:当所述句子节点组在所述句子图模型中存在超过两个所述连通线路时,获取所述句子节点组对应的每一所述连通线路的总边长度;所述总边长度是指所述连通线路上所有节点关系边对应的边长度值之和;将最短线路对应的总边长度确定为所述句子节点组中起始节点和终点节点之间的节点距离;所述最短线路是指总边长度最小的连通线路。8.一种文本相似度识别装置,其特征在于,包括:文档获取模块,用于获取目标文档,所述目标文档中包括至少一个文档句子;图模型构建模块,用于基于所有所述文档句子进行图模型构建,得到所述目标文档对应的句子图模型;所述句子图模型中包含与所述文档句子一一对应的句子节点;节点距离确定模块,用于确定每两个所述句子节点在所述句子图模型中的节点距离;相似度确定模块,用于根据所述节点距离,确定所述目标文档中每两个文档句子之间的文本相似度。9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述文本相似度识别方法。10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述文本相似度识别方法。

技术总结
本发明公开了一种文本相似度识别方法、装置、计算机设备及存储介质,通过获取目标文档,所述目标文档中包括至少一个文档句子;基于所有文档句子进行图模型构建,得到目标文档对应的句子图模型;所述句子图模型中包含与文档句子一一对应的句子节点;确定每两个句子节点在句子图模型中的节点距离;根据节点距离,确定目标文档中每两个文档句子之间的文本相似度。本发明能够有效捕捉目标文档中文档句子的上下文信息,确定单个句子和其它文档句子之间的差异性特征,提高文档摘要任务或者文档检索任务的准确率,以使得通过该方法对金融或者保险等相关报刊、杂志或者期刊等文档进行文本摘要提取或文档检索时的可靠性较高。提取或文档检索时的可靠性较高。提取或文档检索时的可靠性较高。


技术研发人员:李登昊 王健宗 黄章成
受保护的技术使用者:平安科技(深圳)有限公司
技术研发日:2023.06.16
技术公布日:2023/9/6
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐