文本相似性判别方法装置、计算机设备及存储介质与流程

未命名 09-15 阅读:97 评论:0


1.本技术涉及到医疗领域,可应用于医患智能问答,特别涉及到一种文本相似性判别方法装置、计算机设备及存储介质。


背景技术:

2.当前,很多医院都设有网上看病程序,患者可以通过看病程序向医生咨询,为了提高看病效率,一般会优先安排ai对患者提出的问题进行智能回答,看病程序上一般也会设置一些常见的问题,供患者参考,用户可以按照提示提出一些问题,但是,用户提出的问题常常和设置的标准问题有区别,此时需要判断患者输入的问题和程序设置的常用问题的相似程度,ai选出与患者提出的问题最相似的预设问题,并将该预设问题的答案发送给患者。当前,通过微调预训练语言模型来捕捉句子embedding(词嵌入)之间相似性的方法已经取得了非常有效的效果,比如通过simcse(simple contrastive learning of sentence embeddings,句子嵌入的简单对比学习)方法。具体地,它们首先定义了一个句子embedding的相似性分数,最典型的是利用余弦相似度,然后利用nli(natural language inference,自然语言推理)或者sts(sequence tagged sites,序列标签位点)的数据集微调bert(bidirectionalencoder representations from transformer)模型,这里的句子embedding常常是通过bert最后一层平均池化或者直接取[cls](commonlanguagespecification,公共语言规范)token的embedding得到。但是,通常来说,如果能够从token层面找到cross-sentence(横向语句)对齐以及计算出各个对齐部分的重要程度是有利于分析句子相似性的,目前方法都没有做到这种token层面的显式cross-sentence对齐。关于cross-sentence对齐,可以通俗理解为找到两个句子间语义互相匹配的token pairs(标记对)。目前的方法采用平均token embedding得到句子表示,用于计算句子相似性,这是sentence-level层面的建模,无法token-level层面显式地融合语义对齐的token pairs之间的距离;不仅如此,采用此方法的过程中,找到最优传输矩阵t的计算复杂度非常高,需要大量人力、物力的投入,严重时甚至会出现计算错误,若根据这些错误的结果对患者的问题进行回复,很可能会对患者造成误导。
[0003]
因此,如何更为简单、高效、准确地进行文本相似性可解释性较强的判别,成为亟待解决的问题。


技术实现要素:

[0004]
本发明的主要目的为提供一种文本相似性判别方法装置、计算机设备及存储介质,旨在解决当前文本相似性判别方法不够简单、高效、准确、可解释性不够强的技术问题。
[0005]
为了实现上述发明目的,本发明第一方面提出一种文本相似性判别方法,包括:
[0006]
获取两个待判定句子的token embedding,并根据所述两个待判定句子的token embedding构建代价矩阵;所述代价矩阵的最优问题的最优解为最优传输矩阵,所述最优传输矩阵对应的传输距离为最优传输距离;
[0007]
构建所述两个待判定句子传输过程中,总代价、代价矩阵、最优传输矩阵与所述最优传输距离对应的第一数学关系;
[0008]
将所述两个待判定句子的状态向量分别定义为由自身句子长度归一化的全1向量;所述全1向量包括第一约束条件和第二约束条件;
[0009]
移除所述全1向量中的所述第一约束条件和所述第二约束条件中的任一项,得到放松方程;
[0010]
将所述放松方程联立所述第一数学关系,推导得到放松后的最优传输距离,并利用所述放松后的最优传输距离判定所述两个待判定句子的相似性。
[0011]
进一步地,所述代价矩阵的维度为l1*l2;其中l1为句子1的token长度,l2为句子2的token长度,所述代价矩阵采用余弦距离编码token相似性。
[0012]
进一步地,所述第一数学关系的表达式为:
[0013][0014][0015]
其中,为所述总代价,为句子1中的第i个词的embedding,代表第二句中的第j个词的embedding,为所述最优传输矩阵,为所述最优传输距离。
[0016]
进一步地,所述全1向量的表达式为:
[0017][0018]
其中,d1和d2均为全1向量;l1为句子1的token长度,l2为句子2的token长度。
[0019]
进一步地,所述移除所述全1向量中的所述第一约束条件和所述第二约束条件中的任一项,得到放松方程的步骤,包括:
[0020]
移除所述全1向量中的所述第一约束条件,得到的放松方程为
[0021][0022]
或,
[0023]
移除所述全1向量中的所述第二约束条件,得到的放松方程为
[0024][0025]
其中为放松后的最优传输矩阵。
[0026]
进一步地,所述将所述放松方程联立所述第一数学关系,推导得到放松后的最优传输距离,并利用所述放松后的最优传输距离判定所述两个待判定句子的相似性的步骤,包括:
[0027]
根据预设转换关系,将所述两个待判定句子的所述放松后的最优传输距离转换为相似性分数;
[0028]
根据所述两个待判定句子的相似度分数,判别所述两个待判定句子的相似程度。
[0029]
进一步地,所述根据所述两个待判定句子的相似度分数,判别所述两个待判定句子的相似程度的步骤之后,还包括:
[0030]
根据所述两个待判定句子的相似度分数的构建文本相似度判别模型;
[0031]
利用预设规则,对所述文本相似度判别模型进行微调。
[0032]
本发明第二方面提出一种文本相似性判别装置,包括:
[0033]
第一构建模块,用于获取两个待判定句子的token embedding,并根据所述两个待判定句子的token embedding构建代价矩阵;所述代价矩阵的最优问题的最优解为最优传输矩阵,所述最优传输矩阵对应的传输距离为最优传输距离;
[0034]
第二构建模块,用于构建所述两个待判定句子传输过程中,总代价、代价矩阵、最优传输矩阵与所述最优传输距离对应的第一数学关系;
[0035]
归一模块,用于将所述两个待判定句子的状态向量分别定义为由自身句子长度归一化的全1向量;所述全1向量包括第一约束条件和第二约束条件;
[0036]
放松模块,用于移除所述全1向量中的所述第一约束条件和所述第二约束条件中的任一项,得到放松方程;
[0037]
判别模块,用于将所述放松方程联立所述第一数学关系,推导得到放松后的最优传输距离,并利用所述放松后的最优传输距离判定所述两个待判定句子的相似性。
[0038]
本发明第三方面提出一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述的文本相似性判别方法的步骤。
[0039]
本发明第四方面提出一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的文本相似性判别方法的步骤。
[0040]
本发明涉及医疗领域,可应用于医患智能问答,公开了文本相似性判别方法装置、计算机设备及存储介质,所述方法包括一种文本相似性判别方法,所述方法包括:
[0041]
获取两个待判定句子的token embedding,并根据所述两个待判定句子的token embedding构建代价矩阵;所述代价矩阵的最优问题的最优解为最优传输矩阵,所述最优传输矩阵对应的传输距离为最优传输距离;构建所述两个待判定句子传输过程中,总代价、代价矩阵、最优传输矩阵与所述最优传输距离对应的第一数学关系;将所述两个待判定句子的状态向量分别定义为由自身句子长度归一化的全1向量;所述全1向量包括第一约束条件和第二约束条件;考虑到直接找到最优传输矩阵t的计算复杂度非常高,本发明选择移除所述全1向量中的所述第一约束条件和所述第二约束条件中的任一项,得到放松方程;将所述放松方程联立所述第一数学关系,推导得到放松后的最优传输距离,并利用所述放松后的最优传输距离判定所述两个待判定句子的相似性,大大简化了本方法的执行过程;不仅如此,上述方法从token-level层面显式地融合语义对齐的token pairs之间的距离,相较于现有技术的sentence-level层面对齐有着更加准确、可解释性更强的技术优势,能够更加准确判断患者提出的问题和系统问题库中的问题的相似度,从而实现对患者提问的准确回答。
附图说明
[0042]
图1为发明一实施例的文本相似性判别方法流程图;
[0043]
图2为发明一实施例的文本相似性判别装置流程图;
[0044]
图3为发明一实施例的计算机设备及存储介质的结构示意图。
具体实施方式
[0045]
为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。
[0046]
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“上述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在特征、整数、步骤、操作、元件、模块、模块和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、模块、模块、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一模块和全部组合。
[0047]
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
[0048]
参照图1,本技术实施例提供一种文本相似性判别方法,包括以下步骤s1-s5:
[0049]
s1:获取两个待判定句子的token embedding,并根据所述两个待判定句子的token embedding构建代价矩阵;所述代价矩阵的最优问题的最优解为最优传输矩阵,所述最优传输矩阵对应的传输距离为最优传输距离。
[0050]
token embedding(词嵌入)的作用是将人类的语言映射到几何空间中,词嵌入是低维的浮点数向量(即密集向量,与稀疏向量相对)。
[0051]
本实施例中,在完成主任务(即语句传输)的同时学习词嵌入。在这种情况下,一开始是随机的词向量,然后对这些词向量进行学习,其学习方式与学习神经网络的权重相同。在不同于待解决问题的机器学习任务上预计算好词嵌入,然后将其加载到模型中。本实施例中,将待判别的两个句子的原始文本转换为神经网络能够处理的格式,然后使用keras模型的embedding层来学习针对特定任务的标记嵌入;使用预训练词嵌入在小型自然语言处理问题上获得额外的性能提升。
[0052]
本实施例中,所述代价矩阵的维度为l1*l2;其中l1为句子1的token长度,l2为句子2的token长度,所述代价矩阵采用余弦距离编码token相似性,将余弦相似度转换为余弦距离
[0053]
其中代表第一句中的第i个词的embedding,代表第二句中的第j个词的
embedding。
[0054]
s2:构建所述两个待判定句子传输过程中,总代价、代价矩阵、最优传输矩阵与所述最优传输距离对应的第一数学关系。
[0055]
本实施例中,先采用预设传输模型,对待判别的两个句子进行传输,综合考虑最优传输问题的三大组件:传输前的状态d1,传输后的状态d2,代价矩阵m。最优传输问题就是求解状态d1转移到状态d2,使得总代价最小的函数t,这个t称为最优传输矩阵。本实施例中,所述第一数学关系如下:
[0056][0057][0058]
其中,为所述总代价,为句子1中的第i个词的embedding,代表第二句中的第j个词的embedding,为所述最优传输矩阵,为所述最优传输距离。
[0059]
s3:将所述两个待判定句子的状态向量分别定义为由自身句子长度归一化的全1向量;所述全1向量包括第一约束条件和第二约束条件。
[0060]
本实施例中,所述两个待判定句子的状态向量分别定义为由自身句子长度归一化的全1向量,即句子1状态向量为d1,句子2状态向量为d2,d1和d2长度分别为句子1和句子2的token长度,代价矩阵的元素m
i,j
表示句子1的token i和句子2的token j的token embedding的余弦距离。要求解的最优传输矩阵t就是各个token pair对于句子相似性的贡献程度,也就是一个权重矩阵。
[0061]
本实施例中,所述全1向量的表达式为:
[0062][0063]
其中,d1和d2均为全1向量;l1为句子1的token(标记)长度,l2为句子2的token(标记)长度。
[0064]
本实施例中,所述全1向量包括第一约束条件和第二约束条件。所述第一约束条件为限制行向量求和为1,所述第二约束条件为限制列向量求和为1。
[0065]
s4:移除所述全1向量中的所述第一约束条件和所述第二约束条件中的任一项,得到放松方程。
[0066]
本实施例中,考虑到医患智能问答涉及的词库非常庞大,患者使用的语言也不一定统一,找到最优传输矩阵t的计算复杂度非常高,因此可以考虑将最优传输问题的两个约束条件(即第一约束条件和第二约束条件)进行适当放松,得到放松方程,对后续判别提供技术上的简化,减少人力、物力的投入,最大程度降低计算错误发生的概率。
[0067]
s5:将所述放松方程联立所述第一数学关系,推导得到放松后的最优传输距离,并利用所述放松后的最优传输距离判定两个待判定句子的相似性。
[0068]
本实施例中,第一数学关系为
[0069][0070]
[0071]
若移除所述全1向量中的所述第一约束条件,得到的放松方程为
[0072][0073]
若移除所述全1向量中的所述第二约束条件,得到的放松方程为
[0074][0075]
其中为放松后的最优传输矩阵。
[0076]
本实施例中,所述放松方程的数学意义其实是在行或列向量中求最小值,若移除所述全1向量中的所述第一约束条件,放松方程的数学意义是在行向量中求最小值,若移除所述全1向量中的所述第二约束条件,放松方程的数学意义是在列向量中求最小值。
[0077]
通过移除部分约束条件,在能够满足文本相似性判别需求的前提下,大幅降低对全1向量求解的复杂程度,降低了人力、物力的投入,能有效避免潜在的计算错误,避免根据这些错误的结果对患者的问题进行回复,对患者造成误导。
[0078]
本实施例通过所述放松后的最优传输距离判定两个待判定句子的相似性,从token-level层面显式地融合语义对齐的token pairs之间的距离,相较于现有技术的sentence-level层面对齐有着更加准确、可解释性更强的技术优势,从有助于更加准确地对患者的提问进行识别和智能回复。
[0079]
本实施例中,所述将所述放松方程联立所述第一数学关系,推导得到放松后的最优传输距离,并利用所述放松后的最优传输距离判定两个待判定句子的相似性的步骤s5,包括:
[0080]
s51、根据预设转换关系,将所述两个待判定句子的所述放松后的最优传输距离转换为相似性分数。
[0081]
本实施例中,这里首先需要把放松后的最优传输距离转换为相似性分数,remd1和remd2计算方式相同:
[0082][0083][0084]
其中为限制第一约束条件后求得的相似性分数,为限制第二约束条件后求得的相似性分数。
[0085]
对remd1和remd2进行平均以考虑两个句子之间的双向语义对齐;这在优化过程中提供了不同的梯度信号。最终的相似性描述为:
[0086]
[0087]
s52、根据所述两个待判定句子的相似度分数,判别所述两个待判定句子的相似程度。
[0088]
根据所述两个待判定句子的相似度分数对比预设的相似度分数参数表,对所述两个待判定句子的相似度进行评级。在一实施例中,相似度分数0-0.33为低相似度,相似度分数为0.34-0.66为中相似度,相似度分数为0.67-1.00为高相似度。
[0089]
在另一实施例中,所述根据所述两个待判定句子的相似度分数,判别所述两个待判定句子的相似程度的步骤s52之后,包括:
[0090]
s521、根据所述两个待判定句子的相似度分数的构建文本相似度判别模型;
[0091]
s522、利用预设规则,对所述文本相似度判别模型进行微调。
[0092]
本实施例中,考虑到医疗领域中,医患智能问答过程中很多时候,患者会同时提出多个问题,此时需要同时对多个句子对进行判别,而这些句子对之间往往存在一定的联系,在进行某一个句子对的相似度时,还需要考虑与其一同判定的句子对对其的影响,因而需要利用预设规则,对所述文本相似度判别模型进行微调。本实施例中,所述文本相似度判别模型即为
[0093]
在一个实施例中,一共对n个句子对进行判别,对文本相似度判别模型进行微调后,第i(i=1,2,3,...,n)个句子对的相似度为
[0094][0095]
其中为第i个句子对文本相似度判别模型进行正向微调后的相似度,为第i个句子对文本相似度判别模型进行负向微调后的相似度。
[0096]
如上所述,本技术中,获取两个待判定句子的token embedding,并根据所述两个待判定句子的token embedding构建代价矩阵;所述代价矩阵的最优问题的最优解为最优传输矩阵,所述最优传输矩阵对应的传输距离为最优传输距离;构建所述两个待判定句子传输过程中,总代价、代价矩阵、最优传输矩阵与所述最优传输距离对应的第一数学关系;将所述两个待判定句子的状态向量分别定义为由自身句子长度归一化的全1向量;所述全1向量包括第一约束条件和第二约束条件;考虑到直接找到最优传输矩阵t的计算复杂度非常高,本发明选择移除所述全1向量中的所述第一约束条件和所述第二约束条件中的任一项,得到放松方程;将所述放松方程联立所述第一数学关系,推导得到放松后的最优传输距离,并利用所述放松后的最优传输距离判定两个待判定句子的相似性,大大简化了本方法的执行过程;不仅如此,上述方法从token-level层面显式地融合语义对齐的token pairs之间的距离,相较于现有技术的sentence-level层面对齐有着更加准确、可解释性更强的技术优势。
[0097]
参照图2,本发明实施例还提供一种文本相似性判别装置,包括:
[0098]
第一构建模块10,用于获取两个待判定句子的token embedding,并根据所述两个待判定句子的token embedding构建代价矩阵;所述代价矩阵的最优问题的最优解为最优传输矩阵,所述最优传输矩阵对应的传输距离为最优传输距离;
[0099]
第二构建模块20,用于构建所述两个待判定句子传输过程中,总代价、代价矩阵、
最优传输矩阵与所述最优传输距离对应的第一数学关系;
[0100]
归一模块30,用于将所述两个待判定句子的状态向量分别定义为由自身句子长度归一化的全1向量;所述全1向量包括第一约束条件和第二约束条件;
[0101]
放松模块40,用于移除所述全1向量中的所述第一约束条件和所述第二约束条件中的任一项,得到放松方程;
[0102]
判别模块50,用于将所述放松方程联立所述第一数学关系,推导得到放松后的最优传输距离,并利用所述放松后的最优传输距离判定所述两个待判定句子的相似性。
[0103]
如上所述,文本相似性判别装置能够实现文本相似性判别方法。
[0104]
在一实施例中,所述代价矩阵的维度为l1*l2;其中l1为句子1的token长度,l2为句子2的token长度,所述代价矩阵采用余弦距离编码token相似性。
[0105]
在一实施例中,所述第一数学关系的表达式为:
[0106][0107][0108]
其中,为所述总代价,为句子1中的第i个词的embedding,代表第二句中的第j个词的embedding,为所述最优传输矩阵,为所述最优传输距离。
[0109]
在一实施例中,所述全1向量的表达式为:
[0110][0111]
其中,d1和d2均为全1向量。
[0112]
在一实施例中,所述放松模块40包括:
[0113]
移除所述全1向量中的所述第一约束条件,得到的放松方程为
[0114][0115]
或,
[0116]
移除所述全1向量中的所述第二约束条件,得到的放松方程为
[0117][0118]
其中为放松后的最优传输矩阵。
[0119]
在一实施例中,所述判别模块50包括:
[0120]
转换单元,用于根据预设转换关系,将所述两个待判定句子的所述放松后的最优传输距离转换为相似性分数;
[0121]
判定单元,用于根据所述两个待判定句子的相似度分数,判别所述两个待判定句子的相似程度。
[0122]
在一实施例中,所述文本相似性判别装置还包括:
[0123]
构建单元,用于根据所述两个待判定句子的相似度分数的构建文本相似度判别模型;
[0124]
调整单元,用于利用预设规则,对所述文本相似度判别模型进行微调。
[0125]
参照图3,本发明实施例还提供一种计算机设备,该计算机设备的内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作装置、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储有效导联信号等。该计算机设备的网络接口用于外部的终端通过网络连接通信。进一步地,上述计算机设备还可以设置有输入装置和显示屏等。上述计算机程序被处理器执行时以实现文本相似性判别方法,包括如下步骤:获取两个待判定句子的token embedding,并根据所述两个待判定句子的token embedding构建代价矩阵;所述代价矩阵的最优问题的最优解为最优传输矩阵,所述最优传输矩阵对应的传输距离为最优传输距离;构建所述两个待判定句子传输过程中,总代价、代价矩阵、最优传输矩阵与所述最优传输距离对应的第一数学关系;将所述两个待判定句子的状态向量分别定义为由自身句子长度归一化的全1向量;所述全1向量包括第一约束条件和第二约束条件;移除所述全1向量中的所述第一约束条件和所述第二约束条件中的任一项,得到放松方程;将所述放松方程联立所述第一数学关系,推导得到放松后的最优传输距离,并利用所述放松后的最优传输距离判定两个待判定句子的相似性。本领域技术人员可以理解,图3中示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的计算机设备的限定。
[0126]
本技术一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现文本相似性判别方法,包括如下步骤:获取两个待判定句子的token embedding,并根据所述两个待判定句子的token embedding构建代价矩阵;所述代价矩阵的最优问题的最优解为最优传输矩阵,所述最优传输矩阵对应的传输距离为最优传输距离;构建所述两个待判定句子传输过程中,总代价、代价矩阵、最优传输矩阵与所述最优传输距离对应的第一数学关系;将所述两个待判定句子的状态向量分别定义为由自身句子长度归一化的全1向量;所述全1向量包括第一约束条件和第二约束条件;移除所述全1向量中的所述第一约束条件和所述第二约束条件中的任一项,得到放松方程;将所述放松方程联立所述第一数学关系,推导得到放松后的最优传输距离,并利用所述放松后的最优传输距离判定两个待判定句子的相似性。
[0127]
可以理解的是,本实施例中的计算机可读存储介质可以是易失性可读存储介质,也可以为非易失性可读存储介质。
[0128]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括
随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram通过多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双速据率sdram(ssrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
[0129]
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其它要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
[0130]
以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

技术特征:
1.一种文本相似性判别方法,其特征在于,所述方法包括:获取两个待判定句子的token embedding,并根据所述两个待判定句子的token embedding构建代价矩阵;所述代价矩阵的最优问题的最优解为最优传输矩阵,所述最优传输矩阵对应的传输距离为最优传输距离;构建所述两个待判定句子传输过程中,总代价、代价矩阵、最优传输矩阵和所述最优传输距离四者之间的第一数学关系;将所述两个待判定句子的状态向量分别定义为由自身句子长度归一化的全1向量;所述全1向量包括第一约束条件和第二约束条件;移除所述全1向量中的所述第一约束条件和所述第二约束条件中的任一项,得到放松方程;将所述放松方程联立所述第一数学关系,推导得到放松后的最优传输距离,并利用所述放松后的最优传输距离判定所述两个待判定句子的相似性。2.根据权利要求1所述的文本相似性判别方法,其特征在于,所述代价矩阵的维度为l1*l2;其中l1为句子1的token长度,l2为句子2的token长度,所述代价矩阵采用余弦距离编码token相似性。3.根据权利要求2所述的文本相似性判别方法,其特征在于,所述第一数学关系的表达式为:式为:其中,为所述总代价,为句子1中的第i个词的embedding,代表第二句中的第j个词的embedding,为所述最优传输矩阵,为所述最优传输距离。4.根据权利要求1所述的文本相似性判别方法,其特征在于,所述全1向量的表达式为:其中,d1和d2均为全1向量;l1为句子1的token长度,l2为句子2的token长度。5.根据权利要求1所述的文本相似性判别方法,其特征在于,所述移除所述全1向量中的所述第一约束条件和所述第二约束条件中的任一项,得到放松方程的步骤,包括:移除所述全1向量中的所述第一约束条件,得到的放松方程为或,移除所述全1向量中的所述第二约束条件,得到的放松方程为
其中为放松后的最优传输矩阵。6.根据权利要求1所述的文本相似性判别方法,其特征在于,所述将所述放松方程联立所述第一数学关系,推导得到放松后的最优传输距离,并利用所述放松后的最优传输距离判定所述两个待判定句子的相似性的步骤,包括:根据预设转换关系,将所述两个待判定句子的所述放松后的最优传输距离转换为相似性分数;根据所述两个待判定句子的相似度分数,判别所述两个待判定句子的相似程度。7.根据权利要求6所述的文本相似性判别方法,其特征在于,所述根据所述两个待判定句子的相似度分数,判别所述两个待判定句子的相似程度的步骤之后,还包括:根据所述两个待判定句子的相似度分数构建文本相似度判别模型;利用预设规则,对所述文本相似度判别模型进行微调。8.一种文本相似性判别装置,其特征在于,包括:第一构建模块,用于获取两个待判定句子的token embedding,并根据所述两个待判定句子的token embedding构建代价矩阵;所述代价矩阵的最优问题的最优解为最优传输矩阵,所述最优传输矩阵对应的传输距离为最优传输距离;第二构建模块,用于构建所述两个待判定句子传输过程中,总代价、代价矩阵、最优传输矩阵与所述最优传输距离对应的第一数学关系;归一模块,用于将所述两个待判定句子的状态向量分别定义为由自身句子长度归一化的全1向量;所述全1向量包括第一约束条件和第二约束条件;放松模块,用于移除所述全1向量中的所述第一约束条件和所述第二约束条件中的任一项,得到放松方程;判别模块,用于将所述放松方程联立所述第一数学关系,推导得到放松后的最优传输距离,并利用所述放松后的最优传输距离判定所述两个待判定句子的相似性。9.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的文本相似性判别方法的步骤。10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的文本相似性判别方法的步骤。

技术总结
本申请涉及医疗领域,可应用于医患智能问答,公开了一种文本相似性判别方法,其中,方法包括:根据两个待判定句子的token embedding构建代价矩阵;构建所述两个待判定句子传输过程中,总代价、代价矩阵、最优传输矩阵与所述最优传输距离对应的第一数学关系;将所述两个待判定句子的状态向量分别定义为由自身句子长度归一化的全1向量;所述全1向量包括第一约束条件和第二约束条件;移除所述全1向量中的所述第一约束条件和所述第二约束条件中的任一项,得到放松方程;将所述放松方程联立所述第一数学关系,推导得到放松后的最优传输距离,并利用所述放松后的最优传输距离判定所述两个待判定句子的相似性,从而实现简单、准确地对文本相似性进行判别。对文本相似性进行判别。对文本相似性进行判别。


技术研发人员:刘羲 蒋恒智 舒畅 陈又新
受保护的技术使用者:平安科技(深圳)有限公司
技术研发日:2023.06.02
技术公布日:2023/9/14
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐