一种基于问题生成的文本生成语义评价方法
未命名
08-27
阅读:136
评论:0
1.本发明涉及一种基于问题生成的文本语义评价方法,具体涉及一种利用问题生成对候选文本和参考文本生成问题并进行问答,从而形成语义层面的评价指标的技术,属于自然语言处理中的文本生成评价技术领域。
背景技术:
2.近年来,随着自然语言处理技术的快速发展,对于文本生成技术的研究正逐渐成熟,诸如机器翻译、文本摘要等生成式任务已取得了优秀的成果。
3.目前,文本生成技术已成为自然语言处理技术领域最热门的研究方向之一。由机器自动生成文本是人与机器之间交流的基础,文本生成已广泛应用在智能助手、聊天机器人等领域。
4.文本生成评价,是一种对文本生成任务的候选文本与参考文本进行比较和评价的技术。在现有的文本评价技术中,最常用的方法是人工评价,即组织评价人员直接根据文本的特征(如语义、流畅性等)进行打分。尽管通过人工评价的方式能够很好的判定模型生成文本的质量,但该方法的缺点在于成本高、耗时长,且不利于当前生成领域中研究的迭代。近年来,更加通用的方法是通过机器自行完成的自动评价。自动评价方法分为内部、外部方法,其中,内部方法是通过对比候选文本与参考文本的相似度或检查两个文本包含的属性来衡量候选文本的质量,此类度量的示例包括bleu、meteor、rouge等;外部方法是通过测试生成文本进行相关任务的能力来评价文本的质量。
5.文本生成技术的一大瓶颈,是如何客观、准确的评价机器生成文本的质量。因为一个好的评价方法不仅能够高效的指导模型拟合数据分布,还能够客观的让人评估文本生成模型的质量。目前,技术人员使用的文本生成评价方法主要是内部方法。然而,像bleu、meteor、rouge等内部方法,只是在词级别上进行比较,判断候选文本与参考文本的相似性,这样只比较单词重合度的方法并不能很好的评价生成文本在语义上的一致性。一方面单词重合度高并不能完全说明两段文本的含义是否相同,有可能只差一些单词意思就完全不同;另一方面语言的表达方式多种多样,单词重合度低也不能说明文本的含义不同。
6.因此,当前制约文本生成技术发展的重要因素之一,就是文本评价方法无法对文本在语义层面进行评价。建立更好的模型,需要能够识别语义错误的评价方法,更全面、更通用的自动文本生成评价方法可以对文本生成任务进行更好的指导。
技术实现要素:
7.本发明的目的是针对现有文本生成评价技术只在单词级别上进行比较,无法对文本语义进行有效评价等问题和缺陷,为了解决文本生成技术面临的如何在语义层面对文本进行评价的技术问题,创造性地提出一种基于问题生成的文本生成语义评价方法。
8.本发明采用以下技术方案实现。
9.首先,对有关概念进行解释和说明。
10.文本生成评价方法:在文本生成任务中,数据集里包含参考文本,模型自动生成的文本叫做候选文本。文本生成评价方法用于识别和评估候选文本的质量,一般通过比较候选文本和参考文本之间的相似度来完成。
11.命名实体识别:命名实体一般指的是文本中具有特定意义或者指代性强的实体,通常包括人名、地名、组织机构名、日期时间、专有名词等。命名实体识别任务就是从非结构化的输入文本中抽取出上述实体。
12.问题生成:给定一段文本段落p和目标答案a,p=[w1,w2,
…
,wn],a=[a1,a2,
…
,am],将p和a作为输入。问题生成任务的目标是生成与p相关并且语法正确的问题生成的问题满足下式:
[0013][0014]
其中,表示生成的问题;文本段落p和目标答案a都是文本序列,答案a是段落p中的一段文本跨度;p(q|p,a)表示在给定段落p和答案a条件下生成问题q的概率;argmaxq表示求出使得概率最大化的问题q。
[0015]
机器阅读理解:机器阅读理解技术是机器自动基于给定的文本回答用户所提出的问题的技术。即给定上下文c和问题q,机器阅读理解任务要求模型通过学习函数f使得a=f(c,q)给出问题q的正确答案a,其中答案a是上下文c中的一段文本跨度。本方法中,问题是由问题生成模型产生的,机器阅读理解模型用来判断问题是否能由相关的文本回答。
[0016]
一种基于问题生成的文本生成语义评价方法,包括以下步骤:
[0017]
步骤1:由文本生成任务的模型生成候选文本然后找到在数据集中与其对应的参考文本y。
[0018]
其中,文本生成任务可以是机器翻译、故事生成、文本摘要等。
[0019]
步骤2:对候选文本和参考文本进行命名实体识别,识别其中的实体。当得到文本中命名实体之后,记录其在文本中的位置并进行标记。
[0020]
对于问题生成,往往希望对文档中重要的信息进行提问。通常,文档中的实体是比较重要的信息,而且是比较适合作为答案的信息。因此,使用命名实体识别来选出重要实体,从而为问题生成模型提供答案。
[0021]
步骤3:根据候选文本和参考文本,以识别出来的实体作为答案,使用问题生成模型生成相应的问题。
[0022]
步骤4:对问题进行处理与筛选,排除质量不佳的问题。
[0023]
具体地,首先删除每个问题第一个问号之后的字符,如果没有问号则在问题最后添加问号。然后丢弃不符合规定的问题(如少于3个单词)。最后用机器阅读理解模型对每个问题进行测试,以生成问题的原文本为上下文查询答案,如果无法回答则丢弃该问题。
[0024]
步骤5:使用机器阅读理解模型以参考文本作为上下文,以候选文本生成的问题作为问题,预测答案。
[0025]
同理,使用机器阅读理解模型以候选文本作为上下文,以参考文本生成的问题做为问题,预测答案。
[0026]
步骤6:根据机器阅读理解模型的结果,分别计算候选文本和参考文本的预测答案的正确度。
[0027]
首先,使用参考文本生成的问题,查询候选文本回答问题。具体地,将p(q|y)定义为参考文本y的所有问题q的分布,和p(a|q,y)是在给定候选文本和参考文本y的情况下,对特定问题q的所有可能答案a的分布,该方法的期望分数e
q~p(
q|y)为:
[0028][0029]
其中,d是衡量两个答案分布的相似性的函数。
[0030]
然后,使用候选文本生成的问题,查询参考文本回答问题。具体地,将定义为候选文本的所有问题q的分布,p(a|q,y)和是在给定参考文本y和候选文本的情况下,对特定问题q的所有可能答案a的分布,该方法的期望分数为:
[0031][0032]
其中,d是衡量两个答案分布的相似性的函数。使用单词级别的f1值来比较答案相似度,此为衡量结果相似度的标准方法,即,将d定义为:
[0033][0034]
其中,argmaxa表示求出使得概率最大化的答案a。
[0035]
当两个文档对问题分布中的任何问题都产生相同的答案时,该分数将最大化。
[0036]
实际处理时,问题分布p(q|y)和由步骤4生成的问题代表,生成问题的文本的答案分布由步骤2识别的实体代表,查询文本的答案分布由步骤5的机器阅读理解模型预测的答案代表,对每一组预测答案和正确答案计算f1值并分别求候选文本和参考文本上的平均值。
[0037]
步骤7:将步骤6中的两个分数式1和式2加权求和,得到一个更加综合的指标:
[0038][0039]
其中,λ1、λ2分别表示分数式1和式2的权重。
[0040]
实际处理时,λ1、λ2分别为其中ny表示参考文本生成的问题数量,表示候选文本生成的问题数量。
[0041]
最后,求出的加权和即为最终的评价指标。
[0042]
至此,从步骤1到步骤6,得到了候选文本的在语义上的分数,完成基于问题生成的文本语义评价。
[0043]
有益效果
[0044]
本发明方法,对比现有技术,具有以下优点:
[0045]
本方法考虑到现有文本生成评价方法在语义评价方面的不足,基于问题生成将文本评价转换成问题回答形式的外部任务,将度量重点放在文本的语义相关的部分上,来评
were n't dismissing the possibility of a hate crime.on what is believed to be hicks'facebook page,numerous posts rail against religion.the victims'family members have called on authorities to investigate the slayings as a hate crime.the u.s.department of justice issued a statement in february saying the department's civil rights division,along with the the u.s.attorney's office for the middle district of north carolina and the fbi,have opened``a parallel preliminary inquiry”to determine whether any federal laws,including hate crime laws,were violated.``it has always been our position that mr.hicks should be held responsible for his actions to the full extent of the law.his killing of three college students was despicable,and now he must face the consequences of his actions,”said rob maitland,an attorney for hicks'wife.karen and craig hicks are in the process of divorce.”为实施例,本实施例将以具体实例对本发明所述的一种基于问题生成的文本语义评价方法的具体操作步骤进行详细说明;
[0066]
如图1所示,一种基于问题生成的文本语义评价方法,包括以下步骤:
[0067]
步骤a:生成候选文本,找到与其对应的参考文本;
[0068]
具体到本实施例中,由生成式摘要模型生成候选文本“craig hicks,46,is charged in the deaths of three muslim college students in chapel hill,north carolina.superior court judge orlando hudson jr.ruled that hicks'case is death penalty qualified.the victims'family members have called on authorities to investigate the slayings as a hate crime.”。其对应的参考文本为“hicks is charged in the deaths of three muslim college students in chapel hill,north carolina.victims'family members have called on authorities to investigate the slayings as a hate crime.”。
[0069]
步骤b:对候选文本和参考文本进行命名实体识别;
[0070]
具体到本实施例中,候选文本识别到实体craig hicks、three、muslim、chapel hill、north carolina、superior court、orlando hudson jr;参考文本识别到实体hicks、three、muslim、chapel hill、north carolina。
[0071]
步骤c:根据文本与实体进行问题生成;
[0072]
将识别到的实体做为答案,候选文本生成的问题为:
[0073]
who is charged with the deaths of three muslim college students?
[0074]
how many muslim students were killed in chapel hill,north carolina?
[0075]
what religion is craig hicks?
[0076]
where were the three muslim college students killed?
[0077]
where is chapel hill located?
[0078]
what court judge ruled that hicks'case was death penalty qualified?
[0079]
who ruled that hicks'case was qualified for the death penalty?
[0080]
参考文本生成的问题为:
[0081]
who is charged in the deaths of three muslim college students?
[0082]
how many muslim college students were killed in chapel hill,north carolina?
[0083]
what religion is hicks charged with?
[0084]
where were the three muslim college students killed?
[0085]
where is chapel hill located?
[0086]
步骤d:根据规则处理并筛选问题;
[0087]
具体到本实施例中,生成的问题质量都比较好,无需排除。
[0088]
步骤e:根据机器阅读理解模型和相应文本预测问题的答案;
[0089]
具体到本实施例中,以参考文本做为上下文,以候选文本生成的问题做为问题,预测答案为hicks、three、muslim、chapel hill、north carolina、north carolina、authorities。同样,以候选文本做为上下文,以参考文本生成的问题做为问题,预测答案为craig hicks、three、muslim、chapel hill、north carolina。
[0090]
步骤f:分别计算候选文本和参考文本的预测答案的正确度;
[0091]
具体到本实施例中,候选文本的预测答案与正确答案的f1的平均值为0.933,参考文本的预测答案与正确答案的f1的平均值为0.667。
[0092]
步骤g:将两个正确度加权求和得到最终分数,完成评价;
[0093]
具体到本实施例中,λ1为λ2为最终的评价分数为0.778。
技术特征:
1.一种基于问题生成的文本生成语义评价方法,其特征在于,包括以下步骤:步骤1:由文本生成任务的模型生成候选文本然后找到在数据集中与其对应的参考文本y;步骤2:对候选文本和参考文本进行命名实体识别,识别其中的实体;当得到文本中命名实体之后,记录其在文本中的位置并进行标记;步骤3:根据候选文本和参考文本,以识别出来的实体作为答案,使用问题生成模型生成相应的问题;步骤4:对问题进行处理与筛选,排除质量不佳的问题;首先删除每个问题第一个问号之后的字符,如果没有问号则在问题最后添加问号,然后丢弃不符合规定的问题,最后用机器阅读理解模型对每个问题进行测试,以生成问题的原文本为上下文查询答案,如果无法回答则丢弃该问题;步骤5:使用机器阅读理解模型以参考文本作为上下文,以候选文本生成的问题作为问题,预测答案;使用机器阅读理解模型以候选文本作为上下文,以参考文本生成的问题做为问题,预测答案;步骤6:根据机器阅读理解模型的结果,分别计算候选文本和参考文本的预测答案的正确度;首先,使用参考文本生成的问题,查询候选文本回答问题;具体地,将p(q|y)定义为参考文本y的所有问题q的分布,和p(a|q,y)是在给定候选文本和参考文本y的情况下,对特定问题q的所有可能答案a的分布,该方法的期望分数e
q~p(q|y)
为:其中,d是衡量两个答案分布的相似性的函数;然后,使用候选文本生成的问题,查询参考文本回答问题;具体地,将定义为候选文本的所有问题q的分布,p(a|q,y)和是在给定参考文本y和候选文本的情况下,对特定问题q的所有可能答案a的分布,该方法的期望分数为:其中,d是衡量两个答案分布的相似性的函数;使用单词级别的f1值来比较答案相似度,此为衡量结果相似度的标准方法,即,将d定义为:其中,argmax
a
表示求出使得概率最大化的答案a;当两个文档对问题分布中的任何问题都产生相同的答案时,该分数将最大化;实际处理时,问题分布p(q|y)和由步骤4生成的问题代表,生成问题的文本的答案分布由步骤2识别的实体代表,查询文本的答案分布由步骤5的机器阅读理解模型预测的答案代表,对每一组预测答案和正确答案计算f1值并分别求候选文本和参考文本上的平
均值;步骤7:将步骤6中的两个分数式1和式2加权求和,得到一个更加综合的指标:其中,λ1、λ2分别表示分数式1和式2的权重;实际处理时,λ1、λ2分别为其中n
y
表示参考文本生成的问题数量,表示候选文本生成的问题数量;最后,求出的加权和即为最终的评价指标。2.如权利要求1所述的一种基于问题生成的文本生成语义评价方法,其特征在于,文本生成任务包括机器翻译、故事生成、文本摘要。
技术总结
本发明涉及一种基于问题生成的文本生成语义评价方法,属于自然语言处理技术领域。本方法基于问题生成,对于候选文本和参考文本,首先进行命名实体识别并标记实体在文本中的位置,然后将实体作为答案通过问题生成模型生成问题。使用机器阅读理解模型以参考文本作为上下文,以候选文本生成的问题作为问题得到答案。以候选文本作为上下文,以参考文本生成的问题作为问题得到答案。将这两种方式得到的答案分别计算与正确答案即识别到的实体的相似度再加权求和,得到最后的评价分数。本方法适用于机器翻译、文本摘要等文本生成任务,评价了文本在语义上的质量,丰富了文本生成评价方法,可以更好地指导文本的生成。可以更好地指导文本的生成。可以更好地指导文本的生成。
技术研发人员:史树敏 陈世琛 苏日海
受保护的技术使用者:北京理工大学
技术研发日:2023.04.17
技术公布日:2023/8/24
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
上一篇:用于生成漫画的方法、装置、设备和介质与流程 下一篇:一种用于进行远程康复训练的装置
