一种自动生成英语阅读理解问答的方法与流程

未命名 08-14 阅读:90 评论:0


[0002][0003]
本发明涉及自然语言处理领域,尤其涉及一种自动生成英语阅读理解问答的方法。


背景技术:

[0004][0005]
目前生成问答的方法有很多,例如利用基于规则的问答系统,该方法利用预定义的规则来匹配问题和答案;基于模板的问答系统,这种方法利用预定义的模板来匹配问题和答案;基于检索的问答系统,利用检索引擎获取相关文本,然后通过自然语言处理技术匹配问题和答案;基于生成的问答系统,通过利用深度学习技术来生成问题和答案。针对英语阅读理解的问答生成方法,可实现生成的问答难度呈递增式分布。


技术实现要素:

[0006][0007]
本发明提出了一种自动生成英语阅读理解问答的方法,利用句子向量和难度向量生成难度递增的问题和答案,使得生成的问答有相关性的关联。
[0008]
本发明的技术方案是:一种自动生成英语阅读理解问答的方法,所述方法的具体步骤如下:
[0009]
第一步:使用多头注意力机制,将输入的句子向量和难度向量分别作为查询向量和键向量进行计算,得到每个查询向量和键向量之间的注意力权重向量,然后,将得到的注意力权重向量进行加权平均计算出最终的注意力权重向量。最后,将最终的注意力权重向量与对应的值向量进行加权求和得到加权的句子向量,同时初始化难度向量的权重,将加权后的句子向量和带权的难度向量输入到各个解码器层中;
[0010]
第二步:在每个解码器层中,使用自注意力机制,对加权的句子向量和带权的难度向量进行加权平均得到加权的上下文向量;
[0011]
第三步:在每个解码器层中,将加权的上下文向量与上一个解码器层的加权输出进行拼接,输入到前馈神经网络中生成一个上下文感知的加权向量,将带权的难度向量与上一个解码器层的加权输出进行拼接,输入到前馈神经网络中生成一个难度感知的加权向量,将上下文感知的加权向量和难度感知的加权向量进行加权平均得到一个加权的解码器输出,将难度向量的权重和加权的解码器输出相乘得到当前解码器层的加权输出,得到的解码器层的加权输出作为下一个解码器层的输入;
[0012]
第四步:将多个解码器层的加权输出拼接起来,通过激活函数转换为概率分布,利用难度向量的权重选取概率较高的单词,拼接输出的单词作为生成难度相符的问题和答案;
[0013]
第五步:增加难度向量的权重同时减少句子向量的权重,再将权重变化后的带权难度向量和加权句子向量输入到解码器中再次解码生成比上一级难度更高的问题与答案。
通过逐步调整难度向量和句子向量的权重,使难度向量对加权句子向量的影响逐渐增加,利用解码器解码生成难度递增的问题和答案。
[0014]
本发明的有益效果是:
[0015]
本发明给出的利用难度向量和句子向量自动生成难度递增的问题和答案的技术方法,关联了生成问答系列的相关性,对于在英语阅读理解实际应用中,学生可以准确了解自身的学习水平以及降低了教师对于学生在英语阅读理解上个性化教学的难度。
附图说明
[0016][0017]
图1是一种自动生成英语阅读理解问答的方法的流程图;
[0018]
图2是通过解码器解码生成难度递增的问题和答案的流程图。
具体实施方式
[0019][0020]
下面结合附图对本发明的作进一步说明。
[0021]
参照图1,该方法包括以下步骤:
[0022]
(1)数据预处理。对英语阅读理解文章中的文本信息进行数据预处理,将输入的文本信息划分为句子,对每个句子进行分词、去除停用词和词形还原等处理,分析每个句子的语法结构以及每个句子之间的前后逻辑关系;给每个句子中出现的主题词打上《》标签,给重点词打上()标签;
[0023]
(2)生成训练集。进行数据预处理后生成带标签的句子样本,通过句子中的词汇、句法和语义分析来计算每个句子的语法复杂度、语义复杂度、逻辑复杂度等指标,将计算出来的指标综合起来,得到句子的综合难度,将句子的综合难度划分等级,为每个等级指定一个难度系数,通过综合难度评估出每个句子的难度系数;
[0024]
(3)编码阶段。将带标签的句子样本转化为一个个的词汇索引序列, 并对每个词汇进行嵌入得到句子嵌入矩阵,得到的句子嵌入矩阵的每一行代表一个词汇的嵌入向量,同时将每个句子难度系数进行热(one-hot)编码并进行嵌入得到难度嵌入矩阵,得到的难度嵌入矩阵的每一行代表难度级别的嵌入向量,然后将每个句子嵌入向量和难度嵌入向量进行位置编码,将经过位置编码后的句子嵌入向量和难度嵌入向量输入到编码器层进行计算分别得到句子向量和难度向量。难度向量中的每个维度对应一个难度级别,作为模型的一个额外的输入特征。将句子向量与难度向量一起输入到解码器;
[0025]
(4)解码阶段。利用难度向量和句子向量结合的方式控制问题难度的递增输出,并且在解码器中逐步增加难度向量的权重,通过解码生成难度递增的问题和答案;
[0026]

使用多头注意力机制,将输入的句子向量和难度向量分别作为查询向量和键向量进行计算,得到每个查询向量和键向量之间的注意力权重向量,然后,将得到的注意力权重向量进行加权平均计算出最终的注意力权重向量。最后,将最终的注意力权重向量与对应的值向量进行加权求和得到加权的句子向量,同时初始化难度向量的权重,将加权后的句子向量和带权的难度向量输入到各个解码器层中;
[0027]
计算每个查询向量和键向量之间的注意力权重向量,计算公式为:
[0028][0029]
其中,为第i个句子向量,为第j个难度向量。
[0030]
计算最终的注意力权重向量,计算公式为:
[0031][0032]
其中n为句子数量,为第j个值向量。
[0033]
计算加权的句子向量,计算公式为:
[0034][0035]
其中n为句子数量。
[0036]

在每个解码器层中,使用自注意力机制,对加权的句子向量和带权的难度向量进行加权平均得到加权的上下文向量;
[0037]
计算加权的上下文向量,计算公式为:
[0038][0039]
其中为第i个解码器层的加权的上下文向量,为第j个解码器层的加权的句子向量,为第i个解码器层的难度向量,为加权的句子向量和带权的难度向量的加权系数。
[0040]
计算加权的句子向量和带权的难度向量的加权系数
[0041][0042][0043]
其中是加权的句子向量和带权的难度向量的注意力得分。
[0044]

在每个解码器层中,将加权的上下文向量与上一个解码器层的加权输出进行拼接,输入到前馈神经网络中生成一个上下文感知的加权向量,将带权的难度向量与上一个解码器的加权输出进行拼接,输入到前馈神经网络中生成一个难度感知的加权向量,将上下文感知的加权向量和难度感知的加权向量进行加权平均得到一个加权的解码器输出,将难度向量的权重和加权的解码器输出相乘得到当前解码器层的加权输出,得到的解码器层的加权输出作为下一个解码器层的输入;
[0045]
计算上下文感知的加权向量,计算公式为:
[0046][0047]
其中为第i-1个解码器层的加权输出,为第i个解码器层的加权的上下文向量,和为前馈神经网络的两个线性层的权重矩阵。
[0048]
计算难度感知的加权向量,计算公式为:
[0049][0050]
其中为第i个解码层的带权的难度向量。
[0051]
计算解码器层的加权输出,计算公式为:
[0052][0053][0054]
其中为控制上下文感知的加权向量和难度感知的加权向量的比例,通过句子向量的权重和难度向量的权重比计算得到。
[0055]

将多个解码器层的加权输出拼接起来,矩阵进行连接,通过激活函数转换为概率分布。对于输出序列,选取概率大于0.8的单词,拼接输出的单词作为生成难度相符的问题和答案;
[0056]

通过增加难度向量在加权平均中的系数来增加难度向量的权重,同时,减少句子向量在加权平均中的系数来减少句子向量的权重,再将权重变化后的带权难度向量和加权句子向量输入到解码器中再次解码生成比上一级难度更高的问题与答案。通过逐步调整难度向量和句子向量的权重,使难度向量对加权句子向量的影响逐渐增加,利用解码器解码生成难度递增的问题和答案。
[0057]
(5) 计算损失函数,优化模型。最终的损失函数是交叉熵损失函数和难度损失函数之和,交叉熵损失函数计算的是根据问题与答案之间的匹配程度,难度损失函数计算的是根据问题和答案的难度是否呈递增趋势。设置不同的交叉熵损失函数和难度损失函数的权重比例,根据实际情况调整交叉熵损失函数和难度损失函数的权重,平衡二者之间的影响,提高模型的性能。
[0058]
交叉熵损失函数计算公式为:
[0059][0060][0061]
其中n为生成的样本数量,为一个长度的答案序列,为第i个问题序列,为第i个问题系列对第i个样本的第j个位置的单词的预测概率;
[0062]
难度损失函数计算公式为:
[0063][0064]
其中为第i个样本的真实难度系数,为模型预测出的第i个样本的难度系数;
[0065]
最终的损失函数计算公式为:
[0066][0067]
其中为难度损失函数的权重系数。

技术特征:
1.一种自动生成英语阅读理解问答的方法,其特征在于,先从英语阅读理解语料中抽取难度向量和句子向量,再通过transformer模型中的解码器解码生成难度递增的问题和答案。2.根据权利要求1中所述方法的特征,其具体步骤如下:第一步:使用多头注意力机制,将输入的句子向量和难度向量分别作为查询向量和键向量进行计算,得到每个查询向量和键向量之间的注意力权重向量,然后,将得到的注意力权重向量进行加权平均计算出最终的注意力权重向量。最后,将最终的注意力权重向量与对应的值向量进行加权求和得到加权的句子向量,同时初始化难度向量的权重,将加权后的句子向量和带权的难度向量输入到各个解码器层中;第二步:在每个解码器层中,使用自注意力机制,对加权的句子向量和带权的难度向量进行加权平均得到加权的上下文向量;第三步:在每个解码器层中,将加权的上下文向量与上一个解码器层的加权输出进行拼接,输入到前馈神经网络中生成一个上下文感知的加权向量,将带权的难度向量与上一个解码器层的加权输出进行拼接,输入到前馈神经网络中生成一个难度感知的加权向量,将上下文感知的加权向量和难度感知的加权向量进行加权平均得到一个加权的解码器输出,将难度向量的权重和加权的解码器输出相乘得到当前解码器层的加权输出,得到的解码器层的加权输出作为下一个解码器层的输入;第四步:将多个解码器层的加权输出拼接起来,通过激活函数转换为概率分布,利用难度向量的权重选取概率较高的单词,拼接输出的单词作为生成难度相符的问题和答案;第五步:增加难度向量的权重同时减少句子向量的权重,再将权重变化后的带权难度向量和加权句子向量输入到解码器中再次解码生成比上一级难度更高的问题与答案。通过逐步调整难度向量和句子向量的权重,使难度向量对加权句子向量的影响逐渐增加,利用解码器解码生成难度递增的问题和答案。

技术总结
本发明公布了一种自动生成英语阅读理解问答的方法,本发明的方法是基于transformer模型实现,包括将阅读理解文章中的文本进行数据预处理生成训练集,将训练集输入到模型进行编码为句子向量和难度向量,利用句子向量和难度向量在解码器进行解码生成难度等级递增的问题和答案。主要实现的核心技术是利用难度向量和句子向量在解码器中解码生成难度递增的问题和答案,实现了针对英语阅读理解里面的文章进行解析,并自动生成难度递增问题和答案的用途。依次输出难度等级递增的问题给学生进行训练,有效解决了学生无法评估自身在英语阅读理解上的学习能力以及提高了学生的阅读能力和学习能力。和学习能力。和学习能力。


技术研发人员:戴翰波 刘思琪
受保护的技术使用者:武汉慧人信息科技有限公司
技术研发日:2023.05.09
技术公布日:2023/8/13
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐