一种预测问题回复质量并给与反馈的方法与流程

未命名 08-26 阅读:107 评论:0


1.本技术涉及人工智能自然语言处理领域,尤其涉及一种预测问题回复质量并给与反馈的方法。


背景技术:

2.调查问卷的问题设置对调查结果有巨大影响,好的问卷设计可用高效高质量地帮助使用者获取所需信息,反之,则会给问题调查工作带来巨大障碍,影响工作的正常进行。因此预测问题回复质量并给予反馈的技术至关重要,可以将其看作一个多标签文本分类任务进行研究。
3.多标签文本分类是自然语言处理中的一项关键任务。它广泛应用于情感识别、问题解答和网页标记等领域。它的目标是学习一种可以为未知文本分配适当多个标签的模型。与单标签分类相比,多标签分类方法可以更好地应用于现实生活,符合客观对象的特征和规律。然而,面对实际文本,标签的类别数量相当大,一些标签涉及的内容非常少,导致标签不平衡的问题很大,标签的输出空间会随着标签的数量呈指数增长。对于所有多标签文本分类问题,当需要更细粒度的标签分类时,还需要研究标签数量增加和标签不平衡的问题。现有的方法常常忽略标签之间的相关性,只考虑不同标签对同一文本的影响,因此它们没有很好地挖掘文本中涉及的多个标签之间的关系。因此,本文提出了一种基于隐藏空间数据和标签关联的多标签文本分类方法。多标签分类算法为一个样本分配多个标签,广泛应用于推荐系统、舆论分析、情感分类等领域。样本的不同标签之间通常存在相关性。如何在建模过程中学习标签之间的相关性是一个巨大的挑战。在新闻文本分类中,标签之间的关系是分层的。同时,每个标签与新闻文本的不同部分之间的关联程度并不相同,标签和文本特征的集成需要有针对性地建模。
4.传统的多标签文本分类通常采用学习文本语义增强表示的方法,如极端多标签分类的深度学习方法,结合改进的卷积神经网络和动态最大池技术,提取高级特征,以学习紧凑的文档表示;基于标签树的注意感知深度模型,使用递归神经网络对文本进行编码;基于transformer的模型捕获一个序列中单词的相关性,以提供上下文的表示。虽然上述方法充分分析了文本内容,但是却忽略了文本以外的信息(文档信息),导致最终文本分类准确性较差。


技术实现要素:

5.本发明的目的在于解决现有方法虽然分析了文本内容,但是却忽略了文本以外的信息(文档信息),导致最终文本分类准确性较差的问题。
6.本发明提供了一种预测问题回复质量并给与反馈的方法,包括以下步骤:步骤1、获取待分类的文本数据集, 文本数据集包含多标签的文本训练集;步骤2、 对文本训练集中的文本和文本训练集所对应标签集合中的标签分别进行向量化,得到文本的单词向量和标签的单词向量;
步骤3、 基于得到的文本的单词向量和标签的单词向量,通过多信息过滤编码进行文本信息和标签信息的过滤和特征提取,得到过滤的文本特征向量和过滤的标签特征向量;步骤4、 通过过滤的文本特征向量和过滤的标签特征向量交互,得到文本特定标签表示,基于文本特定标签表示训练多标签文本分类模型;步骤5、 利用训练好的多标签文本分类模型对待分类文本数据集进行多标签文本分类。
7.上述技术方案中,步骤1中,对获取的待分类的文本数据集和包含标签的文本训练集进行数据预处理,具体包括构建正则表达式进行文本过滤清理非文本数据,同时使用停用词表对数据集中包含这些词的句子进行过滤,得到待分类的文本数据集。
8.上述技术方案中,步骤2中:文本训练集中的原始训练文本为s,根据嵌入过程得到向量,再使用bert编码器对向量进行编码,得到原始训练文本为s编码之后的文本的单词向量;文本训练集中的标签为t,根据嵌入过程得到向量,再使用bert编码器对向量进行编码,得到标签编码后的标签的单词向量;上述过程由公式表示为:
9.。
10.上述技术方案中,步骤3中:转换过程使用一个多层残差融合attention机制实现,具体公式如下:
[0011][0012][0013]
其中代表第k个残差层的输出,由k-1阶段的原始文本生成的第k阶段的原始文本的单词向量,代表第k个残差层的输出,由k-1阶段的标签生成的第k阶段的标签的单词向量,n∈k,sofselfattention()的是软注意力机制计算公式,hardselfattention()是硬注意力机制计算公式,为原始文本,()为非线性调节公式,和为设置参数;对于第k层的向量,使用前一层的结果进行计算,每一层的值都需要添加原始层(最开始没有进行计算的词向量)的单词向量和单词向量,从而实现残差融合过程,然后使用一个非线性调节器对原始特征进行提取,这里()为非线性调节公式,首先使用和对原始文本进行线性变换,然后使用进行激活,得到的特征与原始特征叠加,从而实现特征提取,得到文本特征向量和过滤的标签特征向量。
[0014]
上述技术方案中,步骤4中,
通过过滤的文本特征和过滤的标签特征交互,得到文本特定标签表示,根据文本特定标签表示和文本的真实标签之间的差异,多次训练多标签文本分类模型,更新模型参数,从而得到训练好的多标签文本分类模型,具体的公式如下:
[0015][0016]
上述公式中、、、分别为不同神经网络的线性映射参数、crossattention()表示一个交互式注意力机制,为用于进行判断的向量,为多类别映射函数,为偏移量,为最终类别结果,以一个向量进行表示,允许有类别的索引激活值为1,其余位置激活值为0。
[0017]
因为本发明采用上述技术手段,因此具备以下有益效果:一、本技术技术方案整合文本及其以外的信息进行多标签文本分类。一方面,考虑到多标签文本分类中,由于标签共享相同的文档子集,文档和标签之间存在语义联系,故标签之间存在依赖关系,因此,本技术通过学习标签结构、标签内容含义和标签共享模式来解决多标签文本分类问题。
[0018]
二、本发明实质是在文本多分类上进行了改进,所以相较于多标签文本分类,在模型训练时间上会更快速;三、因为在训练前对具有尾部标签的样本进行了数据增强,一定程度上解决了多标签文本分类长尾分布问题,同时也提升了模型预测的准确率。
附图说明
[0019]
图1为技术路线图。
具体实施方式
[0020]
以下将对本发明的实施例给出详细的说明。尽管本发明将结合一些具体实施方式进行阐述和说明,但需要注意的是本发明并不仅仅只局限于这些实施方式。相反,对本发明进行的修改或者等同替换,均应涵盖在本发明的权利要求范围当中。
[0021]
另外,为了更好的说明本发明,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员将理解,没有这些具体细节,本发明同样可以实施。
[0022]
本发明提供了一种预测问题回复质量并给与反馈的技术,包括以下步骤:步骤1、获取待分类的文本数据集, 文本数据集包含多标签的文本训练集;步骤1中,对获取的待分类的文本数据集和包含标签的文本训练集进行数据预处理,具体包括构建正则表达式进行文本过滤清理非文本数据,同时使用停用词表对数据集中包含这些词的句子进行过滤,得到待分类的文本数据集。
[0023]
步骤2、 对文本训练集中的文本和文本训练集所对应标签集合中的标签分别进行向量化,得到文本的单词向量和标签的单词向量;步骤2中:文本训练集中的原始训练文本为s,根据嵌入过程得到向量,再使用bert编码器对向量进行编码,得到原始训练文本为s编码之后的文本的单词向量;
文本训练集中的标签为t,根据嵌入过程得到向量,再使用bert编码器对向量进行编码,得到标签编码后的标签的单词向量;上述过程由公式表示为:
[0024]

[0025]
步骤3、基于得到的文本的单词向量和标签的单词向量,通过多信息过滤编码进行文本信息和标签信息的过滤和特征提取,得到过滤的文本特征向量和过滤的标签特征向量;步骤3中:基于标签的单词向量,通过快速傅里叶转换将单词向量转换至频域; 在频域内调制频谱,对标签的单词向量进行过滤,得到过滤后的标签信息; 通过逆向快速傅里叶转换将过滤后的标签信息转换至时域并更新其表示; 基于标签的单词向量和过滤并更新的标签信息,依次进行残差连接、dropout和层标准化操作,得到过滤的标签向量; 基于过滤的标签向量,通过多层感知处理,得到初始过滤的标签特征向量; 基于过滤的标签向量和初始过滤的标签特征向量,依次进行残差连接、dropout和层标准化操作,得到过滤的标签特征向量。
[0026]
转换过程使用一个多层残差融合attention机制实现,具体公式如下:
[0027][0028][0029]
softselfattention是“软-自注意力机制”,也就是在softmax公式之后使用全局归一化,因此对于当前的问题-答案文本,都乘了一个小于1的权重,权重值由计算得到;hardselfattention是“硬-自注意力机制”,在上述的softselfattention过程之后增加一个按照前n(n根据实际情况而定,这里选择5)个权重进行排序,赋值为m(m根据实际情况而定,这里选择0.5),其余赋值为0,用于直接提升某些词权重。
[0030]
对于第k层的向量,使用前一层的结果进行计算,每一层的值都需要添加原始层的和,从而实现残差融合过程,然后使用一个非线性调节器对原始特征进行提取,这里()为非线性调节公式,首先使用和对原始文本进行线性变换,然后使用进行激活,得到的特征与原始特征叠加,从而实现特征提取,得到的特征使用和表示。
[0031]
步骤4、 通过过滤的文本特征向量和过滤的标签特征向量交互(捕捉两组文本之间的联系,因为当前的场景下同时存在文本特征和标签特征,因此需要让这两个向量做交互计算。),得到文本特定标签表示,结合文本特定标签表示训练多标签文本分类模型;步骤4中,通过过滤的文本特征和过滤的标签特征交互,得到文本特定标签表示,根据文本特定标签表示和文本的真实标签之间的差异,多次训练多标签文本分类模型,更新模型参
woman comes back one day , will the girl who i am going to get married now will be in trouble or is there anycomplication ?question(问题)why is this person asking about divorce ?answer(回复内容)he wants to get married to a different person .ags(标签)summarize ; impact ; underlying模型输出结果,表述如下:sentence_type(分类结果)highexplanation_res(反馈信息)as the above post correctly explains, the person who is asking has to be the person who is getting married,and since he or she is asking, he or she is the person who is getting married.however, you have asked a question as to why the answer is correct, when it is not right. this is becausethe word 'he' is the subject of the sentence and is thus also the person who is getting married.i am trying to understand what the answer is exactly saying.firstly, the person who is asking the question has to be the person who is getting married.secondly, the person who is getting married is the subject of the sentence, and thus the person who isgetting married.as the above post correctly explains, the person who is asking has to be the person who is getting married,and since he or she is asking, he or she is the person who is getting married.i think that there is a "double subject" here.as far as i am concerned, the person who is asking for help with the legalities is the subject of thesentence. the person who is getting married is the object.i need to ask you guys what is the subject of this sentence.例子2模型的输入部分,即文本内容表述如下context(原文)i was walking home from the store , when i saw an old man laying on the sidewalk , bleeding . the rightside of his face was all covered in blood . he was conscious but seemed dazed and probably intoxicated . nearby there was a young man dialing his cell phone.question(问题)
what may happen after the young man makes his call ?answer(回复内容)an ambulance would likely come to the scenetags(标签)none模型输出结果,表述如下:sentence_type(分类结果)highexplanation_res(反馈信息)first, i have to agree with the explanation of the other answerers, but let's also keep in mind that thequestion is not " what happens after the young man makes his call "however, the man will be given medical treatment and will hopefully be fine.as to what is going to happen next, i think this is just one of those things that happens in life and cannotbe predicted.in general, i would say it is unlikely that anything further will happen.the call was made to 911. in a city, the police would come, which might be a good thing or a bad thing. in arural area, an ambulance would be called. in either case, the man would get medical attention.the ambulance will come. the police may or may not be involved. but the man will get care." what will happen after the man makes his call ? "the man will receive emergency medical care.the right side of his face was all covered in blood . he was conscious but seemed dazed and probablyintoxicated .he was bleeding. that's the first thing. he was also injured, possibly very seriously injured, but only theparam.例子3模型的输入部分,即文本内容表述如下context(原文)i was walking home from the store , when i saw an old man laying on the sidewalk , bleeding . the rightside of his face was all covered in blood . he was conscious but seemed dazed and probably intoxicated . nearby there was a young man dialing his cell phone.question(问题)what may happen after the young man makes his call ?answer(回复内容)
the bus would arrive at the stop soontags(标签)plot模型输出结果,表述如下:sentence_type(分类结果)lowexplanation_res(反馈信息)the answer will be given in two sentences.the bus would arrive at the stop soon.after that he will call the police.the bus would arrive at the stop soon. after that he will call the police.the bus will arrive at the stop soon. soon the police will arrive.the bus will arrive at the stop soon.the young man would make his call to the police.the bus will arrive at the stop soon. the young man will make his call to the police。

技术特征:
1.一种预测问题回复质量并给与反馈的方法,其特征在于,包括以下步骤:步骤1、获取待分类的文本数据集,文本数据集包含多标签的文本训练集;步骤2、对文本训练集中的原始文本和文本训练集所对应标签集合中的标签分别进行向量化,得到原始文本的单词向量和标签的单词向量;步骤3、基于得到的原始文本的单词向量和标签的单词向量,通过多信息过滤编码进行文本信息和标签信息的过滤和特征提取,得到过滤的文本特征向量和过滤的标签特征向量;步骤4、通过过滤的文本特征向量和过滤的标签特征向量交互,得到文本特定标签表示,根据文本特定标签表示和文本的真实标签之间的差异,多次训练多标签文本分类模型,更新模型参数,从而得到训练好的多标签文本分类模型,具体的公式如下:型,更新模型参数,从而得到训练好的多标签文本分类模型,具体的公式如下:型,更新模型参数,从而得到训练好的多标签文本分类模型,具体的公式如下:、、、分别为不同神经网络的线性映射参数,crossattention()表示一个交互式注意力机制,为用于进行判断的向量,为多类别映射函数,为偏移量,为最终类别结果,以一个向量进行表示,允许有类别的索引激活值为1,其余位置激活值为0;步骤5、利用训练好的多标签文本分类模型对待分类文本数据集进行多标签文本分类。2.根据权利要求1所述的一种预测问题回复质量并给与反馈的方法,其特征在于,步骤1中,对获取的待分类的文本数据集和包含多标签的文本训练集进行数据预处理,具体包括构建正则表达式进行文本过滤清理非文本数据,同时使用停用词表对数据集中包含这些词的句子进行过滤,得到待分类的文本数据集。3.根据权利要求1所述的一种预测问题回复质量并给与反馈的方法,其特征在于,步骤2中:文本训练集中的原始文本为s,根据嵌入过程得到向量,再使用bert编码器对向量进行编码,得到原始文本s编码之后的原始文本的单词向量;文本训练集中的标签为t,根据嵌入过程得到向量,再使用bert编码器对向量进行编码,得到标签编码之后的标签的单词向量;过程由公式表示为:过程由公式表示为:。4.根据权利要求3所述的一种预测问题回复质量并给与反馈的方法,其特征在于,步骤3中:转换过程使用一个多层残差融合attention机制实现,具体公式如下:转换过程使用一个多层残差融合attention机制实现,具体公式如下:
其中代表第k个残差层的输出,由k-1阶段的原始文本生成的第k阶段的原始文本的单词向量,代表第k个残差层的输出,由k-1阶段的标签生成的第k阶段的标签的单词向量,n∈k,sofselfattention()的是软注意力机制计算公式,hardselfattention()是硬注意力机制计算公式,为原始文本, ()为非线性调节公式,和为设置的固定参数。

技术总结
本发明涉及人工智能自然语言处理领域,提供了一种预测问题回复质量并给与反馈的方法。主旨在于解决现有方法虽然分析了文本内容,但是却忽略了文本以外的信息,最终文本分类准确性差的问题。主要方案包括获取待分类的文本数据集;对文本训练集进行向量化,得到原始文本的单词向量和标签的单词向量;基于得到的原始文本的单词向量和标签的单词向量,通过多信息过滤编码进行文本信息和标签信息的过滤和特征提取,得到过滤的文本特征向量和过滤的标签特征向量;通过和交互,得到文本特定标签表示,结合过滤的文本特征,得到最终文本向量表示,训练多标签文本分类模型;利用训练好的模型对待分类文本数据集进行多标签文本分类。本分类。本分类。


技术研发人员:付立军 刘雨江 李旭 徐知非 侯卫国
受保护的技术使用者:中科智禾数字科技(山东)有限公司
技术研发日:2023.06.14
技术公布日:2023/8/24
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐