文本重写方法及装置、电子设备、存储介质与流程
未命名
08-15
阅读:95
评论:0
1.本技术涉及医疗技术领域,尤其涉及一种文本重写方法及装置、电子设备、存储介质。
背景技术:
2.人们在日常生活中可以通过问答逐步的接收、传递信息,对话式问答模型就是令机器仿照人类的方式,根据材料和多轮问答信息回答当前问题,这在医疗领域中应用的越来越广泛,在数字化医疗时代,为了提升医务效率,很多医院都逐步设置了对话问答机,患者可以通过与医院内的对话问答机进行询问对话,以了解更多医务情况,比如患者可以问“肿瘤科在什么位置”,这时对话问答机可以回答“在三楼第一单元”。但是,人们在对话中,习惯于用一些代词代替前面对话中已经提到过的名字或者事情,或者直接省略掉对话中的一些内容,例如,患者首先问“肿瘤科的预约时间为每天的什么时候”,对话问答机回答“9点至17点”,然后患者再次问道“预约时间包括周末吗”,显然后一句的问话包含了省略词,客观而言,使用指代词或者省略词对人们来说,是非常方便又容易理解的,但是对于对话模型而言,指代词和省略词的存在使得语句内容可能存在指代不清和语句内容缺失,机器将很难从历史问答信息中准确的理解问题中的代词具体表示什么,也很难理解对话中缺失的内容具体是什么,造成对问题的理解能力会大打折扣,从而可能给出不准确的回复内容。因此,针对对话模型如何提升对于问题的理解准确度,成为了亟待解决的技术问题。
技术实现要素:
3.本技术实施例的主要目的在于提出一种文本重写方法及装置、电子设备、存储介质,旨在提升对话模型对于问题的理解准确度。
4.为实现上述目的,本技术实施例的第一方面提出了一种文本重写方法,所述方法包括:
5.将当前文本输入到预训练的文本重写模型,其中,所述当前文本包括至少一个当前文本分词;
6.基于所述文本重写模型对所述当前文本进行第一预测处理,得到各个所述当前文本分词分别对应的第一生成预测概率,其中,所述第一生成预测概率表征所述文本重写模型将所述当前文本分词重写为目标文本分词进行输出的概率;
7.基于所述文本重写模型对所述当前文本进行第二预测处理,得到各个所述当前文本分词分别对应的第二生成预测概率,其中,所述第二生成预测概率表征所述文本重写模型将所述当前文本分词作为目标文本分词进行输出的概率;
8.基于所述文本重写模型对所述当前文本进行第三预测处理,得到各个所述当前文本分词分别对应的生成权重参数,其中,所述生成权重参数表征所述文本重写模型对于所述第一生成预测概率和所述第二生成预测概率的分布选择;
9.根据所有所述第一生成预测概率、所有所述第二生成预测概率和所有所述生成权
重参数,确定所述当前文本的输出概率分布;
10.基于所述文本重写模型,根据所述当前文本的输出概率分布对所述当前文本进行重写处理,得到目标文本。
11.在一些实施例,所述基于所述文本重写模型对所述当前文本进行第一预测处理,得到各个所述当前文本分词分别对应的第一生成预测概率,包括:
12.对于所述当前文本中的任意一个所述当前文本分词,基于所述文本重写模型对所述当前文本分词依次进行编码处理和解码处理,计算得到所述当前文本分词对应的第一生成预测概率。
13.在一些实施例,所述基于所述文本重写模型对所述当前文本进行第二预测处理,得到各个所述当前文本分词分别对应的第二生成预测概率,包括:
14.对于所述当前文本中的任意一个所述当前文本分词,基于所述文本重写模型对所述当前文本分词进行隐向量编码,计算得到携带所述当前文本分词的语义信息的目标隐向量;
15.基于所述文本重写模型,根据所述目标隐向量以及输入到所述文本重写模型中的预设目标文本,计算得到交叉注意力分数;
16.基于所述文本重写模型,根据所述交叉注意力分数计算得到所述当前文本分词对应的第二生成预测概率。
17.在一些实施例,所述文本重写模型配置编码器和解码器,所述基于所述文本重写模型对所述当前文本进行第三预测处理,得到各个所述当前文本分词分别对应的生成权重参数,包括:
18.基于所述编码器对所述当前文本进行编码,得到编码文本;
19.基于所述解码器对所述编码文本、第一概率分布向量和第二概率分布向量进行拼接处理,得到权重向量,其中,所述第一概率分布向量包括所有所述当前文本分词分别对应的第一生成预测概率,所述第二概率分布向量包括所有所述当前文本分词分别对应的第二生成预测概率;
20.基于预设转换函数对所述权重向量进行转换计算,得到各个所述当前文本分词分别对应的生成权重参数。
21.在一些实施例,所述基于所述文本重写模型,根据所述目标隐向量以及输入到所述文本重写模型中的预设目标文本,计算得到交叉注意力分数,包括:
22.从所述预设目标文本中查找得到预设当前分词,提取所述预设目标文本中位于所述预设当前分词之前的预确定的所有预设历史分词,其中,所述预设当前分词与所述当前文本分词对应;
23.基于所述文本重写模型,根据所述目标隐向量和所有所述预设历史分词,计算得到交叉注意力分数。
24.在一些实施例,所述编码文本包括至少一个编码文本分词,所述基于所述解码器对所述编码文本、第一概率分布向量和第二概率分布向量进行拼接处理,得到权重向量之前,还包括:
25.对所述编码文本中的任意一个或多个所述编码文本分词进行随机替换。
26.在一些实施例,所述将当前文本输入到预训练的文本重写模型之前,还包括:
27.将历史目标文本和文本提示信息输入到所述文本重写模型,其中,所述文本提示信息用于描述所述历史目标文本的内容;
28.以所述历史目标文本作为标签,基于所述文本提示信息对所述文本重写模型进行训练,得到预训练的所述文本重写模型。
29.为实现上述目的,本技术实施例的第二方面提出了一种文本重写装置,所述装置包括:
30.文本输入模块,用于将当前文本输入到预训练的文本重写模型,其中,所述当前文本包括至少一个当前文本分词;
31.第一预测处理模块,用于基于所述文本重写模型对所述当前文本进行第一预测处理,得到各个所述当前文本分词分别对应的第一生成预测概率,其中,所述第一生成预测概率表征所述文本重写模型将所述当前文本分词重写为目标文本分词进行输出的概率;
32.第二预测处理模块,用于基于所述文本重写模型对所述当前文本进行第二预测处理,得到各个所述当前文本分词分别对应的第二生成预测概率,其中,所述第二生成预测概率表征所述文本重写模型将所述当前文本分词作为目标文本分词进行输出的概率;
33.第三预测处理模块,用于基于所述文本重写模型对所述当前文本进行第三预测处理,得到各个所述当前文本分词分别对应的生成权重参数,其中,所述生成权重参数表征所述文本重写模型对于所述第一生成预测概率和所述第二生成预测概率的分布选择;
34.输出确定模块,用于根据所有所述第一生成预测概率、所有所述第二生成预测概率和所有所述生成权重参数,确定所述当前文本的输出概率分布;
35.重写处理模块,用于基于所述文本重写模型,根据所述当前文本的输出概率分布对所述当前文本进行重写处理,得到目标文本。
36.为实现上述目的,本技术实施例的第三方面提出了一种电子设备,所述电子设备包括内存和处理器,所述内存存储有计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的方法。
37.为实现上述目的,本技术实施例的第四方面提出了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面所述的方法。
38.本技术提出的文本重写方法和装置、电子设备及存储介质,通过预训练的文本重写模型对当前文本进行第一预测处理以确定当前文本中的当前文本分词被重写为目标文本分词的概率,以及通过文本重写模型对当前文本分词进行第二预测处理以确定直接输出当前文本分词为目标文本分词的概率,以及通过文本重写模型对当前文本分词进行第三预测处理以确定对于第一生成预测概率和第二生成预测概率的分布选择,能够提升文本重写模型对于当前文本的理解准确度,精准确定问题对应的目标文本分词的生成概率,从而能够根据所有第一生成预测概率、第二生成预测概率和生成权重参数确定当前文本的输出概率分布,以便于根据当前文本的输出概率分布对当前文本进行重写处理而得到所需求的目标文本,给出更加准确的回复内容。
附图说明
39.图1是本技术一个实施例提供的文本重写方法的流程图;
40.图2是图1中的步骤s101之前的流程图;
41.图3是图1中的步骤s102的流程图;
42.图4是图1中的步骤s103的流程图;
43.图5是图1中的步骤s104的流程图;
44.图6是图4中的步骤s402的流程图;
45.图7是图5中的步骤s502之前的流程图;
46.图8是本技术一个实施例提供的文本重写模型的原理示意图;
47.图9是本技术一个实施例提供的文本重写装置的结构示意图;
48.图10是本技术一个实施例提供的电子设备的硬件结构示意图。
具体实施方式
49.为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本技术,并不用于限定本技术。
50.需要说明的是,虽然在装置示意图中进行了功能模块划分,在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于装置中的模块划分,或流程图中的顺序执行所示出或描述的步骤。说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
51.除非另有定义,本文所使用的所有的技术和科学术语与属于本技术的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本技术实施例的目的,不是旨在限制本技术。
52.首先,对本技术中涉及的若干名词进行解析:
53.人工智能(artificial intelligence,ai):是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学;人工智能是计算机科学的一个分支,人工智能企图了解智能的实质,并生产出一种新的能以人类智慧相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能可以对人的意识、思维的信息过程的模拟。人工智能还是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
54.自然语言处理(natural language processing,nlp):nlp用计算机来处理、理解以及运用人类语言(如中文、英文等),nlp属于人工智能的一个分支,是计算机科学与语言学的交叉学科,又常被称为计算语言学。自然语言处理包括语法分析、语义分析、篇章理解等。自然语言处理常用于机器翻译、手写体和印刷体字符识别、语音识别及文语转换、信息意图识别、信息抽取与过滤、文本分类与聚类、舆情分析和观点挖掘等技术领域,它涉及与语言处理相关的数据挖掘、机器学习、知识获取、知识工程、人工智能研究和与语言计算相关的语言学研究等。
55.人们在日常生活中可以通过问答逐步的接收、传递信息,对话式问答模型就是令机器仿照人类的方式,根据材料和多轮问答信息回答当前问题。人们在对话中,习惯于用一些代词代替前面对话中已经提到过的名字或者事情,例如参照如下对话示例内容,包括:“q:how tall is messi?a:officially he is 5ft 7 inches”、“q:who do you like best,he or c.ronaldo?a:c.ronaldo”,或者直接省略掉对话中的一些内容,例如参照如下对话示例内容,包括:“q:why?”,虽然使用指代词或者省略词对人们来说,是非常方便又容易理解的,但是对于对话模型而言,指代词和省略词的存在使得语句内容可能存在指代不清和语句内容缺失,机器将很难从历史问答信息中准确的理解问题中的代词具体表示什么,也很难理解对话中缺失的内容具体是什么,造成对问题的理解能力会大打折扣,从而可能给出不准确的回复内容。因此,针对对话模型如何提升对于问题的理解准确度、给出更加准确的回复内容,成为了亟待解决的技术问题。
56.基于此,本技术实施例提供了一种文本重写方法和装置、电子设备及存储介质,旨在提升对话模型对于问题的理解准确度。
57.本技术实施例提供的文本重写方法和装置、电子设备及存储介质,具体通过如下实施例进行说明,首先描述本技术实施例中的文本重写方法。
58.本技术实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(artificial intelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
59.人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
60.本技术实施例提供的文本重写方法,涉及医疗技术领域。本技术实施例提供的文本重写方法可应用于终端中,也可应用于服务器端中,还可以是运行于终端或服务器端中的软件。在一些实施例中,终端可以是智慧手机、平板计算机、笔记本电脑、台式计算机等;服务器端可以配置成独立的物理服务器,也可以配置成多个物理服务器构成的服务器集群或者分布式系统,还可以配置成提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、cdn以及大数据和医疗平台等基础云计算服务的云服务器;软件可以是实现文本重写方法的应用等,但并不局限于以上形式。
61.本技术可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可程序设计的消费电子设备、网络pc、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本技术可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本技术,在这些分布式计算环境中,由通过通信网路而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
62.需要说明的是,在本技术的各个具体实施方式中,当涉及到需要根据用户信息、用户行为数据,用户历史数据以及用户位置信息等与用户身份或特性相关的资料进行相关处理时,例如在本技术的具体实施方式中需要获取可能与用户相关的当前文本或者由用户提供的当前文本等,都会先获得用户的许可或者同意,然后再针对这些数据进行相关处理,而
且,对这些资料的收集、使用和处理等,都会遵守相关国家和地区的相关法律法规和标准。此外,当本技术实施例需要获取用户的敏感个人信息时,会通过弹窗或者跳转到确认页面等方式获得使用者的单独许可或者单独同意,在明确获得用户的单独许可或者单独同意之后,再获取用于使本技术实施例能够正常运行的必要的用户相关数据。
63.图1是本技术实施例提供的文本重写方法的一个可选的流程图,图1中的方法可以包括但不限于包括步骤s101至步骤s106。
64.步骤s101,将当前文本输入到预训练的文本重写模型,其中,当前文本包括至少一个当前文本分词;
65.步骤s102,基于文本重写模型对当前文本进行第一预测处理,得到各个当前文本分词分别对应的第一生成预测概率,其中,第一生成预测概率表征文本重写模型将当前文本分词重写为目标文本分词进行输出的概率;
66.步骤s103,基于文本重写模型对当前文本进行第二预测处理,得到各个当前文本分词分别对应的第二生成预测概率,其中,第二生成预测概率表征文本重写模型将当前文本分词作为目标文本分词进行输出的概率;
67.步骤s104,基于文本重写模型对当前文本进行第三预测处理,得到各个当前文本分词分别对应的生成权重参数,其中,生成权重参数表征文本重写模型对于第一生成预测概率和第二生成预测概率的分布选择;
68.步骤s105,根据所有第一生成预测概率、所有第二生成预测概率和所有生成权重参数,确定当前文本的输出概率分布;
69.步骤s106,基于文本重写模型,根据当前文本的输出概率分布对当前文本进行重写处理,得到目标文本。
70.本技术实施例所示意的步骤s101至步骤s106,通过预训练的文本重写模型对当前文本进行第一预测处理以确定当前文本中的当前文本分词被重写为目标文本分词的概率,以及通过文本重写模型对当前文本分词进行第二预测处理以确定直接输出当前文本分词为目标文本分词的概率,以及通过文本重写模型对当前文本分词进行第三预测处理以确定对于第一生成预测概率和第二生成预测概率的分布选择,能够提升文本重写模型对于当前文本的理解准确度,精准确定问题对应的目标文本分词的生成概率,从而能够根据所有第一生成预测概率、第二生成预测概率和生成权重参数确定当前文本的输出概率分布,以便于根据当前文本的输出概率分布对当前文本进行重写处理而得到所需求的目标文本,给出更加准确的回复内容。
71.在一些实施例的步骤s101中,当前文本分词的数量和内容不限定,可以由具体的当前文本的结构、形式等进行确定,例如可以为用户的对话语料、用户的线上对话文本等,相应地,文本重写模型的具体内容、形式也可以根据当前文本分词而进一步匹配设置,以医疗领域为例,患者首先问“肿瘤科的预约时间为每天的什么时候”,那么从中可以确定两个当前文本分词“肿瘤科”和“预约时间”;需要说明的是,当前文本分词可以为单个词语或短语,也可以指多个词语或短语的特定或非特定组合等,本领域技术人员可以根据具体应用场景进行选择设置,此处并未限定。
72.在一些实施例的步骤s101中,考虑到提高文本重写模型的理解能力,可以使用来自多个领域的多轮问答数据集对其进行训练,该数据集的每个会话可以包含多轮问答,且
问答之间都有较强的连贯性,尤其是,该数据集中的每个问题都包含相应的人工标注的不含指代词和实体词的完整问题,也就是说,该数据集为具有完整数据的数据集,以之作为文本重写模型进行训练的标签,效果较好。
73.请参阅图2,在一些实施例中,步骤s101之前还可以包括但不限于包括步骤s201至步骤s202:
74.步骤s201,将历史目标文本和文本提示信息输入到文本重写模型,其中,文本提示信息用于描述历史目标文本的内容;
75.步骤s202,以历史目标文本作为标签,基于文本提示信息对文本重写模型进行训练,得到预训练的文本重写模型。
76.本步骤中,由于在训练文本重写模型时,需要以完整文本进行训练的效果则更好,因此以历史目标文本作为标签,并且利用文本提示信息描述历史目标文本的内容,以便于在训练时能够较好地提取历史目标文本的内容信息,从而能够取得更加良好的训练效果。
77.在一些实施例的步骤s201中,历史目标文本可以为标准的历史问答对,即不存在指代不清和语句内容缺失的一组或多组问答对,以之作为参照,在不同应用场景中可以分别选择相适配的历史目标文本。
78.为了更好地说明上述各实施例的工作原理及内容,以下给出一个具体示例进行说明。
79.示例一:
80.由于文本重写模型需要同时根据材料和历史问答信息改写输入的当前文本,所以当对问题进行改写时,模型的输入可以包括三部分:材料、历史问答对和当前问题(即当前文本);为了使得文本重写模型输入保持整体连贯性,可以给输入内容的各部分都加入一些提示,并利用提示词将输入的各部分内容连接起来,成为一个整体连贯的输入,例如,对问题改写时的文本重写模型的训练输入格式设置为:“answer the last question based on the information contained in the passage.if there is no answer in the passage,say"unknown"、context:材料文本、history question:历史问答对、history:需要改写的问题”。可以看出,加入提示词不仅能使模型输入更加连贯,而且使得训练过程更加接近t5(text-to-text transfer transformer,文本到文本转换)模型的训练过程,也就是说,t5模型在训练时针对不同任务都添加了不同的提示,例如摘要任务,t5在模型输入文本前加入了提示“summary”,近似的训练方式可以近似地利用t5模型在预训练中学习到的知识,进一步优化对于文本重写模型的训练效果。
81.请参阅图3,在一些实施例中,步骤s102可以包括但不限于包括步骤s301:
82.步骤s301,对于当前文本中的任意一个当前文本分词,基于文本重写模型对当前文本分词依次进行编码处理和解码处理,计算得到当前文本分词对应的第一生成预测概率。
83.本步骤中,通过对当前文本中的任意一个当前文本分词进行编码处理和解码处理,可以得到关于各个当前文本分词的词典的概率分布,进而通过该概率分布中的相应概率(即第一生成预测概率)大小输出目标文本分词,也就是说,通过解析各个当前文本分词对应的第一生成预测概率,有利于从整体上确定各个当前文本分词的输出分布情况,以便于更准确地输出目标文本分词,更具体地,
84.对于一个输入序列x={x1,x2,
…
,xn}而言,第一生成概率是指文本重写模型对输入序列进行编码、解码计算后,所得到的关于词典的概率分布,可以通过该分布中的概率大小输出目标输出词yj,与t5模型相类似,可以直接使用预训练的t5模型中解码器的最后隐藏层第j个输出向量作为该模型的生成词yj概率分布p
vocab
。
85.在一些实施例的步骤s301中,编码处理可以依靠文本重写模型中预配置的编码器进行实现,解码处理可以依靠文本重写模型中预配置的解码器进行实现,由于编码与解码属于本领域常用技术手段,为免冗余,此处不再赘述,后续将结合具体实施例进行说明。
86.请参阅图4,在一些实施例中,步骤s103可以包括但不限于包括步骤s401至步骤s403:
87.步骤s401,对于当前文本中的任意一个当前文本分词,基于文本重写模型对当前文本分词进行隐向量编码,计算得到携带当前文本分词的语义信息的目标隐向量;
88.步骤s402,基于文本重写模型,根据目标隐向量以及输入到文本重写模型中的预设目标文本,计算得到交叉注意力分数;
89.步骤s403,基于文本重写模型,根据交叉注意力分数计算得到当前文本分词对应的第二生成预测概率。
90.本步骤中,通过隐向量编码以获取携带当前文本分词的语义信息的目标隐向量,该目标隐向量可以配合输入到文本重写模型中的预设目标文本,使得文本重写模型基于此计算得到交叉注意力分数,以便于根据交叉注意力分数准确地计算得到当前文本分词对应的第二生成预测概率,更具体地,第二生成预测概率p
copy
实质是让模型的输出指向输入文本中的某部分,即预测输入文本中的哪部分内容可以直接作为输出结果。对于输入文本序列x={x1,x2,
…
,xn},文本重写模型在推理过程中将分别用编码器对x编码,并输出蕴含x语义信息的隐向量h={h1,h2,
…
,hk},这一过程为该模型理解输入序列的过程;然后隐向量h将被输入到模型的编码器中,用于推理计算输出序列的第二生成预测概率。且在训练过程中,预设的目标序列y={y1,y2,
…
,ym}也将被输入到编码器,用于指导模型预测输出词,即在推理预测yj时,该模型可以同时利用真实的目标序列中的前j-1个字符{y1,y2,
…
,y
j-1
}和隐向量h计算交叉注意力分数,通过该分数进一步解码计算得到最终的第二生成预测概率,换言之,这一过程相当于人们在听别人说话时,能够根据前面的内容和相关提示猜到这个人下一个词将要说什么,而这里计算出的交叉注意力分数体现了输入序列对模型预测yj的重要程度,它包含了输入序列的语义信息,所以可以直接将关于yj的注意力得分作为复制概率。由于使用了t5模型的预训练参数,所以对于输出yj,也可以直接使用线性层将预训练参数中的交叉注意力分数在第j个位置的权重向量{l1,l2,
…
,ln}的维度转换为词典大小后,以之作为第二生成预测概率p_copy,该概率分布决定了输入序列中每个文本分词在输出序列的第j个位置被复制输出的概率。
91.在一些实施例的步骤s402中,预设目标文本的类型和内容均不限制,可以根据具体应用场景进行选择设置,例如可以是相关的一个或多个历史目标文本;计算交叉注意力分数的具体方式也可以由本领域技术人员根据实际应用场景进行选择,此处并未限定。
92.请参阅图5,在一些实施例中,当文本重写模型配置编码器和解码器,步骤s104可以包括但不限于包括步骤s501至s503:
93.步骤s501,基于编码器对当前文本进行编码,得到编码文本;
94.步骤s502,基于解码器对编码文本、第一概率分布向量和第二概率分布向量进行拼接处理,得到权重向量,其中,第一概率分布向量包括所有当前文本分词分别对应的第一生成预测概率,第二概率分布向量包括所有当前文本分词分别对应的第二生成预测概率;
95.步骤s503,基于预设转换函数对权重向量进行转换计算,得到各个当前文本分词分别对应的生成权重参数。
96.本步骤中,在计算得到第一生成预测概率和第二生成预测概率的基础上,生成第一概率分布向量和第二概率分布向量,并且通过解码器对编码文本、第一概率分布向量和第二概率分布向量进行拼接处理,得到权重向量,以对当前文本分词选择第一生成预测的概率分布还是第二生成预测的概率分布进行权衡,从而能够更加可靠地输出当前文本分词对应的目标文本分词,更具体地,当模型在预测输出目标词yj时,为了权衡一个目标词是应该生成还是复制,可以计算一个衡量第一生成预测概率和第二生成预测概率的权重参数p
gen
,由于权重参数p
gen
体现了模型在预测yj对两种概率分布的选择,所以可以将解码器的输入序列、第一概率分布向量和第二概率分布向量相结合,用于计算这一权重;例如,对这三个向量在同纬度拼接,假设三个向量为:[1,2,3],[4,5,6],[7,8,9],那么同纬度拼接后得到[[1,2,3],[4,5,6],[7,8,9]],最后将拼接后的向量经过sigmoid函数计算得到维度为词典大小的权重参数p
gen
。
[0097]
在一些实施例的步骤s502和步骤s503中,除了上述实施例中描述的sigmoid函数可以作为预设转换函数,还可以根据具体应用场景选择其他的预设转换函数,此处并未限定;对编码文本、第一概率分布向量和第二概率分布向量进行拼接处理的方式还可以有更多种,本领域技术人员可以根据相关应用场景进行选择设置,此处也并未限定。
[0098]
请参阅图6,在一些实施例,步骤s402还包括但不限于包括步骤s601至步骤s602:
[0099]
步骤s601,从预设目标文本中查找得到预设当前分词,提取预设目标文本中位于预设当前分词之前的预确定的所有预设历史分词,其中,预设当前分词与当前文本分词对应;
[0100]
步骤s602,基于文本重写模型,根据目标隐向量和所有预设历史分词,计算得到交叉注意力分数。
[0101]
本步骤中,由于预设目标文本为标准文本,即为不存在指代不清和语句内容缺失的文本,因此可以将预设目标文本中的一些历史分词以作为参考分词,进而考虑到目标隐向量的影响,基于文本重写模型根据目标隐向量和所有预设历史分词,可以便捷地计算得到交叉注意力分数,提高交叉注意力分数的计算准确度。
[0102]
在一些实施例的步骤s601中,预设当前分词与当前文本分词对应,表示预设当前分词在预设目标文本中的序列号与当前文本分词在当前文本中的序列号是一致的,例如预设当前分词为预设目标文本中的第5个词,当前文本分词则为当前文本中的第5个词,此时需要提取预设目标文本中的前4个词进行计算。
[0103]
请参阅图7,在一些实施例,步骤s502之前还包括但不限于包括步骤s701:
[0104]
步骤s701,对编码文本中的任意一个或多个编码文本分词进行随机替换。
[0105]
本步骤中,通过对编码文本中的任意一个或多个编码文本分词进行随机替换,从而能够针对编码文本产生负样本,降低文本重写模型在生成词语阶段对于标签词的依赖,防止产生过大的暴露偏差,也就是说,该模型在没有标签词提示的情况下可能无法正常生
成文本,使用随机采样的方法替换了解码器的输入序列中的词,从而产生负样本,减少模型在生成阶段对标签词的依赖,例如,对于模型解码器的输入文本序列“why do you like c.ronaldo best”,用随机概率随机替换其中的一些词,即变为“why do messi like c.ronaldo best”,从而产生一些负样本,减少文本重写模型在推理生成输出序列时对于真实目标序列的依赖。
[0106]
为了更好地说明上述各实施例的工作原理及内容,以下给出另一个具体示例进行说明。
[0107]
示例二:
[0108]
请参阅图8,示出了本技术实施例的一种文本重写模型的原理示意图。
[0109]
考虑到传统的重写模型在生成文本时,一般通过编码器理解输入文本中的语义信息,并将文本中蕴含的语义信息编码为计算机可以理解的语义向量,然后通过解码器解码该语义向量,得到一个关于字典的概率分布,最后依据概率选择字典中的字词逐个的生成目标文本,但这样进行文本生成的弊端则是字典中不包含的词是无法被模型预测生成的。而对于重写任务,模型输入和输出之间的重叠度较高,且通常会是某些关键词句,例如一些专有名称等,所以若字典中没有这些词语则可能丢失这些关键信息。
[0110]
参照图8,在本技术实施例中,添加了复制机制的文本重写模型在预测yj时,不仅用到了关于词典的概率分布,还利用了编码器和解码器关于x的交叉注意力分数以一同决定yj的输出,即添加了复制机制的模型的输出中的一部分词可以通过传统方式预测,另一部分词可以直接复制输入文本,这样既可以保留t5模型生成新词的能力,又可以借助复制机制准确的从源输入中复制信息,从而降低模型对这部分内容进行生成时造成的偏差,结合前述实施例中给出的计算方式可知,文本重写模型的输入包括提示前缀资料、历史问答以及当前需要重写的问题,经过编码器实现隐藏层输出、向量拼接之后,通过解码器基于输入到解码器的人工重写的问题(即预设目标文本)配合线性层进行组合计算之后,生成权重参数p
gen
、复制概率分布p
copy
以及生成概率分布p
vocab
,最终输出预测的词分布为:p
gen
*p
vocab
+(1-p
gen
)*p
copy
,即文本重写模型在最后的推理生成阶段,可以以一定的概率直接复制输入或者生成新词作为下一个输出词。
[0111]
需要说明的是,在进行对话重写任务中,为避免生成模型对一些实体词进行再生成创作,例如期望文本重写模型在对实体词“bei j ing university”重写时,仍将该实体词视作一个整体,但该模型在对句子重写的过程中,很有可能将其拆分成两个词“bei j ing”、“university”而出现在句子中的不同位置。为了改善这种情况,在模型训练中加入了辅助任务:通过线性分类层判断输入序列中的每个词是否是可以直接被复制作为输出。对于一个输入序列x={x1,x2,
…
,xn},可以计算出关于输入序列在输出序列第j个位置的第二生成概率分布p
copy
={l1,l2,
…
,ln},为了保证连续的实体词被完整复制,通过额外的线性分类层,让模型通过复制概率分布p
copy
={l1,l2,
…
,ln}判断每个词是否应该被复制,通过这样的方式,使得模型在选择复制输入序列中的词时会更加准确,并且对于输入序列和输出序列中都存在的词,通过训练使得模型会提高对这些词的关注度,能够避免在复制输入序列时出现复制内容包含不全面的问题。更具体的,如图8所示,在文本重写模型的基础上加入两层线性分类层,即在预测输出词yj时,同时将第二生成概率分布p
copy
={l1,l2,
…
,ln}输入到所加入的两层线性分类层中,用于判断输入序列中的每个词是否出现在输出序列
中。其中,分类层的目标是最小化二元交叉熵损失,最后将分类层的损失函数加入到模型总的损失函数上,通过最小化损失促使模型着重关注输入序列中的词是否该被复制。
[0112]
综上所述,本技术实施例的文本重写方法可以提升模型在问题理解上的准确率,改善指代词和省略词造成的文本语义模糊和语义不完善问题。通过重写后的问题或文本,可以更加充分的理解提问者的意图,从而给出更加准确的回复,尤其是,在模型的输入端使用描述性提示连接不同的输入部分,使模型的输入作为一个连续的整体,从而可以更好的使用模型在预训练阶段学习到的知识,提高模型的生成性能,并且通过在训练中加入多任务训练目标,即随机改变文本中的词语以形成负样本,这促使模型对输入序列有更丰富的语义理解,从而能够更加准确的预测输出词。因此,对于不同领域的输入文本,使得模型都有较稳定的重写能力,这不仅适用于对话系统,还可以用于其他句子重写任务,例如文本风格转换等,此处并未限定。
[0113]
请参阅图9,本技术实施例还提供一种文本重写装置,可以实现上述文本重写方法,该装置包括:
[0114]
文本输入模块,用于将当前文本输入到预训练的文本重写模型,其中,当前文本包括至少一个当前文本分词;
[0115]
第一预测处理模块,用于基于文本重写模型对当前文本进行第一预测处理,得到各个当前文本分词分别对应的第一生成预测概率,其中,第一生成预测概率表征文本重写模型将当前文本分词重写为目标文本分词进行输出的概率;
[0116]
第二预测处理模块,用于基于文本重写模型对当前文本进行第二预测处理,得到各个当前文本分词分别对应的第二生成预测概率,其中,第二生成预测概率表征文本重写模型将当前文本分词作为目标文本分词进行输出的概率;
[0117]
第三预测处理模块,用于基于文本重写模型对当前文本进行第三预测处理,得到各个当前文本分词分别对应的生成权重参数,其中,生成权重参数表征文本重写模型对于第一生成预测概率和第二生成预测概率的分布选择;
[0118]
输出确定模块,用于根据所有第一生成预测概率、所有第二生成预测概率和所有生成权重参数,确定当前文本的输出概率分布;
[0119]
重写处理模块,用于基于文本重写模型,根据当前文本的输出概率分布对当前文本进行重写处理,得到目标文本。
[0120]
该文本重写装置的具体实施方式与上述文本重写方法的具体实施例基本相同,属于相同的发明构思,在此不再赘述。
[0121]
本技术实施例还提供了一种电子设备,电子设备包括内存和处理器,内存存储有计算机程序,处理器执行计算机程序时实现上述文本重写方法。该电子设备可以为包括平板计算机、车载计算机等任意智能终端。
[0122]
请参阅图10,图10示意了另一实施例的电子设备的硬件结构,电子设备包括:
[0123]
处理器901,可以采用通用的cpu(centralprocessingunit,中央处理器)、微处理器、应用专用集成电路(applicationspecificintegratedcircuit,asic)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本技术实施例所提供的技术方案;
[0124]
内存902,可以采用只读存储器(readonlymemory,rom)、静态存储设备、动态存储设备或者随机存取内存(randomaccessmemory,ram)等形式实现。内存902可以存储操作系
统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在内存902中,并由处理器901来调用执行本技术实施例的文本重写方法;
[0125]
输入/输出接口903,用于实现信息输入及输出;
[0126]
通信接口904,用于实现本设备与其他设备的通信交互,可以通过有线方式(例如usb、网线等)实现通信,也可以通过无线方式(例如移动网络、wifi、蓝牙等)实现通信;
[0127]
总线905,在设备的各个组件(例如处理器901、内存902、输入/输出接口903和通信接口904)之间传输信息;
[0128]
其中处理器901、内存902、输入/输出接口903和通信接口904通过总线905实现彼此之间在设备内部的通信连接。
[0129]
本技术实施例还提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述文本重写方法。
[0130]
内存作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序以及非瞬时性计算机可执行程序。此外,内存可以包括高速随机存取内存,还可以包括非瞬时内存,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态内存件。在一些实施方式中,内存可选包括相对于处理器远程设置的内存,这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
[0131]
本技术实施例描述的实施例是为了更加清楚的说明本技术实施例的技术方案,并不构成对于本技术实施例提供的技术方案的限定,本领域技术人员可知,随着技术的演变和新应用场景的出现,本技术实施例提供的技术方案对于类似的技术问题,同样适用。
[0132]
上述对本技术特定实施例进行了描述,其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,附图中描绘的过程不一定必须按照示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
[0133]
本技术中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、设备、计算机可读存储介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
[0134]
本技术实施例提供的装置、设备、计算机可读存储介质与方法是对应的,因此,装置、设备、非易失性计算机存储介质也具有与对应方法类似的有益技术效果,由于上面已经对方法的有益技术效果进行了详细说明,因此,这里不再赘述对应装置、设备、计算机存储介质的有益技术效果。
[0135]
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。
[0136]
例如,可编程逻辑器件(programmable logic device,pld)(例如现场可编程门阵
列(field programmable gate array,fpga))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片pld上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(l ogic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(hardware description language,hdl),而hdl也并非仅有一种,而是有许多种,例如:
[0137]
abel(advanced boolean expression language);ahdl(altera hardware description language);confluence;cupl(cornell university programming language);hdcal;以及jhdl(java hardware description language);lava、lola、myhdl、palasm、rhdl(ruby hardware description language)等;目前,在本领域技术之中,相比之下更加较为常用的是vhdl(very-high-speed integrated circuit hardware description language)以及语言verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
[0138]
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(application specific integrated circuit,asic)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:
[0139]
arc 625d、atmel at91sam、microchip地址pic18f26k20以及silicone labs c8051f320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
[0140]
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
[0141]
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本技术实施例时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
[0142]
本领域内的技术人员应明白,本技术实施例可提供为方法、系统、或计算机程序产品。因此,本技术实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本技术实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0143]
本说明书是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0144]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0145]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0146]
在一个典型的配置中,计算设备包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。
[0147]
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flash ram)。内存是计算机可读介质的示例。
[0148]
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带式磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
[0149]
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
[0150]
本技术实施例中,“至少一个”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示单独存在a、同时存在a和b、单独存在b的情况。其中a,b可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项”及其类似表达,是指的这些项中的任意组合,包括单项或复数项的任意组合。例如,a,b和c中的至少一项可以表示:a,b,c,a和b,a和c,b和c或a和b和c,其中a,b,c可以是单个,也可以是多个。
[0151]
本技术实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本技术实施例,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
[0152]
本技术中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。对于本领域技术人员来说,本技术可以有各种更改和变化。凡在本技术的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本技术的权利要求范围之内。
技术特征:
1.一种文本重写方法,其特征在于,包括:将当前文本输入到预训练的文本重写模型,其中,所述当前文本包括至少一个当前文本分词;基于所述文本重写模型对所述当前文本进行第一预测处理,得到各个所述当前文本分词分别对应的第一生成预测概率,其中,所述第一生成预测概率表征所述文本重写模型将所述当前文本分词重写为目标文本分词进行输出的概率;基于所述文本重写模型对所述当前文本进行第二预测处理,得到各个所述当前文本分词分别对应的第二生成预测概率,其中,所述第二生成预测概率表征所述文本重写模型将所述当前文本分词作为目标文本分词进行输出的概率;基于所述文本重写模型对所述当前文本进行第三预测处理,得到各个所述当前文本分词分别对应的生成权重参数,其中,所述生成权重参数表征所述文本重写模型对于所述第一生成预测概率和所述第二生成预测概率的分布选择;根据所有所述第一生成预测概率、所有所述第二生成预测概率和所有所述生成权重参数,确定所述当前文本的输出概率分布;基于所述文本重写模型,根据所述当前文本的输出概率分布对所述当前文本进行重写处理,得到目标文本。2.根据权利要求1所述的文本重写方法,其特征在于,所述基于所述文本重写模型对所述当前文本进行第一预测处理,得到各个所述当前文本分词分别对应的第一生成预测概率,包括:对于所述当前文本中的任意一个所述当前文本分词,基于所述文本重写模型对所述当前文本分词依次进行编码处理和解码处理,计算得到所述当前文本分词对应的第一生成预测概率。3.根据权利要求1所述的文本重写方法,其特征在于,所述基于所述文本重写模型对所述当前文本进行第二预测处理,得到各个所述当前文本分词分别对应的第二生成预测概率,包括:对于所述当前文本中的任意一个所述当前文本分词,基于所述文本重写模型对所述当前文本分词进行隐向量编码,计算得到携带所述当前文本分词的语义信息的目标隐向量;基于所述文本重写模型,根据所述目标隐向量以及输入到所述文本重写模型中的预设目标文本,计算得到交叉注意力分数;基于所述文本重写模型,根据所述交叉注意力分数计算得到所述当前文本分词对应的第二生成预测概率。4.根据权利要求1所述的文本重写方法,其特征在于,所述文本重写模型配置编码器和解码器,所述基于所述文本重写模型对所述当前文本进行第三预测处理,得到各个所述当前文本分词分别对应的生成权重参数,包括:基于所述编码器对所述当前文本进行编码,得到编码文本;基于所述解码器对所述编码文本、第一概率分布向量和第二概率分布向量进行拼接处理,得到权重向量,其中,所述第一概率分布向量包括所有所述当前文本分词分别对应的第一生成预测概率,所述第二概率分布向量包括所有所述当前文本分词分别对应的第二生成预测概率;
基于预设转换函数对所述权重向量进行转换计算,得到各个所述当前文本分词分别对应的生成权重参数。5.根据权利要求3所述的文本重写方法,其特征在于,所述基于所述文本重写模型,根据所述目标隐向量以及输入到所述文本重写模型中的预设目标文本,计算得到交叉注意力分数,包括:从所述预设目标文本中查找得到预设当前分词,提取所述预设目标文本中位于所述预设当前分词之前的预确定的所有预设历史分词,其中,所述预设当前分词与所述当前文本分词对应;基于所述文本重写模型,根据所述目标隐向量和所有所述预设历史分词,计算得到交叉注意力分数。6.根据权利要求4所述的文本重写方法,其特征在于,所述编码文本包括至少一个编码文本分词,所述基于所述解码器对所述编码文本、第一概率分布向量和第二概率分布向量进行拼接处理,得到权重向量之前,还包括:对所述编码文本中的任意一个或多个所述编码文本分词进行随机替换。7.根据权利要求1所述的文本重写方法,其特征在于,所述将当前文本输入到预训练的文本重写模型之前,还包括:将历史目标文本和文本提示信息输入到所述文本重写模型,其中,所述文本提示信息用于描述所述历史目标文本的内容;以所述历史目标文本作为标签,基于所述文本提示信息对所述文本重写模型进行训练,得到预训练的所述文本重写模型。8.一种文本重写装置,其特征在于,所述装置包括:文本输入模块,用于将当前文本输入到预训练的文本重写模型,其中,所述当前文本包括至少一个当前文本分词;第一预测处理模块,用于基于所述文本重写模型对所述当前文本进行第一预测处理,得到各个所述当前文本分词分别对应的第一生成预测概率,其中,所述第一生成预测概率表征所述文本重写模型将所述当前文本分词重写为目标文本分词进行输出的概率;第二预测处理模块,用于基于所述文本重写模型对所述当前文本进行第二预测处理,得到各个所述当前文本分词分别对应的第二生成预测概率,其中,所述第二生成预测概率表征所述文本重写模型将所述当前文本分词作为目标文本分词进行输出的概率;第三预测处理模块,用于基于所述文本重写模型对所述当前文本进行第三预测处理,得到各个所述当前文本分词分别对应的生成权重参数,其中,所述生成权重参数表征所述文本重写模型对于所述第一生成预测概率和所述第二生成预测概率的分布选择;输出确定模块,用于根据所有所述第一生成预测概率、所有所述第二生成预测概率和所有所述生成权重参数,确定所述当前文本的输出概率分布;重写处理模块,用于基于所述文本重写模型,根据所述当前文本的输出概率分布对所述当前文本进行重写处理,得到目标文本。9.一种电子设备,其特征在于,所述电子设备包括内存和处理器,所述内存存储有计算机程序,所述处理器执行所述计算机程序时实现权利要求1至7任一项所述的文本重写方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的文本重写方法。
技术总结
本申请实施例提供了一种文本重写方法和装置、电子设备,属于医疗技术领域,通过预训练的文本重写模型对当前文本进行第一预测处理以确定当前文本分词被重写为目标文本分词的概率,以及通过文本重写模型对当前文本分词进行第二预测处理以确定直接输出当前文本分词为目标文本分词的概率,以及通过文本重写模型对当前文本分词进行第三预测处理以确定对于第一生成预测概率和第二生成预测概率的分布选择,能够提升文本重写模型对于当前文本的理解准确度,从而能够根据第一生成预测概率、第二生成预测概率和生成权重参数确定当前文本的输出概率分布,以便于根据输出概率分布进行重写处理而得到目标文本,以便于给出更加准确的回复内容。的回复内容。的回复内容。
技术研发人员:李志韬 王健宗 程宁
受保护的技术使用者:平安科技(深圳)有限公司
技术研发日:2023.05.31
技术公布日:2023/8/14
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
