基于检索增强的语句润色方法、装置、介质和计算设备与流程

未命名 10-19 阅读:92 评论:0


1.本发明的实施方式涉及文本处理技术领域,更具体地,本发明的实施方式涉及一种基于检索增强的语句润色方法、装置、介质和计算设备。


背景技术:

2.本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
3.文本细节润色是内容创作和辅助写作的重要环节,能够使描述性文本更具文学性和创造性,具有较高的研究和探索价值。为了辅助人类创作,提升写作水平,设计模型来进行自动化文本润色是十分有必要的。
4.近年来有很多基于语言模型的文本润色模型出现,然而,在实践中发现,现有的文本润色模型通常只会从预设的数据库中得到与需要被修饰的词语匹配的修饰词,并不会分析该修饰词是否能够对被修饰的词语进行合理的修饰,从而导致文本润色的效果较差。


技术实现要素:

5.在本上下文中,本发明的实施方式期望提供一种基于检索增强的语句润色方法、装置、介质和计算设备。
6.在本发明实施方式的第一方面中,提供了一种基于检索增强的语句润色方法,包括:
7.对待润色语句进行识别,得到所述待润色语句中的待修饰词;
8.从预设的修饰词数据库中获取与所述待修饰词匹配的候选修饰词;
9.获取所述待润色语句的前一语句和后一语句;
10.将所述候选修饰词、所述前一语句、所述待润色语句以及所述后一语句输入预先训练的文本润色模型,得到与所述待润色语句对应的已修饰语句。
11.在本实施方式的一个实施例中,所述对待润色语句进行识别,得到所述待润色语句中的待修饰词,包括:
12.对待润色语句进行语句分割,得到所述待润色语句对应的多个子句;
13.从所述多个子句中确定至少一个待润色子句;
14.对每一待润色子句进行识别,得到待修饰词。
15.在本实施方式的一个实施例中,所述从所述多个子句中确定至少一个待润色子句,包括:
16.确定各个子句中分别包含的被修饰词的第一数量和当前修饰词的第二数量;
17.将所述第一数量大于所述第二数量的子句确定为待润色子句。
18.在本实施方式的一个实施例中,所述对一个待润色子句进行识别,得到待修饰词,包括:
19.对一个待润色子句进行识别,确定所述待润色子句中包含的当前修饰词修饰的目
标被修饰词;
20.从所述待润色子句中包含的被修饰词中删除所述目标被修饰词,并将剩余的所述被修饰词确定为所述待润色子句对应的待修饰词。
21.在本实施方式的一个实施例中,所述待润色语句中包括至少一个待修饰词,一个所述待修饰词匹配至少一个候选修饰词;所述文本润色模型中包括编码器和解码器;
22.所述将所述候选修饰词、所述前一语句、所述待润色语句以及所述后一语句输入预先训练的文本润色模型,得到与所述待润色语句对应的已修饰语句,包括:
23.基于所述候选修饰词和所述待润色语句进行语句拼接,得到多个拼接语句;其中,所述候选修饰词用于修饰所述拼接语句中与所述候选修饰词匹配的待修饰词;任意两个所述拼接语句的内容均不相同;
24.根据所述前一语句、所述后一语句以及多个拼接语句,得到多个待检索增强语句;其中,一个待检索增强语句中包括一个拼接语句,且任意两个待检索增强语句均不相同;
25.根据多个所述待检索增强语句和所述编码器,得到各个所述待检索增强语句分别对应的编码信息矩阵;
26.将所述编码信息矩阵输入所述解码器,得到与所述待润色语句对应的已修饰语句。
27.在本实施方式的一个实施例中,所述根据多个所述待检索增强语句和所述编码器,得到各个所述待检索增强语句分别对应的编码信息矩阵,包括:
28.从各个所述待检索增强语句中提取词向量,得到多个词向量集合;其中,一个待检索增强语句对应一个词向量集合;一个词向量集合中包括多个词向量;所述词向量均包括词汇信息以及所述词汇信息在其所处的待检索增强语句中的位置信息;
29.将各个所述词向量集合分别输入所述编码器,得到各个所述待检索增强语句分别对应的编码信息矩阵。
30.在本实施方式的一个实施例中,所述将所述编码信息矩阵输入所述解码器,得到与所述待润色语句对应的已修饰语句,包括:
31.将所述编码信息矩阵输入所述解码器,得到第一预测词汇;
32.根据所述第一预测词汇构建预测语句;
33.将所述编码信息矩阵和所述预测语句输入所述解码器,得到第二预测词汇;
34.若所述第二预测词汇不为所述结束标识,则根据所述第二预测词汇对所述预测语句进行更新,并执行所述的将所述编码信息矩阵和所述预测语句输入所述解码器,得到第二预测词汇的步骤;
35.若所述第二预测词汇为结束标识,则将所述预测语句确定为所述待润色语句对应的已修饰语句。
36.在本实施方式的一个实施例中,所述文本润色模型的训练方式具体为:
37.对训练书籍进行识别,得到多个训练语句;
38.将每一训练语句进行拆分,得到每一训练语句分别对应的前一训练子句、当前训练子句以及后一训练子句;
39.对所述当前训练子句进行识别,得到所述当前训练子句中的训练修饰词;
40.将所述训练修饰词添加至预先构建的修饰词数据库中,并将所述训练修饰词从所
述当前训练子句中删除,得到目标训练子句;
41.基于所述修饰词数据库、所述前一训练子句、所述目标训练子句以及所述后一训练子句对文本润色模型进行训练,直至所述文本润色模型输出的预测语句与所述当前训练子句之间的损失小于预设阈值。
42.在本发明实施方式的第二方面中,提供了一种基于检索增强的语句润色装置,包括:
43.识别单元,用于对待润色语句进行识别,得到所述待润色语句中的待修饰词;
44.第一获取单元,用于从预设的修饰词数据库中获取与所述待修饰词匹配的候选修饰词;
45.第二获取单元,用于获取所述待润色语句的前一语句和后一语句;
46.输入单元,用于将所述候选修饰词、所述前一语句、所述待润色语句以及所述后一语句输入预先训练的文本润色模型,得到与所述待润色语句对应的已修饰语句。
47.在本发明实施方式的第三方面中,提供了一种计算设备,所述计算设备包括:至少一个处理器、存储器和输入输出单元;其中,所述存储器用于存储计算机程序,所述处理器用于调用所述存储器中存储的计算机程序来执行第一方面中任一项所述的方法。
48.在本发明实施方式的第四方面中,提供了一种计算机可读存储介质,其包括指令,当其在计算机上运行时,使得计算机执行第一方面中任一项所述的方法。
49.根据本发明实施方式的基于检索增强的语句润色方法、装置、介质和计算设备,能够从待润色语句中识别出待修饰词,并且可以从预设的修饰词数据库中获取与待修饰词匹配的候选修饰词,获取到的候选修饰词都可以对待修饰词进行修饰;获取到的候选修饰词均是从预设修饰词库中获取的,且预设修饰词库是基于标准自然语句数据集合获取的,即预设修饰词库中包括非常合理的修饰组合;以及可以将待润色语句的前一语句和后一语句与候选修饰词输入至预先训练的文本润色模型中,以使文本润色模型输出与待润色语句对应的已修饰语句,即得到的已修饰语句均对待润色语句中的待修饰词进行了修饰;可见,本发明实施方式得到的已修饰语句中对待修饰进行修饰的目标修饰词,不仅仅是文本润色模型基于待润色语句的语义在词库中得到的相对随机的词语,而是结合了候选修饰词的指导,得到的对待修饰词语修饰地较为准确的词语,从而提升了文本润色的效果。
附图说明
50.通过参考附图阅读下文的详细描述,本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若干实施方式,其中:
51.图1为本发明一实施例提供的基于检索增强的语句润色方法的流程示意图;
52.图2为本发明一实施例提供的待修饰词的识别方法的流程示意图;
53.图3为本发明一实施例提供的已修饰语句的获取方法的流程示意图;
54.图4为本发明一实施例提供的基于检索增强的语句润色装置的结构示意图;
55.图5为本发明一实施例提供的一种介质的结构示意图;
56.图6为本发明一实施例提供的一种计算设备的结构示意图。
57.在附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
58.下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明,而并非以任何方式限制本发明的范围。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
59.本领域技术人员知道,本发明的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。
60.根据本发明的实施方式,提出了一种基于检索增强的语句润色方法、装置、介质和计算设备。
61.需要说明的是,附图中的任何元素数量均用于示例而非限制,以及任何命名都仅用于区分,而不具有任何限制含义。
62.下面参考本发明的若干代表性实施方式,详细阐释本发明的原理和精神。
63.示例性方法
64.下面参考图1,图1为本发明一实施例提供的基于检索增强的语句润色方法的流程示意图。需要注意的是,本发明的实施方式可以应用于适用的任何场景。
65.图1所示的本发明一实施例提供的基于检索增强的语句润色方法的流程,包括:
66.步骤s101,对待润色语句进行识别,得到所述待润色语句中的待修饰词。
67.本发明实施例中,待修饰词可以为待润色语句中包含的名词或动词。可以先确定出待润色语句中包含的所有词汇,并且可以对每一个词汇进行词性识别,得到各个词汇的词性;词性可以为名词、动词、形容词、数词、量词、代词、副词以及介词等,对此,本发明实施例不做限定。之后,可以根据识别到的词性将动词词汇和名词词汇均确定为待修饰词。
68.本发明另一实施例中,为了提升确定待润色语句中待修饰词的效率,可以从待润色语句中确定出至少一个待润色子句,从待润色子句中确定出待修饰词,如图2所示,则上述步骤s101由以下步骤s201~步骤s203代替:
69.步骤s201,对待润色语句进行语句分割,得到所述待润色语句对应的多个子句。
70.本发明实施例中,待润色语句中自然可以包含一个或多个由标点符号分隔的子句,因此子句之间可以通过标点符号进行分隔。可见,可以通过标点符号对待润色语句进行分割。
71.举例来说:待润色语句可以为:秋天的校园仍旧光彩宜人,树依旧是那么绿,花儿好像不知道深秋已经来了,依旧竟香开放,依旧用它那芳香吸引着只只蜜蜂;蝴蝶依旧在校园里翩翩起舞,依旧用它那美丽的身影吸引着同学们的目光。
72.按照标点符号对待润色子句进行分割,可以得到以下多个子句:
73.《1》秋天的校园仍旧光彩宜人;
74.《2》树依旧是那么绿;
75.《3》花儿好像不知道深秋已经来了;
76.《4》依旧竟香开放;
77.《5》依旧用它那芳香吸引着只只蜜蜂;
78.《6》蝴蝶依旧在校园里翩翩起舞;
79.《7》依旧用它那美丽的身影吸引着同学们的目光。
80.具体的通过标点符号对待润色语句进行分割的方式可以为:
81.对待润色语句中的标点符号进行识别,得到待润色语句中的标点符号信息;其中,标点符号信息中可以包括各个标点符号的符号类型以及标点符号数量;符号类型可以包括标示类型和停顿类型;
82.若停顿类型对应的标点符号数量为1,则认为待润色语句中只有一个句子,无需对待润色语句进行分割;
83.若停顿类型对应的标点符号数量大于1,则以停顿类型的标点符号在待润色语句中的位置对待润色语句进行分割,得到待润色语句对应的多个子句;其中,得到的子句的数量与停顿类型对应的标点符号数量相同。
84.其中,实施这种实施方式,可以根据停顿类型的标点符号将待润色语句分割为一个或多个子句,以使得到的子句均可以表达完整意思,从而使得对子句的润色更加准确。
85.本发明实施例中,标示类型的标点符号可以为:引号(
“”‘’
)、括号〔()[]{}〕、破折号(——)、省略号(
……
)、着重号(.)、书名号(《》〈〉)、间隔号(
·
)、连接号(—)和专名号(____)、分隔号(/)等;停顿类型的标点符号可以为:句号(。)、问号(?)、叹号(!)、逗号(,)顿号(、)、分号(;)和冒号(:)等。
[0086]
此外,待润色语句中还可能存在长句,长句通常难以理解,因此可以将长句再次进行分割。具体的:可以对分割得到的子句的字数进行识别,若存在字数大于预设阈值的子句,可以将该子句确定为长句;此时,可以以长句中最后一个被修饰词为句尾,对该长句进行语句分割,得到该长句对应的对个子句,还可以保证分割后语句语义的完整性。
[0087]
步骤s202,从所述多个子句中确定至少一个待润色子句。
[0088]
本发明实施例中,如果一个子句中的每个能够被修饰的词汇均有修饰词进行了修饰,则该子句就无需进行润色;如果一个子句中存在未被修饰的词汇,则可以将该子句确定为待润色子句。
[0089]
作为一种可选的实施方式,步骤s202从所述多个子句中确定至少一个待润色子句的方式具体可以为:
[0090]
确定各个子句中分别包含的被修饰词的第一数量和当前修饰词的第二数量;
[0091]
将所述第一数量大于所述第二数量的子句确定为待润色子句。
[0092]
其中,实施这种实施方式,可以根据子句中的被修饰词的第一数量和当前修饰词的第二数量,来确定各个子句中的待润色子句;通常来说,一个子句中的一个修饰词可以修饰一个被修饰词,即一个子句中修饰词的数量与被修饰词的数量相同;因此,若一个子句中被修饰词的第一数量大于当前修饰词的第二数量,则可以认为该子句中存在未被修饰的被修饰词,则该子句可以被确定为待润色子句;通过这种方式可以更加准确地从多个子句中确认出每一待润色子句。
[0093]
步骤s203,对每一待润色子句进行识别,得到待修饰词。
[0094]
作为一种可选的实施方式,步骤s203对一个待润色子句进行识别,得到待修饰词的方式具体可以为:
[0095]
对一个待润色子句进行识别,确定所述待润色子句中包含的当前修饰词修饰的目标被修饰词;
[0096]
从所述待润色子句中包含的被修饰词中删除所述目标被修饰词,并将剩余的所述被修饰词确定为所述待润色子句对应的待修饰词。
[0097]
其中,实施这种实施方式,可以先确定出待润色子句中已经被当前修饰词进行修饰的目标被修饰词,再将目标被修饰词从待润色子句中存在的所有被修饰词中删除,剩余得到的未被修饰词修饰的被修饰词即为待润色子句的待修饰词;通过这种方式可以准确地得到待润色子句中当前未被修饰词修饰的待修饰词。
[0098]
此时,删除目标被修饰词只是为了得到待润色语子句中未被修饰的待修饰词;因此,在后续进行语句润色,即将待润色子句输入文本润色模型时,输入的是完整的包含目标被修饰词的语句,而不是被删除目标被修饰词的语句。
[0099]
实施上述的步骤s201~步骤s203,可以将待润色语句分割为多个子句,并且可以从多个子句中确定出至少一个待润色子句,从而无需对每一个子句进行待修饰词的识别,提升了确定待润色语句中待修饰词的效率。
[0100]
步骤s102,从预设的修饰词数据库中获取与所述待修饰词匹配的候选修饰词。
[0101]
本发明实施例中,预设的修饰词数据库可以通过从训练书籍中识别的美词构建得到。即可以通过文字识别(optical character recognition,ocr)技术从训练书籍中识别得到文字信息;并且可以对识别到的文字信息进行分析,得到修饰词组;该修饰词组可以由被修饰词和修饰词构成,修饰词对被修饰词进行修饰。
[0102]
步骤s103,获取所述待润色语句的前一语句和后一语句。
[0103]
本发明实施例中,待润色语句的前一语句和后一语句均为与待润色语句相邻的语句,且待润色语句的前一语句和后一语句均可以为空。
[0104]
步骤s104,将所述候选修饰词、所述前一语句、所述待润色语句以及所述后一语句输入预先训练的文本润色模型,得到与所述待润色语句对应的已修饰语句。
[0105]
本发明实施例中,所述待润色语句中包括至少一个待修饰词,一个所述待修饰词匹配至少一个候选修饰词;所述文本润色模型中包括编码器和解码器。
[0106]
本发明实施例中,预先训练的文本润色模型可以通过从训练书籍中得到的美句进行训练。所述文本润色模型的训练方式具体为:
[0107]
对训练书籍进行识别,得到多个训练语句;
[0108]
将每一训练语句进行拆分,得到每一训练语句分别对应的前一训练子句、当前训练子句以及后一训练子句;
[0109]
对所述当前训练子句进行识别,得到所述当前训练子句中的训练修饰词;
[0110]
将所述训练修饰词添加至预先构建的修饰词数据库中,并将所述训练修饰词从所述当前训练子句中删除,得到目标训练子句;
[0111]
基于所述修饰词数据库、所述前一训练子句、所述目标训练子句以及所述后一训练子句对文本润色模型进行训练,直至所述文本润色模型输出的预测语句与所述当前训练子句之间的损失小于预设阈值。
[0112]
举例来说,可以从训练书籍中通过ocr技术识别出海量训练语句;并且可以从训练语句中获取到连续的三条训练子句:前一训练子句m、当前训练子句t以及后一训练子句n,然后识别出t中的训练修饰词;以及将该训练修饰词增量更新至预先构建的修饰词数据库中;以及将删掉该训练修饰词的t作为目标训练子句s,将s与m和n输入文本润色模型,以使
文本润色模型输出预测语句。之后可以将预测语句与t进行对比,得到预测语句对应的损失;根据得到的损失对文本润色模型进行训练,直至文本润色模型对应的损失小于预设阈值,此时可以认为文本润色模型训练成功。
[0113]
本发明另一实施例中,为了提升对待修饰语句的润色效果,可以通过文本润色模型中包含的编码器和解码器,对输入的每一拼接语句、待润色语句的前一语句与后一语句进行分析,得到待润色语句对应的已修饰语句,如图3所示,则上述步骤s104由以下步骤s301~步骤s304代替:
[0114]
步骤s301,基于所述候选修饰词和所述待润色语句进行语句拼接,得到多个拼接语句。
[0115]
本发明实施例中,所述候选修饰词用于修饰所述拼接语句中与所述候选修饰词匹配的待修饰词;任意两个所述拼接语句的内容均不相同。
[0116]
本发明实施例中,待润色语句中被修饰词对应的候选修饰词可以有多个,一个拼接语句的一个被修饰词有且仅有一个候选修饰词。候选修饰词应被拼接至待润色语句中与被修饰词对应的位置处。
[0117]
步骤s302,根据所述前一语句、所述后一语句以及多个拼接语句,得到多个待检索增强语句。
[0118]
本发明实施例中,一个待检索增强语句中包括一个拼接语句,且任意两个待检索增强语句均不相同。
[0119]
步骤s303,根据多个所述待检索增强语句和所述编码器,得到各个所述待检索增强语句分别对应的编码信息矩阵。
[0120]
作为一种可选的实施方式,步骤s303根据多个所述待检索增强语句和所述编码器,得到各个所述待检索增强语句分别对应的编码信息矩阵的方式具体可以为:
[0121]
从各个所述待检索增强语句中提取词向量,得到多个词向量集合;其中,一个待检索增强语句对应一个词向量集合;一个词向量集合中包括多个词向量;所述词向量均包括词汇信息以及所述词汇信息在其所处的待检索增强语句中的位置信息;
[0122]
将各个所述词向量集合分别输入所述编码器,得到各个所述待检索增强语句分别对应的编码信息矩阵。
[0123]
其中,实施这种实施方式,可以对每一个待检索增强语句进行词向量的提取,得到待检索增强语句中每一个词对应的词向量;通过得到的词向量可以将词汇信息与该词汇在待检索增强语句中所处的位置进行关联,使得得到的词向量集合体现了每个词汇的词汇信息与位置之间的关联;以及将词向量集合输入编码器中,得到的各个待检索增强语句分别对应的编码信息矩阵可以更加清晰的体现每个待检索增强语句中词汇的含义与位置的关系,从而更加准确的得到每个待检索增强语句想要表达的含义。
[0124]
步骤s304,将所述编码信息矩阵输入所述解码器,得到与所述待润色语句对应的已修饰语句。
[0125]
作为一种可选的实施方式,步骤s304将所述编码信息矩阵输入所述解码器,得到与所述待润色语句对应的已修饰语句的方式具体可以为:
[0126]
将所述编码信息矩阵输入所述解码器,得到第一预测词汇;
[0127]
根据所述第一预测词汇构建预测语句;
[0128]
将所述编码信息矩阵和所述预测语句输入所述解码器,得到第二预测词汇;
[0129]
若所述第二预测词汇不为所述结束标识,则根据所述第二预测词汇对所述预测语句进行更新,并执行所述的将所述编码信息矩阵和所述预测语句输入所述解码器,得到第二预测词汇的步骤;
[0130]
若所述第二预测词汇为结束标识,则将所述预测语句确定为所述待润色语句对应的已修饰语句。
[0131]
其中,实施这种实施方式,可以将编码信息矩阵输入解码器,得到第一预测词汇;并且可以将编码信息矩阵和得到的第一预测词汇再次输入至解码器中,得到第二预测词汇;以及重复将编码信息矩阵以及第一预测词汇和第二预测词汇输入至解码器中得到的第二预测词汇的步骤,直至解码器预测得到结束标识,此时可以得到解码器预测的完整的已修饰语句;通过这种方式可以依次对解码器输出的已修饰语句中的每一个词汇进行预测,即编码器可以对得到的包含拼接了候选修饰词的待润色语句的所有输入信息进行编码,得到的编码信息矩阵可以受到拼接了候选修饰词的待润色语句的影响;以及解码器可以基于编码信息矩阵进行预测,得到预测信息;此时解码器还可以根据已经预测得到的预测信息,使解码器后续预测的词汇更加准确,从而提升了最终输出的已修饰语句的准确性。
[0132]
实施上述的步骤s301~步骤s304,可以将候选修饰词与待润色语句进行拼接,得到每一修饰词分别对应的拼接语句;并且可以通过文本润色模型中包含的编码器和解码器,对输入的每一拼接语句、待润色语句的前一语句与后一语句进行分析,得到待润色语句对应的已修饰语句;即对添加了候选修饰词的待润色语句及待润色语句的上下文同时进行分析,可以得到修饰效果最好的已修饰语句,提升了对待修饰语句的润色效果。
[0133]
举例来说,待润色语句可以为“秋天的校园仍旧光彩宜人,树依旧是那么绿,花儿好像不知道深秋已经来了,依旧竟香开放,依旧用它那芳香吸引着只只蜜蜂;蝴蝶依旧在校园里翩翩起舞,依旧用它那美丽的身影吸引着同学们的目光”。
[0134]
1、可以将待润色语句分割为多个子句:
[0135]
《1》秋天的校园仍旧光彩宜人
[0136]
《2》树依旧是那么绿
[0137]
《3》花儿好像不知道深秋已经来了
[0138]
《4》依旧竟香开放
[0139]
《5》依旧用它那芳香吸引着只只蜜蜂
[0140]
《6》蝴蝶依旧在校园里翩翩起舞
[0141]
《7》依旧用它那美丽的身影吸引着同学们的目光
[0142]
2、通过对子句中当前修饰词和被修饰词的数量,确定出待润色子句:
[0143]
《2》树依旧是那么绿
[0144]
《3》花儿好像不知道深秋已经来了
[0145]
《5》依旧用它那芳香吸引着只只蜜蜂
[0146]
《6》蝴蝶依旧在校园里翩翩起舞
[0147]
《7》依旧用它那美丽的身影吸引着同学们的目光
[0148]
3、从待润色子句中可以识别出待修饰词:树、花儿、蜜蜂、蝴蝶、同学以及目光;
[0149]
4、可以从预设的修饰词数据库中获取与待修饰词匹配的候选修饰词:茂盛、翠绿、
美丽、盛开、勤劳、可爱、漂亮、活泼、迷离等;
[0150]
5、可以将候选修饰词和待润色语句进行语句拼接,得到多个拼接语句:
[0151]
茂盛的树依旧是那么绿;
[0152]
翠绿的树依旧是那么绿;
[0153]
美丽的花儿好像不知道深秋已经来了;
[0154]
盛开的花儿好像不知道深秋已经来了;
[0155]
依旧用它那芳香吸引着只只勤劳的蜜蜂;
[0156]
依旧用它那芳香吸引着只只可爱的蜜蜂;
[0157]
漂亮的蝴蝶依旧在校园里翩翩起舞;
[0158]
依旧用它那美丽的身影吸引着活泼的同学们的迷离的目光;
[0159]
6、可以获取待润色语句的前一语句和后一语句,前一语句为“秋到了,走进空旷的校园,一阵冷风吹来,让人感到一阵凉意”,后一语句为“校园的花坛里落着从树上落下来的几片黄叶,人们的呼吸在空气中凝成了乳白色的热气”;
[0160]
7、根据前一语句、后一语句以及多个拼接语句,可以得到多个待检索增强语句:
[0161]
《1》秋到了,走进空旷的校园,一阵冷风吹来,让人感到一阵凉意。秋天的校园仍旧光彩宜人,茂盛的树依旧是那么绿,美丽的花儿好像不知道深秋已经来了,依旧竟香开放,依旧用它那芳香吸引着只只勤劳的蜜蜂;漂亮的蝴蝶依旧在校园里翩翩起舞,依旧用它那美丽的身影吸引着活泼的同学们的迷离的目光校园的花坛里落着从树上落下来的几片黄叶,人们的呼吸在空气中凝成了乳白色的热气。
[0162]
《2》秋到了,走进空旷的校园,一阵冷风吹来,让人感到一阵凉意。秋天的校园仍旧光彩宜人,茂盛的树依旧是那么绿,美丽的花儿好像不知道深秋已经来了,依旧竟香开放,依旧用它那芳香吸引着只只可爱的蜜蜂;漂亮的蝴蝶依旧在校园里翩翩起舞,依旧用它那美丽的身影吸引着活泼的同学们的迷离的目光校园的花坛里落着从树上落下来的几片黄叶,人们的呼吸在空气中凝成了乳白色的热气。
[0163]
《3》秋到了,走进空旷的校园,一阵冷风吹来,让人感到一阵凉意。秋天的校园仍旧光彩宜人,翠绿的树依旧是那么绿,美丽的花儿好像不知道深秋已经来了,依旧竟香开放,依旧用它那芳香吸引着只只可爱的蜜蜂;漂亮的蝴蝶依旧在校园里翩翩起舞,依旧用它那美丽的身影吸引着活泼的同学们的迷离的目光校园的花坛里落着从树上落下来的几片黄叶,人们的呼吸在空气中凝成了乳白色的热气。
[0164]
其中,除了上述三个待检索增强语句,还可以得到其他待检索增强语句,在此不一一举例。
[0165]
8、将多个待检索语句输入编码器,可以得到各个待检索语句分别对应的编码信息矩阵;
[0166]
9、可以将多个编码信息矩阵输入至解码器中,得到“郁郁葱葱”;根据“郁郁葱葱”构建预测语句,此时预测语句为“郁郁葱葱”;以及将多个编码信息矩阵和预测语句输入至解码器中,得到“的”;以及将“的”添加至预测语句,此时预测语句为“郁郁葱葱的”;重复将将多个编码信息矩阵和预测语句输入至解码器中的操作,直至得到结束标识;此时可以得到预测语句“郁郁葱葱的树依旧是那么绿,盛开的花儿好像不知道深秋已经来了;依旧用它那芳香吸引着只只勤劳的蜜蜂;美丽的蝴蝶依旧在校园里翩翩起舞”。
[0167]
本发明得到的已修饰语句均对待润色语句中的待修饰词进行了修饰,从而提升了文本润色的效果。此外,本发明还可以更加准确地从多个子句中确认出每一待润色子句。此外,本发明还可以准确地得到待润色子句中当前未被修饰词修饰的待修饰词。此外,本发明还可以提升确定待润色语句中待修饰词的效率。此外,本发明还可以更加准确的得到每个待检索增强语句想要表达的含义。此外,本发明还可以提升最终输出的已修饰语句的准确性。此外,本发明还可以提升对待修饰语句的润色效果。
[0168]
示例性装置
[0169]
在介绍了本发明示例性实施方式的方法之后,接下来,参考图4对本发明示例性实施方式的一种基于检索增强的语句润色装置进行说明,该装置包括:
[0170]
识别单元401,用于对待润色语句进行识别,得到所述待润色语句中的待修饰词;
[0171]
第一获取单元402,用于从预设的修饰词数据库中获取与识别单元401得到的所述待修饰词匹配的候选修饰词;
[0172]
第二获取单元403,用于获取所述待润色语句的前一语句和后一语句;
[0173]
输入单元404,用于将第一获取单元402获取的所述候选修饰词、第二获取单元403获取的所述前一语句、所述待润色语句以及所述后一语句输入预先训练的文本润色模型,得到与所述待润色语句对应的已修饰语句。
[0174]
作为一种可选的实施方式,文本润色模型的训练方式具体为:
[0175]
对训练书籍进行识别,得到多个训练语句;
[0176]
将每一训练语句进行拆分,得到每一训练语句分别对应的前一训练子句、当前训练子句以及后一训练子句;
[0177]
对所述当前训练子句进行识别,得到所述当前训练子句中的训练修饰词;
[0178]
将所述训练修饰词添加至预先构建的修饰词数据库中,并将所述训练修饰词从所述当前训练子句中删除,得到目标训练子句;
[0179]
基于所述修饰词数据库、所述前一训练子句、所述目标训练子句以及所述后一训练子句对文本润色模型进行训练,直至所述文本润色模型输出的预测语句与所述当前训练子句之间的损失小于预设阈值。
[0180]
作为一种可选的实施方式,识别单元401对待润色语句进行识别,得到所述待润色语句中的待修饰词的方式具体可以为:
[0181]
对待润色语句进行语句分割,得到所述待润色语句对应的多个子句;
[0182]
从所述多个子句中确定至少一个待润色子句;
[0183]
对每一待润色子句进行识别,得到待修饰词。
[0184]
其中,实施这种实施方式,可以将待润色语句分割为多个子句,并且可以从多个子句中确定出至少一个待润色子句,从而无需对每一个子句进行待修饰词的识别,提升了确定待润色语句中待修饰词的效率。
[0185]
作为一种可选的实施方式,识别单元401从所述多个子句中确定至少一个待润色子句的方式具体可以为:
[0186]
确定各个子句中分别包含的被修饰词的第一数量和当前修饰词的第二数量;
[0187]
将所述第一数量大于所述第二数量的子句确定为待润色子句。
[0188]
其中,实施这种实施方式,可以根据子句中的被修饰词的第一数量和当前修饰词
的第二数量,来确定各个子句中的待润色子句;通常来说,一个子句中的一个修饰词可以修饰一个被修饰词,即一个子句中修饰词的数量与被修饰词的数量相同;因此,若一个子句中被修饰词的第一数量大于当前修饰词的第二数量,则可以认为该子句中存在未被修饰的被修饰词,则该子句可以被确定为待润色子句;通过这种方式可以更加准确地从多个子句中确认出每一待润色子句。
[0189]
作为一种可选的实施方式,识别单元401对一个待润色子句进行识别,得到待修饰词的方式具体可以为:
[0190]
对一个待润色子句进行识别,确定所述待润色子句中包含的当前修饰词修饰的目标被修饰词;
[0191]
从所述待润色子句中包含的被修饰词中删除所述目标被修饰词,并将剩余的所述被修饰词确定为所述待润色子句对应的待修饰词。
[0192]
其中,实施这种实施方式,可以先确定出待润色子句中已经被当前修饰词进行修饰的目标被修饰词,再将目标被修饰词从待润色子句中存在的所有被修饰词中删除,剩余得到的未被修饰词修饰的被修饰词即为待润色子句的待修饰词;通过这种方式可以准确地得到待润色子句中当前未被修饰词修饰的待修饰词。
[0193]
作为一种可选的实施方式,所述待润色语句中包括至少一个待修饰词,一个所述待修饰词匹配至少一个候选修饰词;所述文本润色模型中包括编码器和解码器;
[0194]
输入单元404将所述候选修饰词、所述前一语句、所述待润色语句以及所述后一语句输入预先训练的文本润色模型,得到与所述待润色语句对应的已修饰语句的方式具体可以为:
[0195]
基于所述候选修饰词和所述待润色语句进行语句拼接,得到多个拼接语句;其中,所述候选修饰词用于修饰所述拼接语句中与所述候选修饰词匹配的待修饰词;任意两个所述拼接语句的内容均不相同;
[0196]
根据所述前一语句、所述后一语句以及多个拼接语句,得到多个待检索增强语句;其中,一个待检索增强语句中包括一个拼接语句,且任意两个待检索增强语句均不相同;
[0197]
根据多个所述待检索增强语句和所述编码器,得到各个所述待检索增强语句分别对应的编码信息矩阵;
[0198]
将所述编码信息矩阵输入所述解码器,得到与所述待润色语句对应的已修饰语句。
[0199]
其中,实施这种实施方式,可以将候选修饰词与待润色语句进行拼接,得到每一修饰词分别对应的拼接语句;并且可以通过文本润色模型中包含的编码器和解码器,对输入的每一拼接语句、待润色语句的前一语句与后一语句进行分析,得到待润色语句对应的已修饰语句;即对添加了候选修饰词的待润色语句及待润色语句的上下文同时进行分析,可以得到修饰效果最好的已修饰语句,提升了对待修饰语句的润色效果。
[0200]
作为一种可选的实施方式,输入单元404根据多个所述待检索增强语句和所述编码器,得到各个所述待检索增强语句分别对应的编码信息矩阵的方式具体可以为:
[0201]
从各个所述待检索增强语句中提取词向量,得到多个词向量集合;其中,一个待检索增强语句对应一个词向量集合;一个词向量集合中包括多个词向量;所述词向量均包括词汇信息以及所述词汇信息在其所处的待检索增强语句中的位置信息;
[0202]
将各个所述词向量集合分别输入所述编码器,得到各个所述待检索增强语句分别对应的编码信息矩阵。
[0203]
其中,实施这种实施方式,可以对每一个待检索增强语句进行词向量的提取,得到待检索增强语句中每一个词对应的词向量;通过得到的词向量可以将词汇信息与该词汇在待检索增强语句中所处的位置进行关联,使得得到的词向量集合体现了每个词汇的词汇信息与位置之间的关联;以及将词向量集合输入编码器中,得到的各个待检索增强语句分别对应的编码信息矩阵可以更加清晰的体现每个待检索增强语句中词汇的含义与位置的关系,从而更加准确的得到每个待检索增强语句想要表达的含义。
[0204]
作为一种可选的实施方式,输入单元404将所述编码信息矩阵输入所述解码器,得到与所述待润色语句对应的已修饰语句的方式具体可以为:
[0205]
将所述编码信息矩阵输入所述解码器,得到第一预测词汇;
[0206]
根据所述第一预测词汇构建预测语句;
[0207]
将所述编码信息矩阵和所述预测语句输入所述解码器,得到第二预测词汇;
[0208]
若所述第二预测词汇不为所述结束标识,则根据所述第二预测词汇对所述预测语句进行更新,并执行所述的将所述编码信息矩阵和所述预测语句输入所述解码器,得到第二预测词汇的步骤;
[0209]
若所述第二预测词汇为结束标识,则将所述预测语句确定为所述待润色语句对应的已修饰语句。
[0210]
其中,实施这种实施方式,可以将编码信息矩阵输入解码器,得到第一预测词汇;并且可以将编码信息矩阵和得到的第一预测词汇再次输入至解码器中,得到第二预测词汇;以及重复将编码信息矩阵以及第一预测词汇和第二预测词汇输入至解码器中得到的第二预测词汇的步骤,直至解码器预测得到结束标识,此时可以得到解码器预测的完整的已修饰语句;通过这种方式可以依次对解码器输出的已修饰语句中的每一个词汇进行预测,即根据编码器得到的所有输入信息的编码信息矩阵以及解码器已经预测得到的预测信息,可以使解码器后续预测的词汇更加准确,从而提升了最终输出的已修饰语句的准确性。
[0211]
本发明得到的已修饰语句均对待润色语句中的待修饰词进行了修饰,从而提升了文本润色的效果。此外,本发明还可以更加准确地从多个子句中确认出每一待润色子句。此外,本发明还可以准确地得到待润色子句中当前未被修饰词修饰的待修饰词。此外,本发明还可以提升确定待润色语句中待修饰词的效率。此外,本发明还可以更加准确的得到每个待检索增强语句想要表达的含义。此外,本发明还可以提升最终输出的已修饰语句的准确性。此外,本发明还可以提升对待修饰语句的润色效果。
[0212]
示例性介质
[0213]
在介绍了本发明示例性实施方式的方法和装置之后,接下来,参考图5对本发明示例性实施方式的计算机可读存储介质进行说明,请参考图5,其示出的计算机可读存储介质为光盘50,其上存储有计算机程序(即程序产品),所述计算机程序在被处理器运行时,会实现上述方法实施方式中所记载的各步骤,例如,对待润色语句进行识别,得到所述待润色语句中的待修饰词;从预设的修饰词数据库中获取与所述待修饰词匹配的候选修饰词;获取所述待润色语句的前一语句和后一语句;将所述候选修饰词、所述前一语句、所述待润色语句以及所述后一语句输入预先训练的文本润色模型,得到与所述待润色语句对应的已修饰
语句;各步骤的具体实现方式在此不再重复说明。
[0214]
需要说明的是,所述计算机可读存储介质的例子还可以包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他光学、磁性存储介质,在此不再一一赘述。
[0215]
示例性计算设备
[0216]
在介绍了本发明示例性实施方式的方法、装置和介质之后,接下来,参考图6对本发明示例性实施方式的用于基于检索增强的语句润色的计算设备。
[0217]
图6示出了适于用来实现本发明实施方式的示例性计算设备60的框图,该计算设备60可以是计算机系统或服务器。图6显示的计算设备60仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
[0218]
如图6所示,计算设备60的组件可以包括但不限于:一个或者多个处理器或者处理单元601,系统存储器602,连接不同系统组件(包括系统存储器602和处理单元601)的总线603。
[0219]
计算设备60典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算设备60访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
[0220]
系统存储器602可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(ram)6021和/或高速缓存存储器6022。计算设备60可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,rom6023可以用于读写不可移动的、非易失性磁介质(图6中未显示,通常称为“硬盘驱动器”)。尽管未在图6中示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如cd-rom,dvd-rom或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线603相连。系统存储器602中可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
[0221]
具有一组(至少一个)程序模块6024的程序/实用工具6025,可以存储在例如系统存储器602中,且这样的程序模块6024包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块6024通常执行本发明所描述的实施例中的功能和/或方法。
[0222]
计算设备60也可以与一个或多个外部设备604(如键盘、指向设备、显示器等)通信。这种通信可以通过输入/输出(i/o)接口605进行。并且,计算设备60还可以通过网络适配器606与一个或者多个网络(例如局域网(lan),广域网(wan)和/或公共网络,例如因特网)通信。如图6所示,网络适配器606通过总线603与计算设备60的其它模块(如处理单元601等)通信。应当明白,尽管图6中未示出,可以结合计算设备60使用其它硬件和/或软件模块。
[0223]
处理单元601通过运行存储在系统存储器602中的程序,从而执行各种功能应用以及数据处理,例如,对待润色语句进行识别,得到所述待润色语句中的待修饰词;从预设的修饰词数据库中获取与所述待修饰词匹配的候选修饰词;获取所述待润色语句的前一语句和后一语句;将所述候选修饰词、所述前一语句、所述待润色语句以及所述后一语句输入预
先训练的文本润色模型,得到与所述待润色语句对应的已修饰语句。各步骤的具体实现方式在此不再重复说明。应当注意,尽管在上文详细描述中提及了基于检索增强的语句润色装置的若干单元/模块或子单元/子模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之,上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。
[0224]
在本发明的描述中,需要说明的是,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
[0225]
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
[0226]
在本发明所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
[0227]
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0228]
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
[0229]
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0230]
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
[0231]
此外,尽管在附图中以特定顺序描述了本发明方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的
结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
[0232]
通过以上描述,本技术实施例至少提供如下技术方案:
[0233]
1.一种基于检索增强的语句润色方法,包括:
[0234]
对待润色语句进行识别,得到所述待润色语句中的待修饰词;
[0235]
从预设的修饰词数据库中获取与所述待修饰词匹配的候选修饰词;
[0236]
获取所述待润色语句的前一语句和后一语句;
[0237]
将所述候选修饰词、所述前一语句、所述待润色语句以及所述后一语句输入预先训练的文本润色模型,得到与所述待润色语句对应的已修饰语句。
[0238]
2.根据技术方案1所述的基于检索增强的语句润色方法,所述对待润色语句进行识别,得到所述待润色语句中的待修饰词,包括:
[0239]
对待润色语句进行语句分割,得到所述待润色语句对应的多个子句;
[0240]
从所述多个子句中确定至少一个待润色子句;
[0241]
对每一待润色子句进行识别,得到待修饰词。
[0242]
3.根据技术方案1或2所述的基于检索增强的语句润色方法,所述从所述多个子句中确定至少一个待润色子句,包括:
[0243]
确定各个子句中分别包含的被修饰词的第一数量和当前修饰词的第二数量;
[0244]
将所述第一数量大于所述第二数量的子句确定为待润色子句。
[0245]
4.根据技术方案1-3任一项所述的基于检索增强的语句润色方法,对一个待润色子句进行识别,得到待修饰词,包括:
[0246]
对一个待润色子句进行识别,确定所述待润色子句中包含的当前修饰词修饰的目标被修饰词;
[0247]
从所述待润色子句中包含的被修饰词中删除所述目标被修饰词,并将剩余的所述被修饰词确定为所述待润色子句对应的待修饰词。
[0248]
5.根据技术方案1~4任一项所述的基于检索增强的语句润色方法,所述待润色语句中包括至少一个待修饰词,一个所述待修饰词匹配至少一个候选修饰词;所述文本润色模型中包括编码器和解码器;
[0249]
所述将所述候选修饰词、所述前一语句、所述待润色语句以及所述后一语句输入预先训练的文本润色模型,得到与所述待润色语句对应的已修饰语句,包括:
[0250]
基于所述候选修饰词和所述待润色语句进行语句拼接,得到多个拼接语句;其中,所述候选修饰词用于修饰所述拼接语句中与所述候选修饰词匹配的待修饰词;任意两个所述拼接语句的内容均不相同;
[0251]
根据所述前一语句、所述后一语句以及多个拼接语句,得到多个待检索增强语句;其中,一个待检索增强语句中包括一个拼接语句,且任意两个待检索增强语句均不相同;
[0252]
根据多个所述待检索增强语句和所述编码器,得到各个所述待检索增强语句分别对应的编码信息矩阵;
[0253]
将所述编码信息矩阵输入所述解码器,得到与所述待润色语句对应的已修饰语句。
[0254]
6.根据技术方案1-5任一项所述的基于检索增强的语句润色方法,所述根据多个
所述待检索增强语句和所述编码器,得到各个所述待检索增强语句分别对应的编码信息矩阵,包括:
[0255]
从各个所述待检索增强语句中提取词向量,得到多个词向量集合;其中,一个待检索增强语句对应一个词向量集合;一个词向量集合中包括多个词向量;所述词向量均包括词汇信息以及所述词汇信息在其所处的待检索增强语句中的位置信息;
[0256]
将各个所述词向量集合分别输入所述编码器,得到各个所述待检索增强语句分别对应的编码信息矩阵。
[0257]
7.根据技术方案1-6任一项所述的基于检索增强的语句润色方法,所述将所述编码信息矩阵输入所述解码器,得到与所述待润色语句对应的已修饰语句,包括:
[0258]
将所述编码信息矩阵输入所述解码器,得到第一预测词汇;
[0259]
根据所述第一预测词汇构建预测语句;
[0260]
将所述编码信息矩阵和所述预测语句输入所述解码器,得到第二预测词汇;
[0261]
若所述第二预测词汇不为结束标识,则根据所述第二预测词汇对所述预测语句进行更新,并执行所述的将所述编码信息矩阵和所述预测语句输入所述解码器,得到第二预测词汇的步骤;
[0262]
若所述第二预测词汇为结束标识,则将所述预测语句确定为所述待润色语句对应的已修饰语句。
[0263]
8.根据技术方案1-7任一项所述的基于检索增强的语句润色方法,所述文本润色模型的训练方式具体为:
[0264]
对训练书籍进行识别,得到多个训练语句;
[0265]
将每一训练语句进行拆分,得到每一训练语句分别对应的前一训练子句、当前训练子句以及后一训练子句;
[0266]
对所述当前训练子句进行识别,得到所述当前训练子句中的训练修饰词;
[0267]
将所述训练修饰词添加至预先构建的修饰词数据库中,并将所述训练修饰词从所述当前训练子句中删除,得到目标训练子句;
[0268]
基于所述修饰词数据库、所述前一训练子句、所述目标训练子句以及所述后一训练子句对文本润色模型进行训练,直至所述文本润色模型输出的预测语句与所述当前训练子句之间的损失小于预设阈值。
[0269]
9.一种基于检索增强的语句润色装置,包括:
[0270]
识别单元,用于对待润色语句进行识别,得到所述待润色语句中的待修饰词;
[0271]
第一获取单元,用于从预设的修饰词数据库中获取与所述待修饰词匹配的候选修饰词;
[0272]
第二获取单元,用于获取所述待润色语句的前一语句和后一语句;
[0273]
输入单元,用于将所述候选修饰词、所述前一语句、所述待润色语句以及所述后一语句输入预先训练的文本润色模型,得到与所述待润色语句对应的已修饰语句。
[0274]
10.一种计算设备,所述计算设备包括:
[0275]
至少一个处理器、存储器和输入输出单元;
[0276]
其中,所述存储器用于存储计算机程序,所述处理器用于调用所述存储器中存储的计算机程序来执行如技术方案1~8中任一项所述的方法。
[0277]
11.一种计算机可读存储介质,其包括指令,当其在计算机上运行时,使得计算机执行如技术方案1~8中的任一项所述的方法。

技术特征:
1.一种基于检索增强的语句润色方法,包括:对待润色语句进行识别,得到所述待润色语句中的待修饰词;从预设的修饰词数据库中获取与所述待修饰词匹配的候选修饰词;获取所述待润色语句的前一语句和后一语句;将所述候选修饰词、所述前一语句、所述待润色语句以及所述后一语句输入预先训练的文本润色模型,得到与所述待润色语句对应的已修饰语句。2.根据权利要求1所述的基于检索增强的语句润色方法,所述对待润色语句进行识别,得到所述待润色语句中的待修饰词,包括:对待润色语句进行语句分割,得到所述待润色语句对应的多个子句;从所述多个子句中确定至少一个待润色子句;对每一待润色子句进行识别,得到待修饰词。3.根据权利要求2所述的基于检索增强的语句润色方法,所述从所述多个子句中确定至少一个待润色子句,包括:确定各个子句中分别包含的被修饰词的第一数量和当前修饰词的第二数量;将所述第一数量大于所述第二数量的子句确定为待润色子句。4.根据权利要求3所述的基于检索增强的语句润色方法,对一个待润色子句进行识别,得到待修饰词,包括:对一个待润色子句进行识别,确定所述待润色子句中包含的当前修饰词修饰的目标被修饰词;从所述待润色子句中包含的被修饰词中删除所述目标被修饰词,并将剩余的所述被修饰词确定为所述待润色子句对应的待修饰词。5.根据权利要求1~4任一项所述的基于检索增强的语句润色方法,所述待润色语句中包括至少一个待修饰词,一个所述待修饰词匹配至少一个候选修饰词;所述文本润色模型中包括编码器和解码器;所述将所述候选修饰词、所述前一语句、所述待润色语句以及所述后一语句输入预先训练的文本润色模型,得到与所述待润色语句对应的已修饰语句,包括:基于所述候选修饰词和所述待润色语句进行语句拼接,得到多个拼接语句;其中,所述候选修饰词用于修饰所述拼接语句中与所述候选修饰词匹配的待修饰词;任意两个所述拼接语句的内容均不相同;根据所述前一语句、所述后一语句以及多个拼接语句,得到多个待检索增强语句;其中,一个待检索增强语句中包括一个拼接语句,且任意两个待检索增强语句均不相同;根据多个所述待检索增强语句和所述编码器,得到各个所述待检索增强语句分别对应的编码信息矩阵;将所述编码信息矩阵输入所述解码器,得到与所述待润色语句对应的已修饰语句。6.根据权利要求5所述的基于检索增强的语句润色方法,所述根据多个所述待检索增强语句和所述编码器,得到各个所述待检索增强语句分别对应的编码信息矩阵,包括:从各个所述待检索增强语句中提取词向量,得到多个词向量集合;其中,一个待检索增强语句对应一个词向量集合;一个词向量集合中包括多个词向量;所述词向量均包括词汇信息以及所述词汇信息在其所处的待检索增强语句中的位置信息;
将各个所述词向量集合分别输入所述编码器,得到各个所述待检索增强语句分别对应的编码信息矩阵。7.根据权利要求5所述的基于检索增强的语句润色方法,所述将所述编码信息矩阵输入所述解码器,得到与所述待润色语句对应的已修饰语句,包括:将所述编码信息矩阵输入所述解码器,得到第一预测词汇;根据所述第一预测词汇构建预测语句;将所述编码信息矩阵和所述预测语句输入所述解码器,得到第二预测词汇;若所述第二预测词汇不为结束标识,则根据所述第二预测词汇对所述预测语句进行更新,并执行所述的将所述编码信息矩阵和所述预测语句输入所述解码器,得到第二预测词汇的步骤;若所述第二预测词汇为结束标识,则将所述预测语句确定为所述待润色语句对应的已修饰语句。8.一种基于检索增强的语句润色装置,包括:识别单元,用于对待润色语句进行识别,得到所述待润色语句中的待修饰词;第一获取单元,用于从预设的修饰词数据库中获取与所述待修饰词匹配的候选修饰词;第二获取单元,用于获取所述待润色语句的前一语句和后一语句;输入单元,用于将所述候选修饰词、所述前一语句、所述待润色语句以及所述后一语句输入预先训练的文本润色模型,得到与所述待润色语句对应的已修饰语句。9.一种计算设备,所述计算设备包括:至少一个处理器、存储器和输入输出单元;其中,所述存储器用于存储计算机程序,所述处理器用于调用所述存储器中存储的计算机程序来执行如权利要求1~7中任一项所述的方法。10.一种计算机可读存储介质,其包括指令,当其在计算机上运行时,使得计算机执行如权利要求1~7中的任一项所述的方法。

技术总结
本发明的实施方式提供了一种基于检索增强的语句润色方法、装置、介质和计算设备。该方法包括:对待润色语句进行识别,得到所述待润色语句中的待修饰词;从预设的修饰词数据库中获取与所述待修饰词匹配的候选修饰词;获取所述待润色语句的前一语句和后一语句;将所述候选修饰词、所述前一语句、所述待润色语句以及所述后一语句输入预先训练的文本润色模型,得到与所述待润色语句对应的已修饰语句。本发明得到的已修饰语句均对待润色语句中的待修饰词进行了修饰,从而提升了文本润色的效果。从而提升了文本润色的效果。从而提升了文本润色的效果。


技术研发人员:彭立彪 郑叔亮 李文珏
受保护的技术使用者:北京聆心智能科技有限公司
技术研发日:2023.07.17
技术公布日:2023/10/15
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐