文本语料的生成方法、装置、存储介质及电子设备与流程
未命名
07-15
阅读:125
评论:0
1.本公开涉及数据处理技术领域,具体地,涉及一种文本语料的生成方法、装置、存储介质及电子设备。
背景技术:
2.现有技术中,问答系统中基于检索的问答是最常用的问答方式,检索问答是基于用户输入的问答语句与问答对语料库进行对话,因此,问答对语料库的语料质量直接影响着问答系统的对话效果。在开始构建问答对语料库时,因缺乏基础语料需要专业的技术或者业务人员花费大量的时间向问答对语料库中书写问答对。并且为了提高检索准确率,在进行书写时还需要对同一检索问题进行相似问的扩写,但是中文的表述方式存在多样性,通过人工的方式很难概括同一问答语句的所有表述方式,导致问答对语料库的构建效率低。
技术实现要素:
3.本公开的目的是提供一种文本语料的生成方法、装置、存储介质及电子设备,以解决相关技术中问答对语料库扩写效率较低的技术问题。
4.根据本公开实施例的第一方面,提供一种文本语料的生成方法,包括:
5.接收检索文本;
6.通过预设模型训练词典将所述检索文本转换为语义向量,所述预设模型训练词典中包括多个模型训练词与多个数据坐标之间的一一对应关系;
7.将所述语义向量输入至预设双向编码模型进行自回归解码,生成多个预测文本;
8.通过所述预设模型训练词典,将所述多个预测文本转换为多个预测语义向量;
9.将所述多个预测语义向量与所述语义向量进行相似度计算,确定相似度最高的预测文本为目标文本语料。
10.可选地,所述将所述多个预测语义向量与所述语义向量进行相似度计算,确定相似度最高的预测文本为目标文本语料,包括:
11.确定所述多个预测语义向量与所述语义向量之间的多个余弦相似度;
12.从所述多个余弦相似度中确定余弦相似度最大的预测语义向量为目标语义向量;
13.确定所述目标语义向量对应的预测文本为所述目标文本语料。
14.可选地,所述将所述多个预测语义向量与所述语义向量进行相似度计算,确定相似度最高的预测文本为目标文本语料,包括:
15.将所述多个预测语义向量与所述语义向量进行相似度计算,生成多个相似度;
16.根据所述多个相似度,从所述多个预测文本中获取相似度最高的预设第一数量的预测文本为所述目标文本语料。
17.可选地,所述将所述语义向量输入至预设双向编码模型进行自回归解码,生成多个预测文本,包括:
18.通过所述预设双向编码模型对所述语义向量进行解码,生成与所述检索文本中各个检索词语最相似的多个目标模型训练词;
19.获取所述检索文本的语义信息;
20.根据所述语义信息对所述多个目标模型训练词进行随机采样,生成所述多个预测文本。
21.可选地,所述通过所述预设双向编码模型对所述语义向量进行解码,生成与所述检索文本中各个检索词语最相似的多个目标模型训练词,包括:
22.通过所述预设双向编码模型从所述预设模型训练词典中选取与所述各个检索词语相似的多个初始模型训练词;
23.从所述多个初始模型训练词中选取相似度最高的预设第二数量的模型训练词为所述多个目标模型训练词。
24.可选地,所述通过预设模型训练词典将所述检索文本转换为语义向量,包括:
25.对所述检索文本进行解析,生成多个检索词语;
26.通过所述预设模型训练词典,确定所述多个检索词语一一对应的多个目标数据坐标;
27.根据所述多个检索词语在所述检索文本中的位置关系,依次连接所述多个目标数据坐标,以生成所述语义向量。
28.可选地,所述预设双向编码模型为bert模型。
29.根据本公开实施例的第二方面,提供一种文本语料的生成装置,包括:
30.接收模块,用于接收检索文本;
31.第一转换模块,用于通过预设模型训练词典将所述检索文本转换为语义向量,所述预设模型训练词典中包括多个模型训练词与多个数据坐标之间的一一对应关系;
32.生成模块,用于将所述语义向量输入至预设双向编码模型进行自回归解码,生成多个预测文本;
33.第二转换模块,用于通过所述预设模型训练词典,将所述多个预测文本转换为多个预测语义向量;
34.确定模块,用于将所述多个预测语义向量与所述语义向量进行相似度计算,确定相似度最高的预测文本为目标文本语料。
35.根据本公开实施例的第三方面,提供一种非临时性计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现本公开第一方面中任一项所述方法的步骤。
36.根据本公开实施例的第四方面,提供一种电子设备,包括:
37.存储器,其上存储有计算机程序;
38.处理器,用于执行所述存储器中的所述计算机程序,以实现本公开第一方面中任一项所述方法的步骤。
39.通过上述技术方案,接收检索文本,通过预设模型训练词典将检索文本转换为语义向量,预设模型训练词典中包括多个模型训练词与多个数据坐标之间的一一对应关系,将语义向量输入至预设双向编码模型进行自回归解码,生成多个预测文本,通过预设模型训练词典,将多个预测文本转换为多个预测语义向量,将多个预测语义向量与语义向量进
行相似度计算,确定相似度最高的预测文本为目标文本语料。从而通过双向编码模型对输入的检索文本进行拓展生成多个预测文本,并根据各个预测文本与检索文本之间的相似度,确定相似度最高的预测文本为增强的目标文本语料,使生成的相似文本语料具有多样性,提高了问答对语料库的扩写效率。
40.本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
41.附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:
42.图1是根据一示例性实施例示出的一种文本语料的生成方法的流程图。
43.图2是根据一示例性实施例示出的另一种文本语料的生成方法的流程图。
44.图3是根据一示例性实施例示出的一种预测文本的生成方法的流程图。
45.图4是根据一示例性实施例示出的一种文本语料的生成装置的框图。
46.图5是根据一示例性实施例示出的一种电子设备的框图。
具体实施方式
47.以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本公开,并不用于限制本公开。
48.需要说明的是,本公开中所有获取信号、信息或数据的动作都是在遵照所在地国家相应的数据保护法规政策的前提下,并获得由相应装置所有者给予授权的情况下进行的。
49.图1是根据一示例性实施例示出的一种文本语料的生成方法的流程图,如图1所示,该生成方法包括以下步骤。
50.步骤s11,接收检索文本。
51.示例的,本实施例应用于服务器中,对获取到的检索文本进行扩写,从而增加问答对语料库的丰富度,使服务器能够准确识别输入的检索文本,进而提高检索问答系统的准确率。其中,该检索文本可以是用户通过检索对话框输入的检索文本,还可以是相关技术人员收集到的用户最常搜索的检索文本。用户通过检索文本向服务器提出问题,服务器识别该检索文本后,通过比对问答对语料库确定该检索文本对应的检索结果,并返回该检索结果以供用户进行查看。
52.步骤s12,通过预设模型训练词典将检索文本转换为语义向量,预设模型训练词典中包括多个模型训练词与多个数据坐标之间的一一对应关系。
53.值得一提的是,本实施例的服务器中设置有预设模型训练词典,通过对检索文本进行收集确定用户在进行检索时通常会使用的多种词汇,将该多种词汇写入预设模型训练词典中构成多个模型训练词,根据预设规则对每一个模型训练词构建数据坐标,其中该预设规则可以参照常规词典的构建规则根据各个词汇的拼音首字母对多个词汇进行排序,将词汇排序后根据词汇的位置为词汇赋予数据坐标,建立多个模型训练词和多个数据坐标之间的对应关系,从而生成预设模型训练词典。对检索文本进行解析,确定检索文本中的各个检索词汇,并参照该预设模型训练词典确定各个检测词汇的数据坐标,根根各个检索词汇
在检索文本中的顺序,依次连接各个数据坐标,从而生成语义向量。
54.可选地,在一种实施方式中,上述步骤s12,包括:
55.对检索文本进行解析,生成多个检索词语;
56.通过预设模型训练词典,确定多个检索词语一一对应的多个目标数据坐标;
57.根据多个检索词语在检索文本中的位置关系,依次连接多个目标数据坐标,以生成语义向量。
58.示例的,本实施例中通过上述步骤接收到检索文本后,对检索文本进行词汇识别,确定该检索文本中包括的多个检索词语。通过比对预设模型训练词典,确定各个检索词语在该预设模型训练词典中一一对应的多个目标数据坐标。根据各个检索词语在检索文本中的位置关系,连接各个目标数据坐标,从而生成语义向量。其中,该语义向量可以是embedding,用于通过预设模型训练词典标识检索文本。通过embedding向量中的各个数据坐标标识检索文本中的检索词语,通过embedding向量的指向方向标识检索文本的语义信息。
59.步骤s13,将语义向量输入至预设双向编码模型进行自回归解码,生成多个预测文本。
60.值得一提的是,本实施例中预设双向编码模型为深度学习模型,通过将多个检索文本以及对应的多个相似文本输入至预设双向编码模型中进行模型训练,使该预设双向编码模型通过深度学习,识别检索文本的多种表达方式。使训练好的预设双向编码模型通过比对预设模型训练词典,对语义向量进行自回归解码后,生成该语义向量对应的多个相似词汇,并根据语义向量的意思表示对多个相似词汇进行随机采样输出,生成与检索文本相似的多个预测文本。需要说明的是,各个预测文本与检索文本的意思表示相同或相近,也即预测文本与检索文本为同一含义的不同表达方式,例如,检索文本可以是:“明天的天气是什么”,通过预设双向编码模型对检索文本对应的语义向量进行自回归解码后,生成的预测文本可以是:“明天是什么天气”、“明天的天气怎样”或“明天的天气预报”等。其中预设双向编码模型对应的训练问答语句中可以包括不同地方的特殊问答方式,根据该问答方式对预设双向编码模型进行深度学习训练,使预设双向编码模型能够识别更加具有多样性的增强文本,进而使服务器能够更准确的识别检索文本的含义。
61.可选地,该预设双向编码模型为bert模型。
62.示例的,本实施例中预设双向编码模型为bert模型,bert模型运用张量矩阵的预算原理,以及形状变换,将语义向量进行自回归解码后,对自回归解码生成的多个相似词汇进行矩阵组合和矩阵变换,生成检索文本对应的多个预测文本。
63.步骤s14,通过预设模型训练词典,将多个预测文本转换为多个预测语义向量。
64.示例的,通过上述步骤生成多个预测文本后,参照根据检索文本生成语义向量的方式,通过比对预设模型训练词典,将多个预测文本转换为多个预测语义向量。其中各个预测语义向量用于表示预测文本中对应预测词汇在预设模型训练词典中的数据坐标,并根据预测语义向量连接各个数据坐标后,生成预测语义向量。
65.步骤s15,将多个预测语义向量与语义向量进行相似度计算,确定相似度最高的预测文本为目标文本语料。
66.示例的,本实施例中将通过上述步骤生成的多个预测语义向量与检索文本对应的
语义向量进行相似度计算,从而确定相似度最高的预测文本作为增强检索文本的目标文本语料。其中,将语义向量与多个预测语义向量放置与同一坐标系中进行一一对比,从而确定语义向量与各个预测语义向量之间的相似性,将相似度最高的预测文本作为增强的目标文本语料。其中,该目标文本语料可以是相似度最高的一个或多个预测文本。可以根据多个预测语义向量与语义向量之间的相似度,按照相似度从高到低的顺序,对多个预测文本进行排序,并提取相似度大于预设阈值的预测文本作为目标文本语料。
67.可选地,在另一种实施方式中,上述步骤s15,包括:
68.将多个预测语义向量与语义向量进行相似度计算,生成多个相似度;
69.根据多个相似度,从多个预测文本中获取相似度最高的预设第一数量的预测文本为目标文本语料。
70.值得一提的是,为扩充问答对语料数据库,通常情况下一条检索文本需要扩充出多个相似的文本语料,从而提高服务器识别的精准度。示例的,本实施例中将多个预测语义向量与语义向量放置于同一坐标系中,并将各个预测语义向量与语义向量进行一一对比,生成各个预测语义向量与语义向量之间的多个相似度,根据该多个相似度将各个预测语义向量对应的预测文本按照相似度从高到低的顺序进行排序,按照相似度从高到低的顺序从中截取预设第一数量预测文本作为目标文本语料。示例的,该预设第一数量可以为10,将多个预测文本按照相似度从高到低进行排序后,提取前10个相似度最高的预测文本作为目标文本语料。
71.通过上述技术方案,接收检索文本,通过预设模型训练词典将检索文本转换为语义向量,预设模型训练词典中包括多个模型训练词与多个数据坐标之间的一一对应关系,将语义向量输入至预设双向编码模型进行自回归解码,生成多个预测文本,通过预设模型训练词典,将多个预测文本转换为多个预测语义向量,将多个预测语义向量与语义向量进行相似度计算,确定相似度最高的预测文本为目标文本语料。从而通过双向编码模型对输入的检索文本进行拓展生成多个预测文本,并根据各个预测文本与检索文本之间的相似度,确定相似度最高的预测文本为增强的目标文本语料,使生成的相似文本语料具有多样性,提高了问答对语料库的扩写效率。
72.图2是根据一示例性实施例示出的另一种文本语料的生成方法的流程图,如图2所示,上述步骤s15可以包括以下步骤。
73.步骤s21,确定多个预测语义向量与语义向量之间的多个余弦相似度。
74.示例的,本实施例中将多个预测语义向量与检索文本对应的语义向量进行余弦相似度对比,从而确定各个预测语义向量与语义向量之间的多个余弦相似度。其中,各个预测语义向量与语义向量之间的余弦相似度通过向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小。余弦值越接近1,表示预测语义向量与语义向量之间的夹角越接近0
°
,也就是两个向量越相似;余弦值越接近-1,表示预测语义向量与语义向量之间的夹角越接近180
°
,也就是两个向量所对应的意思表示越相反。其中,余弦相似度的取值在[-1,1]的范围内,可以通过比对余弦相似度的值来确定预测语义向量与语义向量之间的相似度。
[0075]
步骤s22,从多个余弦相似度中确定余弦相似度最大的预测语义向量为目标语义向量。
[0076]
步骤s23,确定目标语义向量对应的预测文本为目标文本语料。
[0077]
示例的,通过上述步骤确定各个预测语义向量与语义向量之间的余弦相似度后,从中提取余弦相似度最大的预测语义向量为目标语义向量。将该目标语义向量对应的预测文本作为与目标文本语料。
[0078]
通过上述方案,将各个预测语义向量与目标语义向量进行两两对比,确定两个向量之间的余弦相似度,将余弦相似度最大的预测语义向量作为目标语义向量,将该目标语义向量对应的预测文本作为目标文本语料。通过余弦相似度将语义向量进行比对,使生成的目标文本语料与检索文本之间的相似度高,进而提高了服务器识别的准确性。
[0079]
图3是根据一示例性实施例示出的一种预测文本的生成方法的流程图,如图3所示,上述步骤s13可以包括以下步骤。
[0080]
步骤s31,通过预设双向编码模型对语义向量进行解码,生成与检索文本中各个检索词语最相似的多个目标模型训练词。
[0081]
示例的,本实施例中预设双向编码模型对语义向量进行自回归解码后,通过比对预设模型训练词典,确定与检索文本中各个检索词语最相似的多个目标模型训练词。
[0082]
可选地,在一种实施方式中,上述步骤s31,包括:
[0083]
通过预设双向编码模型从预设模型训练词典中选取与各个检索词语相似的多个初始模型训练词。
[0084]
从多个初始模型训练词中选取相似度最高的预设第二数量的模型训练词为多个目标模型训练词。
[0085]
值得一提的是,预设双向编码模型通过预设模型训练词典查询检索文本中各个检索词语最相似的目标模型训练词时,若无停止指令,或未达到一定的条件,预设双向编码模型会基于预设模型训练词典对检索词语相近的目标模型训练词进行不间断的查询。因此,本实施例中通过预设双向编码模型从预设模型训练词典中选取各个检索词语对应的多个初始模型训练词,并根据该初始模型训练词与检测词语之间的相似度,选取相似度最高的预设第二数量的模型训练词作为多个目标模型训练词,示例的,该预设第二数量可以设置为5,对于一个检索词语,从多个初始模型训练词中选取相似度最高的5个模型训练词作为该检索词语对应的目标模型训练词。
[0086]
步骤s32,获取检索文本的语义信息。
[0087]
步骤s33,根据语义信息对多个目标模型训练词进行随机采样,生成多个预测文本。
[0088]
示例的,本实施例中服务器接收到检索文本后,可以通过语义识别算法确定检索文本对应的语义信息。对上述步骤中生成的多个目标模型训练词进行随机采样,根据检索文本对应的语义信息,将各个检索词语对应的目标模型训练词进行随机组合,生成多个预测文本。
[0089]
通过上述方案,对获取到的多个目标模型训练词进行随机采样组合,生成多个预测文本,提高了预测文本的多样性和丰富性,使服务器基于高质量的预测文本能够更准确的识别检索文本,提升了检索问答系统的准确性。
[0090]
图4是根据一示例性实施例示出的一种文本语料的生成装置的框图,如图4所示,该装置100包括:接收模块110、第一转换模块120、生成模块130、第二转换模块140和确定模块150。
[0091]
接收模块110,用于接收检索文本。
[0092]
第一转换模块120,用于通过预设模型训练词典将检索文本转换为语义向量,预设模型训练词典中包括多个模型训练词与多个数据坐标之间的一一对应关系。
[0093]
生成模块130,用于将语义向量输入至预设双向编码模型进行自回归解码,生成多个预测文本。
[0094]
第二转换模块140,用于通过预设模型训练词典,将多个预测文本转换为多个预测语义向量。
[0095]
确定模块150,用于将多个预测语义向量与语义向量进行相似度计算,确定相似度最高的预测文本为目标文本语料。
[0096]
可选地,确定模块150,用于:
[0097]
确定多个预测语义向量与语义向量之间的多个余弦相似度。
[0098]
从多个余弦相似度中确定余弦相似度最大的预测语义向量为目标语义向量。
[0099]
确定目标语义向量对应的预测文本为目标文本语料。
[0100]
可选地,确定模块150,用于:
[0101]
将多个预测语义向量与语义向量进行相似度计算,生成多个相似度。
[0102]
根据多个相似度,从多个预测文本中获取相似度最高的预设第一数量的预测文本为目标文本语料。
[0103]
可选地,该生成模块130,包括:
[0104]
第一生成子模块,用于通过预设双向编码模型对语义向量进行解码,生成与检索文本中各个检索词语最相似的多个目标模型训练词。
[0105]
获取子模块,用于获取检索文本的语义信息。
[0106]
第二生成子模块,用于根据语义信息对多个目标模型训练词进行随机采样,生成多个预测文本。
[0107]
可选地,第一生成子模块,用于:
[0108]
通过预设双向编码模型从预设模型训练词典中选取与各个检索词语相似的多个初始模型训练词。
[0109]
从多个初始模型训练词中选取相似度最高的预设第二数量的模型训练词为多个目标模型训练词。
[0110]
可选地,第一转换模块120,用于:
[0111]
对检索文本进行解析,生成多个检索词语。
[0112]
通过预设模型训练词典,确定多个检索词语一一对应的多个目标数据坐标。
[0113]
根据多个检索词语在检索文本中的位置关系,依次连接多个目标数据坐标,以生成语义向量。
[0114]
可选地,预设双向编码模型为bert模型。
[0115]
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
[0116]
图5是根据一示例性实施例示出的一种电子设备500的框图。例如,电子设备500可以被提供为一服务器。参照图5,电子设备500包括处理器522,其数量可以为一个或多个,以及存储器532,用于存储可由处理器522执行的计算机程序。存储器532中存储的计算机程序
可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理器522可以被配置为执行该计算机程序,以执行上述文本语料的生成方法。
[0117]
另外,电子设备500还可以包括电源组件526和通信组件550,该电源组件526可以被配置为执行电子设备500的电源管理,该通信组件550可以被配置为实现电子设备500的通信,例如,有线或无线通信。此外,该电子设备500还可以包括输入/输出(i/o)接口558。电子设备500可以操作基于存储在存储器532的操作系统。
[0118]
在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现上述文本语料的生成方法的步骤。例如,该非临时性计算机可读存储介质可以为上述包括程序指令的存储器532,上述程序指令可由电子设备500的处理器522执行以完成上述文本语料的生成方法。
[0119]
在另一示例性实施例中,还提供一种计算机程序产品,该计算机程序产品包含能够由可编程的装置执行的计算机程序,该计算机程序具有当由该可编程的装置执行时用于执行上述文本语料的生成方法的代码部分。
[0120]
以上结合附图详细描述了本公开的优选实施方式,但是,本公开并不限于上述实施方式中的具体细节,在本公开的技术构思范围内,可以对本公开的技术方案进行多种简单变型,这些简单变型均属于本公开的保护范围。
[0121]
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合。
[0122]
此外,本公开的各种不同的实施方式之间也可以进行任意组合,只要其不违背本公开的思想,其同样应当视为本公开所公开的内容。
技术特征:
1.一种文本语料的生成方法,其特征在于,包括:接收检索文本;通过预设模型训练词典将所述检索文本转换为语义向量,所述预设模型训练词典中包括多个模型训练词与多个数据坐标之间的一一对应关系;将所述语义向量输入至预设双向编码模型进行自回归解码,生成多个预测文本;通过所述预设模型训练词典,将所述多个预测文本转换为多个预测语义向量;将所述多个预测语义向量与所述语义向量进行相似度计算,确定相似度最高的预测文本为目标文本语料。2.根据权利要求1所述的生成方法,其特征在于,所述将所述多个预测语义向量与所述语义向量进行相似度计算,确定相似度最高的预测文本为目标文本语料,包括:确定所述多个预测语义向量与所述语义向量之间的多个余弦相似度;从所述多个余弦相似度中确定余弦相似度最大的预测语义向量为目标语义向量;确定所述目标语义向量对应的预测文本为所述目标文本语料。3.根据权利要求1所述的生成方法,其特征在于,所述将所述多个预测语义向量与所述语义向量进行相似度计算,确定相似度最高的预测文本为目标文本语料,包括:将所述多个预测语义向量与所述语义向量进行相似度计算,生成多个相似度;根据所述多个相似度,从所述多个预测文本中获取相似度最高的预设第一数量的预测文本为所述目标文本语料。4.根据权利要求1所述的生成方法,其特征在于,所述将所述语义向量输入至预设双向编码模型进行自回归解码,生成多个预测文本,包括:通过所述预设双向编码模型对所述语义向量进行解码,生成与所述检索文本中各个检索词语最相似的多个目标模型训练词;获取所述检索文本的语义信息;根据所述语义信息对所述多个目标模型训练词进行随机采样,生成所述多个预测文本。5.根据权利要求4所述的生成方法,其特征在于,所述通过所述预设双向编码模型对所述语义向量进行解码,生成与所述检索文本中各个检索词语最相似的多个目标模型训练词,包括:通过所述预设双向编码模型从所述预设模型训练词典中选取与所述各个检索词语相似的多个初始模型训练词;从所述多个初始模型训练词中选取相似度最高的预设第二数量的模型训练词为所述多个目标模型训练词。6.根据权利要求1所述的生成方法,其特征在于,所述通过预设模型训练词典将所述检索文本转换为语义向量,包括:对所述检索文本进行解析,生成多个检索词语;通过所述预设模型训练词典,确定所述多个检索词语一一对应的多个目标数据坐标;根据所述多个检索词语在所述检索文本中的位置关系,依次连接所述多个目标数据坐标,以生成所述语义向量。7.根据权利要求1-6中任一项所述的生成方法,其特征在于,所述预设双向编码模型为
bert模型。8.一种文本语料的生成装置,其特征在于,包括:接收模块,用于接收检索文本;第一转换模块,用于通过预设模型训练词典将所述检索文本转换为语义向量,所述预设模型训练词典中包括多个模型训练词与多个数据坐标之间的一一对应关系;生成模块,用于将所述语义向量输入至预设双向编码模型进行自回归解码,生成多个预测文本;第二转换模块,用于通过所述预设模型训练词典,将所述多个预测文本转换为多个预测语义向量;确定模块,用于将所述多个预测语义向量与所述语义向量进行相似度计算,确定相似度最高的预测文本为目标文本语料。9.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现权利要求1-7中任一项所述方法的步骤。10.一种电子设备,其特征在于,包括:存储器,其上存储有计算机程序;处理器,用于执行所述存储器中的所述计算机程序,以实现权利要求1-7中任一项所述方法的步骤。
技术总结
本公开涉及一种文本语料的生成方法、装置、存储介质及电子设备,该方法包括:接收检索文本,通过预设模型训练词典将检索文本转换为语义向量,预设模型训练词典中包括多个模型训练词与多个数据坐标之间的一一对应关系,将语义向量输入至预设双向编码模型进行自回归解码,生成多个预测文本,通过预设模型训练词典,将多个预测文本转换为多个预测语义向量,将多个预测语义向量与语义向量进行相似度计算,确定相似度最高的预测文本为目标文本语料。从而通过双向编码模型对输入的检索文本进行拓展生成多个预测文本,确定相似度最高的预测文本为增强的目标文本语料,使生成的相似文本语料具有多样性,通过双向编码模型提高了问答对语料库的扩写效率。料库的扩写效率。料库的扩写效率。
技术研发人员:陈定玮
受保护的技术使用者:飞算数智科技(深圳)有限公司
技术研发日:2023.02.06
技术公布日:2023/7/12
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
