主题分割模型的训练方法、装置、设备及存储介质与流程
未命名
09-07
阅读:92
评论:0
1.本技术涉及人工智能领域,尤其涉及主题分割模型的训练方法、主题分割模型的训练装置、计算机设备及计算机可读存储介质。
背景技术:
2.随着互联网的高速发展,文本主题分割在文本挖掘领域中有很多的应用,所以不少国内外的研究学者都对文本分割技术进行深入研究,探究如何提高文本主题分割技术的准确性和高效性是当前研究的热点。
3.在医疗领域中,医生往往每天需要面对大量的病历,病历中有可能会存在大篇幅的关于病情说明的文本信息。对于这些文本信息,医生往往需要认真阅读,但是如果不对这些文本信息进行主题分割处理,会提高医生的阅读难度,从而降低了问诊效率。
4.现有技术中,文本主题分割都专注于利用无监督学习算法,但是无监督学习算法无法解决不同精度的分割问题(如段落、章节分割等),比如现有的主题分割模型每次仅输入一个潜在分割点上左右两边的句子进行分析,没有充分利用文本中的其余信息,无法对潜在分割点的长距离依赖关系进行建模,导致分割精度较差,运行效率较低。
技术实现要素:
5.本技术提供了一种主题分割模型的训练方法、主题分割模型的训练装置、计算机设备及计算机可读存储介质,旨在对潜在分割点的长距离依赖关系进行建模,提高文本主题分割的分割精度以及提高运算效率,从而提高医生的问诊效率。
6.为实现上述目的,本技术提供一种主题分割模型的训练方法,所述方法包括:
7.获取训练文本,并对所述训练文本进行文本分割处理,得到所述训练文本对应的句子集合;
8.对所述句子集合中的句子进行编码以及配对处理,得到编码句子对及其对应的嵌入向量;
9.根据所述编码句子对的嵌入向量确定所述主题分割模型的第一模型参数;
10.根据所述编码句子对的嵌入向量生成编码句子对矩阵,并对所述编码句子对矩阵中进行池化处理,得到编码句子的句向量;
11.根据所述编码句子的句向量确定所述主题分割模型的第二模型参数,并根据所述第一模型参数和所述第二模型参数生成目标主题分割模型。
12.为实现上述目的,本技术还提供一种主题分割模型的训练装置,该主题分割模型的训练装置包括:
13.文本分割模块,用于获取训练文本,并对所述训练文本进行文本分割处理,得到所述训练文本对应的句子集合;
14.句子对生成模块,用于对所述句子集合中的句子进行编码以及配对处理,得到编码句子对及其对应的嵌入向量;
15.参数确定模块,用于根据所述编码句子对的嵌入向量确定所述主题分割模型的第一模型参数;
16.池化处理模块,用于根据所述编码句子对的嵌入向量生成编码句子对矩阵,并对所述编码句子对矩阵中进行池化处理,得到编码句子的句向量;
17.模型生成模块,用于根据所述编码句子的句向量确定所述主题分割模型的第二模型参数,并根据所述第一模型参数和所述第二模型参数生成目标主题分割模型。
18.此外,为实现上述目的,本技术还提供一种计算机设备,所述计算机设备包括存储器和处理器;所述存储器,用于存储计算机程序;所述处理器,用于执行所述的计算机程序并在执行所述的计算机程序时实现本技术实施例提供的任一项所述的主题分割模型的训练方法。
19.此外,为实现上述目的,本技术还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器实现本技术实施例提供的任一项所述的主题分割模型的训练方法。
20.本技术实施例公开的主题分割模型的训练方法、主题分割模型的训练装置、计算机设备及计算机可读存储介质,通过对训练文本进行文本分割处理,得到训练文本对应的句子集合;对句子集合中的句子进行编码以及配对处理,得到编码句子对及其对应的嵌入向量;根据编码句子对的嵌入向量生成编码句子对矩阵,并对所述编码句子对矩阵中进行池化处理,得到编码句子的句向量;根据编码句子对的嵌入向量和句向量分别确定第一模型参数和第二模型参数,从而生成目标主题分割模型。由此可以充分利用文本信息,对潜在分割点的长距离依赖关系进行建模,使得生成的主题分割模型结构简单,提高文本主题分割的分割精度以及提高运算效率,从而提高医生的问诊效率。
附图说明
21.为了更清楚地说明本技术实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
22.图1是本技术实施例提供的一种主题分割模型的训练方法的场景示意图;
23.图2是本技术实施例提供的一种主题分割模型的训练方法的流程示意图;
24.图3为本技术实施例提供的一种主题分割模型的模型架构图。
25.图4是本技术一实施例提供的一种主题分割模型的训练装置的示意性框图;
26.图5是本技术一实施例提供的一种计算机设备的示意性框图。
具体实施方式
27.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
28.附图中所示的流程图仅是示例说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解、组合或部分合并,因此实际
执行的顺序有可能根据实际情况改变。另外,虽然在装置示意图中进行了功能模块的划分,但是在某些情况下,可以以不同于装置示意图中的模块划分。
29.在本技术说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
30.在文本主题分割技术中,有两个关键性问题需要重点研究:一个是如何度量文本间的相似性,掌握文本中的话题变化趋势;另一个是如何识别文本中子主题所对应语义段落的边界,也就是在知道文本间相似性变化情况之后怎样制定边界识别策略。
31.针对这些问题的解决方法,现有技术中大体可以分成以下三种:
32.(1)、利用语言学特征的方法,如提示短语、停顿标记、命名实体、重复特征、韵律特征等等。
33.(2)、利用语料库统计信息的方法。
34.(3)、结合统计模型的方法,比方说有向图模型、潜在狄利克雷分配模型等等。
35.同时对于文本分割的学习方法也存在监督学习和无监督学习两类。长久以来文本主题分割都专注于利用无监督学习算法,但是无监督学习算法无法解决不同精度的分割问题(如段落、章节分割等),因为这类任务往往是独立的。近年来随着大型语言模型如bert、gpt的广泛利用以及文本分割的大型有标注数据集wiki-727k的推出,监督学习的方法受到广泛关注,lukasik提出的cross-segment bert模型展现了attention机制在文本分割任务中的巨大作用,同时也证明了其相比于层次架构模型的优越性。但是现有的主题分割模型每次仅输入一个潜在分割点上左右两边的句子进行分析,没有充分利用文本中的其余信息,无法对潜在分割点的长距离依赖关系进行建模,导致分割精度较差,运行效率较低,从而提高医生的问诊效率。
36.为了提高文本主题分割的分割精度以及提高运算效率,本技术提出了一种主题分割模型的训练方法、主题分割模型的训练装置、计算机设备及计算机可读存储介质,由此可以充分利用文本信息,对潜在分割点的长距离依赖关系进行建模,使得生成的主题分割模型结构简单,提高文本主题分割的分割精度以及提高运算效率,从而提高医生的问诊效率。
37.其中,该方法可以应用于服务器,当然也可以应用于终端设备上,用于生成对应的主题分割模型,其中,终端设备可以包括诸如手机、平板电脑、个人数字助理(personal digital assistant,pda)等固定终端。服务器例如可以为单独的服务器或服务器集群。但为了便于理解,以下实施例将以应用于服务器主题分割模型的训练方法进行详细介绍。
38.下面结合附图,对本技术的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
39.如图1所示,本技术实施例提供的主题分割模型的训练方法,可以应用于如图1所示的应用环境中。该应用环境中包含有终端设备110和服务器120,其中,终端设备110可以通过网络与服务器120进行通信。具体地,服务器120获取训练文本,并对训练文本进行文本分割处理,得到训练文本对应的句子集合;对句子集合中的句子进行编码以及配对处理,得到编码句子对及其对应的嵌入向量;根据编码句子对的嵌入向量确定主题分割模型的第一模型参数;根据编码句子对的嵌入向量生成编码句子对矩阵,并对编码句子对矩阵中进行池化处理,得到编码句子的句向量;根据编码句子的句向量确定主题分割模型的第二模型参数,并根据第一模型参数和第二模型参数生成目标主题分割模型,并将生成的目标主题
分割模型发送给终端设备110。其中,服务器120可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(content delivery network,cdn)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端设备110可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本技术在此不做限制。
40.请参阅图2,图2是本技术实施例提供的一种主题分割模型的训练方法的示意流程图。其中,该主题分割模型的训练方法可以应用于服务器中,由此可以充分利用文本信息,对潜在分割点的长距离依赖关系进行建模,使得生成的主题分割模型结构简单,提高文本主题分割的分割精度以及提高运算效率。
41.如图2所示,该主题分割模型的训练方法包括步骤s101至步骤s105。
42.s101、获取训练文本,并对所述训练文本进行文本分割处理,得到所述训练文本对应的句子集合。
43.其中,训练文本可以为待训练的文档对应的文本,用于对主题分割模型进行模型训练。句子集合可以为训练文本中包括的所有句子所组成的集合。
44.示例性的,训练文本可以为病历对应的文本,也可以为药方说明对应的文本,在此不做具体限定。
45.本技术实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(artificial intelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
46.人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
47.示例性的,可以从病历对应的文档集合中随机挑选一个病历对应的文档作为训练文本,并对该病历文本进行文本分割处理,得到该病历文本对应的句子集合。
48.在一些实施例中,对所述训练文本中句子的分割边界进行识别,得到所述训练文本的分隔符;根据所述训练文本的分隔符对所述训练文本进行文本分割处理,得到所述训练文本对应的句子集合。由此可以准确地识别到句子的分割边界,从而准确地分割训练文本以形成对应的句子集合。
49.其中,句子的分割边界一般可以通过符号或者语义识别。比如当检测到符号为句号时,可以确定该位置为句子的分割边界,比如当对句子进行语义识别,识别到句子的结束语时,可以确定该位置为句子的分割边界。分隔符用于表示分割训练文本中的句子。句子集合可以为训练文本中分割出来的句子所组成的集合。
50.具体地,遍历该训练文本,对训练文本中的句子进行检测,从而识别句子的分割边界,得到训练文本的分隔符;根据训练文本的分隔符对训练文本进行文本分割处理,得到分割后的多个句子,并组成对应的句子集合。
51.具体地,句子集合可以表示为第i个文档
52.其中,di表示第i个文档,s
ij
表示第i个文档的第j个句子。
53.在一些实施例中,对所述训练文本进行符号识别,确定所述训练文本包括的符号以及所述符号的位置;根据所述训练文本包括的符号以及所述符号的位置,确定所述训练文本的分隔符。由此可以准确地确定训练文本的分隔符,以对训练文本进行文本分割处理。
54.具体地,可以对训练文本进行符号识别,得到训练文本中包括的所有符号,从训练文本中包括的所有符号中,确定目标符号,并获取目标符号的位置;根据目标符号的位置,确定训练文本的分隔符的位置以生成训练文本的分隔符。
55.示例性的,可以对病历对应的文本进行符号识别,得到病历对应的文本中包括的所有符号,比如包括大量的句号、顿号和逗号等。由于句号一般表示一个句子表述结束。因此可以从病历对应的文本中包括的所有符号中,筛选出句号作为目标符号,并获取所有句号的位置;将所有句号的位置作为病历对应的文本的分隔符的位置,从而生成病历对应的文本的分隔符。
56.s102、对所述句子集合中的句子进行编码以及配对处理,得到编码句子对及其对应的嵌入向量。
57.其中,编码句子对可以为句子集合中的句子进行编码以及随机配对后组合而成的句子对。编码句子对的嵌入向量可以用于表示编码句子对的最大长度以及嵌入维度。
58.在一些实施例中,对所述句子集合中的句子进行随机配对处理,得到句子对集合;对所述句子对集合的句子对进行编码处理,得到编码句子对和其对应的词向量;根据所述编码句子对和其对应的词向量生成所述编码句子对的嵌入向量。由此可以通过随机配对以及编码等手段准确地生成编码句子对以及对应的嵌入向量,从而习得文档内句子间的相互关系。
59.其中,句子对集合为句子对所组成的集合,编码句子对对应的词向量可以为句子对中句子的token表示,维数为768维。
60.示例性的,若句子集合可以表示为di=(s
i1
,s
i2
,s
i3
)。则可以对di中的句子进行随机配对处理,得到句子对可以包括(s
i1
,s
i2
)、(s
i1
,s
i3
)和(s
i2
,s
i3
),从而生成对应的句子对集合。
61.示例性的,若di内有mi个句子,则句子集合s内一共有个元素,输出可以表示为其中,z
ijk
表示为第i个文档中第j个句子和第k个句子的配对表示。
62.具体地,可以将句子集合内每一个句子对以token-level独立地输入到预训练好的bert模型中,从而得到编码句子对和其对应的词向量;并根据编码句子对和其对应的词向量生成编码句子对的嵌入向量。
63.示例性的,第j个句子和第k个句子的配对表示可以用公式表示为:
[0064][0065]
其中,表示第j个句子第一个token的表示,维数为768维。表示编码句子对的嵌入向量。
[0066]
在一些实施例中,在对所述句子集合中的句子进行随机配对处理,得到句子对集
合之后,确定句子对集合中的句子对的长度,并确定句子对的长度是否小于预设句子对长度;若有句子对的长度小于预设句子对长度,则通过预设符号对句子对进行填充,以使句子对的长度等于所述预设句子对长度。由此可以使得句子对集合中的句子对的长度相同。
[0067]
其中,预设句子对长度可以为句子对的最大长度,也可以为任意长度,在此不做具体限定。
[0068]
具体地,句子对z
ijk
可以表示为一个维度为(length=512,hidden=768)的二维矩阵,length表示句子对的最大长度(以token为单位),若输入各句子对长度不一致则用特殊符号《pad》进行补长,hidden表示token的嵌入维度。
[0069]
s103、根据所述编码句子对的嵌入向量确定所述主题分割模型的第一模型参数。
[0070]
其中,主题分割模型用于对文本进行主题划分,具体是通过识别文本主题从而将长文本划分若干具有不同主题的文本块。示例性的,可以通过识别病历文本的主题从而将病历中的长文本划分为若干具有不同主题的文本块,从而便于医生阅读,降低了问诊效率。第一模型参数可以为句子对是否来自同一段落的损失函数,用于训练主题分割模型。
[0071]
在一些实施例中,将所述编码句子对的嵌入向量输入到二分类器进行损失函数计算,得到所述主题分割模型的第一模型参数。由此可以通过编码句子对的嵌入向量计算对应的损失函数,从而得到主题分割模型的第一模型参数。
[0072]
其中,二分类器是在机器学习中,使用二次曲面来将物件或事件分成两个或以上的分类。
[0073]
具体地,可以将编码句子对的嵌入向量输入到softmax二分类器进行损失函数计算,从而计算得到对应的损失误差值,根据损失误差值生成图像分类模型的第一模型参数。
[0074]
s104、根据所述编码句子对的嵌入向量生成编码句子对矩阵,并对所述编码句子对矩阵进行池化处理,得到编码句子的句向量。
[0075]
其中,编码句子对矩阵用于表示每一个句子与其所有配对的编码句子对的嵌入向量拼接后得到矩阵。编码句子的句向量为编码句子的向量表示,可以用于表示句子间的关系信息,从而建模分段关系。
[0076]
在一些实施例中,对于任意一个句子,确定所述句子对应的多个编码句子对,并获取所述多个编码句子对的嵌入向量;将所述多个编码句子对的嵌入向量进行拼接处理,生成编码句子对矩阵。由此可以准确地生成编码句子对矩阵。
[0077]
具体地,对于其中一个句子,确定包括该句子的编码句子对,并提取这些编码句子对对应的的嵌入向量;将这些编码句子对的嵌入向量进行拼接处理,从而生成编码句子对矩阵。
[0078]
具体地,在得到编码句子对后,可以将每一个编码句子对z
ijk
的嵌入向量提取出来,对于每一个句子,将它的所有配对拼接在一起,得到矩阵
[0079]
示例性的,对于句子s
i1
,可以确定包括句子s
i1
的编码句子对为(s
i1
,s
i2
)、(s
i1
,s
i3
)和(s
i1
,s
i4
)。然后分别提取编码句子对(s
i1
,s
i3
)、(s
i1
,s
i3
)和(s
i1
,s
i4
)对应的的嵌入向量为和分别对和进行拼接处理,从而生成编
码句子对矩阵。
[0080]
具体地,可以将编码句子对矩阵输入到平均池化层中进行池化处理,以便能习得句子的向量表示hj∈r
768
,从而得到编码句子的句向量。
[0081]
s105、根据所述编码句子的句向量确定所述主题分割模型的第二模型参数,并根据所述第一模型参数和所述第二模型参数生成目标主题分割模型。
[0082]
其中,第二模型参数可以为句子是否为分段点的损失函数,用于训练主题分割模型。目标主题分割模型为经过第一模型参数和第二模型参数训练后生成的主题分割模型,能够准确地对文本进行主题划分,并准确地识别文本主题从而将长文本划分若干具有不同主题的文本块。
[0083]
示例性的,可以通过目标主题分割模型准确地识别病历文本的主题从而将病历中的长文本准确地划分为若干具有不同主题的文本块,从而便于医生阅读,降低了问诊效率。
[0084]
在一些实施例中,对所述编码句子的句向量进行解析,得到所述编码句子的关系信息;将所述编码句子的句向量和所述关系信息输入到二分类器进行损失函数计算,得到所述主题分割模型的第二模型参数。由此可以通过解析编码句子的句向量,从而得到编码句子的关系信息以确定第二模型参数,从而准确地确定句子是否为分段点。
[0085]
具体地,可以将句向量表示将句向量表示输入到softmax二分类器进行损失函数计算,从而计算得到对应的损失误差值,根据损失误差值生成图像分类模型的第二模型参数。其中,h1表示第一个编码句子对应的句向量。
[0086]
示例性的,由于编码句子的句向量是通过编码句子对矩阵池化处理后得到的,因此编码句子的句向量蕴含了该句子与其它句子的关系信息,因此可以先对编码句子的句向量进行解析,从而得到编码句子与其余句子的关系信息;将编码句子的句向量和关系信息输入到二分类器进行损失函数计算,从而得到主题分割模型的第二模型参数。
[0087]
具体地,可以通过第一模型参数对应的损失函数与第二模型参数对应的损失函数确定主题分割模型的总交叉熵损失,并通过总交叉熵损失对主题分割模型进行训练,从而生成目标主题分割模型。
[0088]
其中,总交叉熵损失可以用公式表示为:
[0089]
l=ι1+γι2[0090]
其中,l为总交叉熵损失,ι1为第一模型参数对应的损失函数,ι2为第二模型参数对应的损失函数,γ为正则化参数,作为超参数。
[0091]
本技术实施例公开的主题分割模型的训练方法,通过对训练文本进行文本分割处理,得到训练文本对应的句子集合;对句子集合中的句子进行编码以及配对处理,得到编码句子对及其对应的嵌入向量;根据编码句子对的嵌入向量生成编码句子对矩阵,并对所述编码句子对矩阵中进行池化处理,得到编码句子的句向量;根据编码句子对的嵌入向量和句向量分别确定第一模型参数和第二模型参数,从而生成目标主题分割模型。由此可以充分利用文本信息,对潜在分割点的长距离依赖关系进行建模,使得生成的主题分割模型结构简单,提高文本主题分割的分割精度以及提高运算效率,从而提高医生的问诊效率。
[0092]
示例性的,目标主题分割模型能够在充分利用现有医疗数据的情况下节省了运算开销;目标主题分割模型的层次结构简单;目标主题分割模型还能够通过多任务学习,能够充分利用病历中的全部文本信息以及药方中的全部文本信息,提高文本主题分割的分割精
度。
[0093]
如图3所示,图3为本技术实施例提供的一种主题分割模型的模型架构图。
[0094]
如图3所示,本技术提供的主题分割模型的训练方法可以通过对句子集合中的句子进行配对处理,得到多个句子对比如(s
i1
,s
i3
)、(s
i2
,s
i3
)和(s
i2
,s
i3
)等等,然后对句子对集合的句子对进行编码处理,得到编码句子对应的嵌入向量通过将编码句子对应的嵌入向量输入到softmax二分类器进行损失函数计算,从而计算得到第一模型参数对应的损失函数ι1;通过编码句子对的嵌入向量进行池化处理,得到编码句子的句向量通过将编码句子的句向量输入到softmax二分类器进行损失函数计算,从而计算得到第二模型参数对应的损失函数ι2;最后计算得到总交叉熵损失l,并通过总交叉熵损失对主题分割模型进行训练,从而生成目标主题分割模型。
[0095]
请参阅图4,图4是本技术一实施例提供的一种主题分割模型的训练装置的示意性框图,该主题分割模型的训练装置可以配置于服务器中,用于执行前述的主题分割模型的训练方法。
[0096]
如图4所示,该主题分割模型的训练装置200包括:文本分割模块201、句子对生成模块202、参数确定模块203、池化处理模块204和模型生成模块205。
[0097]
文本分割模块201,用于获取训练文本,并对所述训练文本进行文本分割处理,得到所述训练文本对应的句子集合;
[0098]
句子对生成模块202,用于对所述句子集合中的句子进行编码以及配对处理,得到编码句子对及其对应的嵌入向量;
[0099]
参数确定模块203,用于根据所述编码句子对的嵌入向量确定所述主题分割模型的第一模型参数;
[0100]
池化处理模块204,用于根据所述编码句子对的嵌入向量生成编码句子对矩阵,并对所述编码句子对矩阵中进行池化处理,得到编码句子的句向量;
[0101]
模型生成模块205,用于根据所述编码句子的句向量确定所述主题分割模型的第二模型参数,并根据所述第一模型参数和所述第二模型参数生成目标主题分割模型。
[0102]
在一些实施例中,文本分割模块201,还用于对所述训练文本中句子的分割边界进行识别,得到所述训练文本的分隔符;根据所述训练文本的分隔符对所述训练文本进行文本分割处理,得到所述训练文本对应的句子集合。
[0103]
在一些实施例中,文本分割模块201,还用于对所述训练文本进行符号识别,确定所述训练文本包括的符号以及所述符号的位置;根据所述训练文本包括的符号以及所述符号的位置,确定所述训练文本的分隔符。
[0104]
在一些实施例中,句子对生成模块202,还用于对所述句子集合中的句子进行随机配对处理,得到句子对集合;对所述句子对集合的句子对进行编码处理,得到编码句子对和其对应的词向量;根据所述编码句子对和其对应的词向量生成所述编码句子对的嵌入向量。
[0105]
在一些实施例中,句子对填充模块206,还用于确定所述句子对集合中的句子对的
长度,并确定所述句子对的长度是否小于预设句子对长度;若有所述句子对的长度小于预设句子对长度,则通过预设符号对所述句子对进行填充,以使所述句子对的长度等于所述预设句子对长度。
[0106]
在一些实施例中,参数确定模块203,还用于将所述编码句子对的嵌入向量输入到二分类器进行损失函数计算,得到所述主题分割模型的第一模型参数。
[0107]
在一些实施例中,池化处理模块204,还用于对于任意一个句子,确定所述句子对应的多个编码句子对,并获取所述多个编码句子对的嵌入向量;将所述多个编码句子对的嵌入向量进行拼接处理,生成编码句子对矩阵。
[0108]
在一些实施例中,模型生成模型205,还用于对所述编码句子的句向量进行解析,得到所述编码句子的关系信息;将所述编码句子的句向量和所述关系信息输入到二分类器进行损失函数计算,得到所述主题分割模型的第二模型参数。
[0109]
需要说明的是,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的装置和模块、单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
[0110]
本技术的方法、装置可用于众多通用或专用的计算系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、机顶盒、可编程的消费终端设备、网络pc、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。
[0111]
示例性的,上述的方法、装置可以实现为一种计算机程序的形式,该计算机程序可以在如图5所示的计算机设备上运行。
[0112]
请参阅图5,图5是本技术实施例提供的一种计算机设备的示意图。该计算机设备可以是服务器。
[0113]
如图5所示,该计算机设备包括通过系统总线连接的处理器、存储器和网络接口,其中,存储器可以包括易失性存储介质、非易失性存储介质和内存储器。
[0114]
非易失性存储介质可存储操作系统和计算机程序。该计算机程序包括程序指令,该程序指令被执行时,可使得处理器执行任意一种主题分割模型的训练方法。
[0115]
处理器用于提供计算和控制能力,支撑整个计算机设备的运行。
[0116]
内存储器为非易失性存储介质中的计算机程序的运行提供环境,该计算机程序被处理器执行时,可使得处理器执行任意一种主题分割模型的训练方法。
[0117]
该网络接口用于进行网络通信,如发送分配的任务等。本领域技术人员可以理解,该计算机设备的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
[0118]
应当理解的是,处理器可以是中央处理单元(central processing unit,cpu),该处理器还可以是其他通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
[0119]
其中,在一些实施方式中,所述处理器用于运行存储在存储器中的计算机程序,以实现如下步骤:获取训练文本,并对所述训练文本进行文本分割处理,得到所述训练文本对应的句子集合;对所述句子集合中的句子进行编码以及配对处理,得到编码句子对及其对应的嵌入向量;根据所述编码句子对的嵌入向量确定所述主题分割模型的第一模型参数;根据所述编码句子对的嵌入向量生成编码句子对矩阵,并对所述编码句子对矩阵进行池化处理,得到编码句子的句向量;根据所述编码句子的句向量确定所述主题分割模型的第二模型参数,并根据所述第一模型参数和所述第二模型参数生成目标主题分割模型。
[0120]
在一些实施方式中,所述处理器还用于对所述训练文本中句子的分割边界进行识别,得到所述训练文本的分隔符;根据所述训练文本的分隔符对所述训练文本进行文本分割处理,得到所述训练文本对应的句子集合。
[0121]
在一些实施方式中,所述处理器还用于对所述训练文本进行符号识别,确定所述训练文本包括的符号以及所述符号的位置;根据所述训练文本包括的符号以及所述符号的位置,确定所述训练文本的分隔符。
[0122]
在一些实施方式中,所述处理器还用于对所述句子集合中的句子进行随机配对处理,得到句子对集合;对所述句子对集合的句子对进行编码处理,得到编码句子对和其对应的词向量;根据所述编码句子对和其对应的词向量生成所述编码句子对的嵌入向量。
[0123]
在一些实施方式中,所述处理器还用于确定所述句子对集合中的句子对的长度,并确定所述句子对的长度是否小于预设句子对长度;若有所述句子对的长度小于预设句子对长度,则通过预设符号对所述句子对进行填充,以使所述句子对的长度等于所述预设句子对长度。
[0124]
在一些实施方式中,所述处理器还用于将所述编码句子对的嵌入向量输入到二分类器进行损失函数计算,得到所述主题分割模型的第一模型参数。
[0125]
在一些实施方式中,所述处理器还用于对于任意一个句子,确定所述句子对应的多个编码句子对,并获取所述多个编码句子对的嵌入向量;将所述多个编码句子对的嵌入向量进行拼接处理,生成编码句子对矩阵。
[0126]
在一些实施方式中,所述处理器还用于对所述编码句子的句向量进行解析,得到所述编码句子的关系信息;将所述编码句子的句向量和所述关系信息输入到二分类器进行损失函数计算,得到所述主题分割模型的第二模型参数。
[0127]
本技术实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序中包括程序指令,所述程序指令被执行时实现本技术实施例提供的任一种主题分割模型的训练方法。
[0128]
其中,所述计算机可读存储介质可以是前述实施例所述的计算机设备的内部存储单元,例如所述计算机设备的硬盘或内存。所述计算机可读存储介质也可以是所述计算机设备的外部存储设备,例如所述计算机设备上配备的插接式硬盘,智能存储卡(smart media card,smc),安全数字(secure digital,sd)卡,闪存卡(flash card)等。
[0129]
进一步地,所述计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。
[0130]
本发明所指区块链语言模型的存储、点对点传输、共识机制、加密算法等计算机技
术的新型应用模式。区块链(blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
[0131]
以上所述,仅为本技术的具体实施方式,但本技术的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本技术揭露的技术范围内,可轻易想到种等效的修改或替换,这些修改或替换都应涵盖在本技术的保护范围之内。因此,本技术的保护范围应以权利要求的保护范围为准。
技术特征:
1.一种主题分割模型的训练方法,其特征在于,所述方法包括:获取训练文本,并对所述训练文本进行文本分割处理,得到所述训练文本对应的句子集合;对所述句子集合中的句子进行编码以及配对处理,得到编码句子对及其对应的嵌入向量;根据所述编码句子对的嵌入向量确定所述主题分割模型的第一模型参数;根据所述编码句子对的嵌入向量生成编码句子对矩阵,并对所述编码句子对矩阵进行池化处理,得到编码句子的句向量;根据所述编码句子的句向量确定所述主题分割模型的第二模型参数,并根据所述第一模型参数和所述第二模型参数生成目标主题分割模型。2.根据权利要求1所述的方法,其特征在于,所述对所述训练文本进行文本分割处理,得到所述训练文本对应的句子集合,包括:对所述训练文本中句子的分割边界进行识别,得到所述训练文本的分隔符;根据所述训练文本的分隔符对所述训练文本进行文本分割处理,得到所述训练文本对应的句子集合。3.根据权利要求2所述的方法,其特征在于,所述对所述训练文本中句子的分割边界进行识别,得到所述训练文本的分隔符,包括:对所述训练文本进行符号识别,确定所述训练文本包括的符号以及所述符号的位置;根据所述训练文本包括的符号以及所述符号的位置,确定所述训练文本的分隔符。4.根据权利要求1所述的方法,其特征在于,所述对所述句子集合中的句子进行编码以及配对处理,得到编码句子对及其对应的嵌入向量,包括:对所述句子集合中的句子进行随机配对处理,得到句子对集合;对所述句子对集合的句子对进行编码处理,得到编码句子对和其对应的词向量;根据所述编码句子对和其对应的词向量生成所述编码句子对的嵌入向量。5.根据权利要求4所述的方法,其特征在于,在所述对所述句子集合中的句子进行随机配对处理,得到句子对集合之后,所述方法还包括:确定所述句子对集合中的句子对的长度,并确定所述句子对的长度是否小于预设句子对长度;若有所述句子对的长度小于预设句子对长度,则通过预设符号对所述句子对进行填充,以使所述句子对的长度等于所述预设句子对长度。6.根据权利要求1所述的方法,其特征在于,所述根据所述编码句子对的嵌入向量生成编码句子对矩阵,包括:对于任意一个句子,确定所述句子对应的多个编码句子对,并获取所述多个编码句子对的嵌入向量;将所述多个编码句子对的嵌入向量进行拼接处理,生成编码句子对矩阵。7.根据权利要求1所述的方法,其特征在于,所述根据所述编码句子的句向量确定所述主题分割模型的第二模型参数,包括:对所述编码句子的句向量进行解析,得到所述编码句子的关系信息;将所述编码句子的句向量和所述关系信息输入到二分类器进行损失函数计算,得到所
述主题分割模型的第二模型参数。8.一种主题分割模型的训练装置,其特征在于,包括:文本分割模块,用于获取训练文本,并对所述训练文本进行文本分割处理,得到所述训练文本对应的句子集合;句子对生成模块,用于对所述句子集合中的句子进行编码以及配对处理,得到编码句子对及其对应的嵌入向量;参数确定模块,用于根据所述编码句子对的嵌入向量确定所述主题分割模型的第一模型参数;池化处理模块,用于根据所述编码句子对的嵌入向量生成编码句子对矩阵,并对所述编码句子对矩阵中进行池化处理,得到编码句子的句向量;模型生成模块,用于根据所述编码句子的句向量确定所述主题分割模型的第二模型参数,并根据所述第一模型参数和所述第二模型参数生成目标主题分割模型。9.一种计算机设备,其特征在于,所述计算机设备包括存储器和处理器;所述存储器,用于存储计算机程序;所述处理器,用于执行所述的计算机程序并在执行所述的计算机程序时实现:如权利要求1-7任一项所述的主题分割模型的训练方法。10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器实现如权利要求1-7中任一项所述的主题分割模型的训练方法。
技术总结
本发明实施例提供一种主题分割模型的训练方法、装置、设备及存储介质,涉及人工智能领域。该方法包括:对训练文本进行文本分割处理,得到训练文本对应的句子集合;对句子集合中的句子进行编码以及配对处理,得到编码句子对及其对应的嵌入向量;根据编码句子对的嵌入向量确定主题分割模型的第一模型参数;根据编码句子对的嵌入向量生成编码句子对矩阵,并对编码句子对矩阵中进行池化处理,得到编码句子的句向量;根据编码句子的句向量确定主题分割模型的第二模型参数,并根据第一模型参数和第二模型参数生成目标主题分割模型。本申请实施例旨在提高文本主题分割的分割精度以及提高运算效率,从而提高医生的问诊效率。从而提高医生的问诊效率。从而提高医生的问诊效率。
技术研发人员:舒畅 陈又新
受保护的技术使用者:平安科技(深圳)有限公司
技术研发日:2023.06.16
技术公布日:2023/9/6
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
