中医诊断模型训练方法、装置、设备及存储介质与流程

未命名 07-27 阅读:98 评论:0


1.本技术涉及人工智能的技术领域,尤其涉及一种中医诊断模型训练方法、装置、设备及存储介质。


背景技术:

2.目前,在中医疾病诊断中,除了确定疾病名称,同时会确定疾病的具体证型,疾病的证型指示了患病的病因、病机。同一种疾病下的证型少至3-5种多至数十种,这给推进中国专病辨证诊断的智能化带来挑战。
3.一方面,因为病因病机的多样性、复杂性,不同证型不免产生交叠,另一方面,由于证型在实际诊断中的分布不是均匀的,难以为每一种证型都收集到足够多的高质量数据供模型学习。然而,业务应用场景又要求智能模型必须能够出色地地拟合每一种可能出现的证型,即便某一种证型是罕见的。


技术实现要素:

4.本技术的主要目的在于提供一种中医诊断模型训练方法、装置、设备及存储介质,旨在解决了现有技术在训练中医诊断模型时,训练数据不足,并且模型训练效果不佳的问题。
5.第一方面,本技术提供一种中医诊断模型训练方法,包括:
6.当接收到识别模型训练指令时,从所述识别模型训练指令中提取目标证型;
7.从多个数据源中搜索与所述目标证型相对应的第一描述信息,并从多个所述数据源中获取除所述目标证型之外的其他证型对应的第二描述信息;
8.根据所述第一描述信息构建正例样本对,并根据所述第一描述信息以及所述第二描述信息构建负例样本对,其中,所述正例样本对以及所述负例样本对中的描述信息的数据源不同;
9.对所述正例样本对进行数据增强以得到第一训练样本集,并对所述负例样本对进行数据增强以得到第二训练样本集;
10.根据所述第一训练样本集以及所述第二训练样本集的实体特征、相似度特征以及文本特征训练诊断模型。
11.第二方面,本技术还提供一种中医诊断模型训练装置,所述中医诊断模型训练装置包括:
12.指令接收模块,用于当接收到识别模型训练指令时,从所述识别模型训练指令中提取目标证型;
13.数据获取模块,用于从多个数据源中搜索与所述目标证型相对应的第一描述信息,并从多个所述数据源中获取除所述目标证型之外的其他证型对应的第二描述信息;
14.数据构建模块,用于根据所述第一描述信息构建正例样本对,并根据所述第一描述信息以及所述第二描述信息构建负例样本对,其中,所述正例样本对以及所述负例样本
对中的描述信息的数据源不同;
15.数据增强模块,用于对所述正例样本对进行数据增强以得到第一训练样本集,并对所述负例样本对进行数据增强以得到第二训练样本集;
16.训练模块,用于根据所述第一训练样本集以及所述第二训练样本集的实体特征、相似度特征以及文本特征训练诊断模型。
17.第三方面,本技术还提供一种计算机设备,所述计算机设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机程序,其中所述计算机程序被所述处理器执行时,实现如上所述的中医诊断模型训练方法的步骤。
18.第四方面,本技术还提供一种存储介质,所述计算机可读存储介质上存储有计算机程序,其中所述计算机程序被处理器执行时,实现如上所述的中医诊断模型训练方法的步骤。
19.本技术提供一种中医诊断模型训练方法、装置、设备及存储介质,本技术中,使用不同数据源的描述信息构建正例样本对以及负例样本对,并对正例样本对以及负例样本对进行数据增强,解决了现有技术在训练中医诊断模型时,训练数据不足的问题;另外,根据第一训练样本集以及第二训练样本集的多个维度特征来训练诊断模型,进一步提高了诊断模型的训练效果。
附图说明
20.为了更清楚地说明本技术实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
21.图1为本技术实施例提供的一种中医诊断模型训练方法的步骤流程示意图;
22.图2为本技术实施例提供的一种中医诊断模型训练装置的示意性框图;
23.图3为本技术实施例提供的一种计算机设备的结构示意性框图。
24.本技术目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
25.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
26.附图中所示的流程图仅是示例说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解、组合或部分合并,因此实际执行的顺序有可能根据实际情况改变。另外,虽然在装置示意图中进行了功能模块的划分,但是在某些情况下,可以以不同于装置示意图中的模块划分。
27.本技术实施例提供一种中医诊断模型训练方法、装置、设备及存储介质。其中,该方法可应用于终端设备或服务器中,该终端设备可以为手机、平板电脑、笔记本电脑、台式电脑、个人数字助理和穿戴式设备等电子设备;该服务器可以为单台的服务器,也可以为由多台服务器组成的服务器集群。以下以该方法应用于服务器为例进行解释说明。
28.下面结合附图,对本技术的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
29.请参照图1,图1为本技术实施例提供的一种中医诊断模型训练方法的步骤流程示意图。
30.如图1所示,该中医诊断模型训练方法包括步骤s10至步骤s15。
31.步骤s10、当接收到识别模型训练指令时,从所述识别模型训练指令中提取目标证型。
32.其中,识别模型训练指令中携带有目标证型,目标证型表征中医诊断下的某一种疾病中的某一种分型,也叫证型,识别模型训练指令用于指示本技术的执行主体训练用于诊断目标证型的诊断模型。
33.可以理解,当本技术的执行主体是服务器时,识别模型训练指令可以为服务器接收到的用户利用终端设备发送的网络请求,也可以为终端设备与服务器建立全双工通讯连接后,服务器接收到的用户通过终端设备发送的即时通讯消息,当然,识别模型训练指令还可以为服务器接收到并可以识别的其他形式的控制指令,在此不做限制。
34.相应的,当本技术的执行主体为终端设备时,识别模型训练指令则可以为用户点击终端设备的屏幕或按钮等控件时,终端设备捕捉并识别到的控制信息,同样,识别模型训练指令还可以为终端设备接收到并可以识别的其他形式的控制指令,在此不做限制。
35.步骤s11、从多个数据源中搜索与所述目标证型相对应的第一描述信息,并从多个所述数据源中获取除所述目标证型之外的其他证型对应的第二描述信息。
36.其中,多个数据源包括但不限定于《中医睡眠诊疗指南》、《医诊疗术语标准》、《中医神志病学》以及《百度百科》等等。
37.不同的数据源汇聚了不同渠道下关于各种证型的语料,从多个数据源中搜索与目标证型相对应的语料,即得到第一描述信息;相应的,从多个数据源中获取除目标证型以外的其他证型的语料,即得到第二描述信息。可以理解,因为每一种数据源下对应某一种特地证型的语料有一个或多个,因此,通过步骤s11所获得的第一描述信息以及第二描述信息的数量为多个。
38.步骤s12、根据所述第一描述信息构建正例样本对,并根据所述第一描述信息以及所述第二描述信息构建负例样本对,其中,所述正例样本对以及所述负例样本对中的描述信息的数据源不同。
39.可以理解,每一个正例样本对包括两个不同的第一描述信息,并且,每一对构成正例样本对的第一描述信息来自不同的数据源;另外,每个负例样本对则包括一个第一描述信息以及一个第二描述信息,并且,每一个负例样本对中的第一描述信息以及第二描述信息的数据源不同。通过步骤s12,可以构建出多个正例样本对以及负例样本对。
40.因为不同的数据源中的数据是由不同的人编写出来的,因此,即使是对同一个证型,不同的数据源对该证型的描述方式也是不同的,但是在不同的描述方式下,对应的描述内容都是与某一个特定的证型对应的。
41.示例性的,在数据源《中医睡眠诊疗指南》中,对“瘀血内阻证”的其中一条描述信息为“瘀血内阻证主症:失眠日久,躁扰不宁,胸不任物,胸任重物,夜多惊梦,夜不能睡,夜寐不安”。而在数据源《百度百科》中,对“瘀血内阻证”的其中一条描述信息为“瘀血内阻证,
中医病证名。是指瘀血内阻,血行不畅,以局部出现青紫肿块、疼痛拒按,或腹内癥块、刺痛不移、拒按,或出血紫暗成块,舌紫或有斑点,脉弦涩等为常见症的证候。”42.本实施方式中,使用不同数据源的第一描述信息构建正例样本对,并使用不同数据源的第一描述信息以及第二描述信息来构建负例样本对,再以正例样本对以及负例样本对来构建训练数据以训练诊断模型,不仅可以让诊断模型对不同数据源的数据进行交叉对比,还可以让诊断模型对不同证型在中医诊断原理以及语义之间进行交叉对比,可以提高诊断模型对目标证型的识别准确率。
43.在一些实施方式中,所述根据所述第一描述信息以及所述第二描述信息构建负例样本对,包括:
44.获取所述目标证型在预设的临床术语标准中所处的节点作为目标节点;
45.从所述临床术语标准中获取与所述目标节点相邻的节点作为邻居节点,并获取所述邻居节点在所述临床术语标准中对应的证型作为邻居证型;
46.从各个所述第二描述信息中筛选与所述邻居证型相对应的目标描述信息,并根据所述第一描述信息以及所述目标描述信息构建负例样本对。
47.在一些实施方式中,临床术语标准包括但不限定于《中医临床术语标准》。
48.可以理解,临床术语标准对各种疾病、以及各种疾病下的证型进行了分类,并且是根据疾病与疾病之间,疾病下的证型与证型之间的相似度进行分类的。因此,疾病与疾病之间的相似度越高,这两个疾病在临床术语标准中的节点越接近,同理,在同一个疾病下,证型与证型之间的相似度越高,这两个证型在临床术语标准中的节点也越接近。
49.邻居证型与目标证型为同属于某一种疾病下的不同分型,并且,因为邻居证型对应的邻居节点与目标证型对应的目标节点相邻,因此,邻居证型与目标证型的症状之间具有很大的共性,非常相似。
50.示例性的,假设目标证型为“瘀血内阻证”,并且假设“瘀血内阻证”在《中医临床术语标准》中的其中一个邻居节点对应的证型为“血瘀兼夹证”。则分别获取“血瘀兼夹证”对应的目标描述信息以及“瘀血内阻证”的第一描述信息构建负例样本对。
51.本实施方式中,在构建负例样本对的时候,获取邻居证型对应的目标描述信息与目标证型对应的第一描述信息构建负例样本对,则后续使用这个负例样本对来训练诊断模型的过程中,诊断模型可以更好的学习到目标证型与邻居证型的区别特征,可以提高诊断模型对目标证型的识别准确率。
52.步骤s13、对所述正例样本对进行数据增强以得到第一训练样本集,并对所述负例样本对进行数据增强以得到第二训练样本集。
53.可以理解,通过数据增强可以扩充数据,分别对正例样本对以及负例样本对进行数据增强后,可以提高用于训练模型的训练数据的数据量。
54.其中,由对正例样本对进行数据增强所得到的增强结果构成的集合,即为第一训练样本集;同理,由对负例样本对进行数据增强所得到的增强结果构成的集合,即为第二训练样本集。
55.在一些实施方式中,所述对所述正例样本对进行数据增强以得到第一训练样本集,包括:
56.拷贝所述正例样本对以得到拷贝结果,并识别所述拷贝结果中的症状实体信息,
以得到实体信息列表;
57.从所述实体信息列表中随机抽取若干个目标实体信息,并获取所述目标实体信息对应的匹配同义词;
58.根据所述匹配同义词对所述正例样本对进行数据增强,以得到第一训练样本集。
59.示例性的,在“小明在1992年从大学毕业”中,“小明”、“1992年”和“大学”都是命名实体。
60.拷贝结果中的与症状相关命名实体即为症状实体信息,其中,拷贝结果中可能存在多个症状实体信息,由症状实体信息构成的列表,即为实体信息列表。目标实体信息为从实体信息列表中随机选取出来的一个或多个症状实体信息,目标实体信息对应的同义词即为匹配同义词。
61.在一些试试方式中,可以通过命名体识别技术来识别拷贝结果中的症状实体信息;也可以通过人工的方式预先对正例样本对中的症状实体信息进行标注处理,本技术的执行主体通过读取拷贝结果中标注即可确定症状实体信息;当然,还可以通过其他方式来识别拷贝结果中的症状实体信息,在此不做限制。
62.在一些实施方式中,可以先从数据库中获取一个预构建好的中医领域的映射字典,其中,映射字典中记录有各种症状实体信息对应的同义词,根据映射字典即可获取目标实体信息对应的匹配同义词。另外,也可以先获取症状实体信息对应的词向量作为第一词向量,并利用第一词向量与预设的词库中的各个词语的词向量进行比对,并从预设词库中选取词向量与第一词向量相近的词语作为目标实体信息对应的匹配同义词。当然,还可以采用其他方式来获取目标实体信息对应的匹配同义词,在此不做限制。
63.在一些实施方式中,所述根据所述匹配同义词对所述正例样本对进行数据增强,以得到第一训练样本集,包括:
64.将所述拷贝结果中的所述目标实体信息替换为所述匹配同义词,得到所述正例样本对的第一增强样本;
65.根据所述正例样本对以及所述第一增强样本构建第一训练样本集。
66.可以理解,将拷贝结果中的目标实体信息替换为匹配同义词,所得到的替换结果即为正例样本对的第一增强样本。
67.因为拷贝结果中的症状实体信息有一个或多个,并且每个症状实体信息对应的匹配同义词也有一个或多个。因此,无论是选择不同的症状实体信息作为目标实体信息来进行同义词替换,还是选择不同的匹配同义词来对某一个目标实体信息进行替换,都可以产生不同的替换结果。因此,最终所得到的的第一增强样本会有很多个。
68.本实施方式中,通过对正例样本对进行拷贝,并对拷贝结果中的若干个症状实体信息进行同义词替换,实现了正例样本对的数据增强,扩充了用于模型训练的训练数据的数据量。
69.在一些实施方式中,所述根据所述匹配同义词对所述正例样本对进行数据增强,以得到第一训练样本集,包括:
70.从所述拷贝结果中获取包含所述目标实体信息的目标描述语句;
71.利用预训练好的归一化模型从各个所述第一描述信息中识别与所述匹配同义词对应的匹配描述语句;
72.将所述拷贝结果中的所述目标描述语句替换为所述匹配描述语句,得到所述正例样本对的第二增强样本;
73.根据所述正例样本对以及所述第二增强样本构建第一训练样本集。
74.可以理解,拷贝结果是由多个描述语句通过标点符号拼接得到,其中,拷贝结果中包含了目标实体信息的描述语句即为目标描述语句。
75.获取到预训练好的归一化(norm)模型后,利用归一化模型可以将各个第一描述信息中的各个语句对齐至某一个症状实体信息,得到一个映射表。从映射表中获取症状实体信息为匹配同义词对应的描述语句,即得到匹配描述语句,将拷贝结果中的目标描述语句替换为匹配描述语句,所得到的替换结果即为第二增强样本。另外,因为匹配同义词对应的匹配描述语句可能有一个或多个,因此,对拷贝结果中的目标描述语句进行替换后,所得到的第二增强样本也会有一个或多个,由各个正例样本对以及各个第二增强样本构建得到的集合,即为第一训练样本集。
76.示例性的,假设拷贝结果为“a,b,c,d,e”,其中,a、b、c、d,e为构成拷贝结果的五个语句,并且语句d为包含了目标实体信息的目标描述语句。
77.假设利用预训练好的归一化模型对各个第一描述信息进行分析后,所得到的的映射结果如下表1所示。
78.表1、
[0079][0080]
假设目标实体信息对应的匹配同义词为e3,则从表1中可获得匹配描述语句f6,f7,f8,f9,f10以及f11。
[0081]
则使用匹配描述语句对拷贝结果中的目标描述语句进行替换后,所得到的的第二增强样本如下表2所示。
[0082]
表2、
[0083][0084][0085]
当然,如果拷贝结果中的目标实体信息有多个,此时,可以被替换的目标描述语句也有多个。示例性的,假设在拷贝结果“a,b,c,d,e”中,语句d为包含两个目标实体信息e00以及e01的目标描述语句,假设从映射表中获取的与e00相匹配的匹配同义词对应的匹配描述语句为f15,并且假设从映射表中获取的与e01相匹配的匹配同义词对应的匹配描述语句为f16,则对f15与f16进行拼接后,得到拼接结果“f15,f16”,将拷贝结果中的目标描述语句d替换为拼接结果“f15,f16”后,最终所得到正例样本对的第二增强样本为“a,b,c,f15,f16,e”。
[0086]
本实施方式中,通过对正例样本对进行拷贝,并对拷贝结果中的包含症状实体信息的目标描述语句进行匹配描述语句替换,实现了正例样本对的数据增强,扩充了用于模型训练的训练数据的数据量。
[0087]
其中,对负例样本对进行数据增强的技术方案可以参考上述对正例样本对进行数据增强的技术方案,在此不做过多赘述。
[0088]
步骤s14、根据所述第一训练样本集以及所述第二训练样本集的实体特征、相似度特征以及文本特征训练诊断模型。
[0089]
可以理解,构建好第一训练样本以及第二训练样本后,即可将第一训练样本以及第二训练样本输入神经网络模型,以让神经网络模型根据第一训练样本以及第二训练样本中的实体特征、相似度特征以及文本特征进行训练。神经网络模型训练完成时,即得到可用于诊断目标证型的诊断模型。
[0090]
其中,实体特征是指第一训练样本集以及第二训练样本集中的各个描述信息所携带的症状实体信息的特征;相似度特征是指第一训练样本集中的构成正例样本对的两个描述信息之间的相似度,以及第二训练样本集中的构成负例样本对的两个描述信息之间的相似度;而文本特征则是指第一训练样本集以及第二训练样本中各个描述信息对某个证型的表述方式。
[0091]
神经网络模型在训练时,通过第二训练样本集中的各个负例样本对,可以对不同证型在中医诊断原理、语义之间进行交叉对比,从而学习目标证型与其他证型之间的联系与区别,提升神经网络模型的证型鉴别能力。另外,第一训练样本中的正例样本对,以及第二训练样本中的负例样本对中的两个描述信息的数据源是不相同的,神经网络模型在训练
过程中,可以针对不同数据源的数据进行交叉对比,不仅可以应对训练数据不足的问题,而且增加了训练数据的权威性。并且,神经网络模型在训练过程中,可以对第一训练样本集以及第二训练样本集中的描述信息的文本特征、实体特征,以及正例数据对或者负例数据对中的两个描述信息之间的相似度特征进行学习,可以进一步提升由神经网络模型训练得到的诊断模型对目标证型的识别准确度。
[0092]
在一些实施方式中,所述根据所述第一训练样本集以及所述第二训练样本集的实体特征、相似度特征以及文本特征训练诊断模型,包括:
[0093]
从所述第一训练样本集的各个样本中提取症状实体信息,并计算所述症状实体信息与所述目标证型的互信息;
[0094]
根据各个所述症状实体信息对应的互信息构建诊断规则,并根据所述诊断规则对所述第一训练样本集以及所述第二训练样本集进行标注处理;
[0095]
对所述第一训练样本集以及所述第二训练样本集进行相似度特征标注处理后,使用所述第一训练样本集以及所述第二训练样本集训练诊断模型。
[0096]
可以理解,利用计算得到的互信息(mutual information)可以度量症状实体信息与目标证型的之间的相互性。
[0097]
因为症状实体信息与目标证型的互信息越高,说明该症状实体信息与目标证型的关联度越高,因此,在计算得到各个症状实体信息与目标证型的互信息之后,可以根据互信息构建诊断规则。
[0098]
具体的,可以根据互信息来确定症状实体信息对于诊断目标证型的权重等级,并根据权重等级对训练样本集的描述信息中的症状实体信息进行标注。可以理解,本实施方式实现了对第一训练样本集以及第二样本集的实体特征的标注,症状实体信息的权重等级越高,在训练诊断模型的过程中,这个症状实体信息越会受到诊断模型的关注,通过本实施方式所提供的技术方案,提高了诊断模型对用于判断目标证型的关键症状实体信息的识别能力。
[0099]
在一些实施方式中,所述对所述第一训练样本集以及所述第二训练样本集进行相似度特征标注处理后,使用所述第一训练样本集以及所述第二训练样本集训练诊断模型,包括:
[0100]
根据所述第一训练集合提取正例样本对应的平均向量特征;
[0101]
从所述第一训练样本集或所述第二训练样本集中选取目标样本对,并从所述目标样本对中提取第一样本以及第二样本;
[0102]
获取所述第一样本对应的向量特征作为第一向量特征,并获取所述第二样本对应的向量特征作为第二向量特征;
[0103]
根据所述第一向量特征与所述平均向量特征的距离对所述第一样本进行标注处理,并根据所述第二向量特征与所述平均向量特征的距离对所述第二样本进行标注处理;
[0104]
将所述第一样本以及所述第二样本输入预构建好的神经网络模型,以对所述神经网络模型进行训练;
[0105]
当所述神经网络模型训练完成时,得到诊断模型。
[0106]
在一些实施方式中,所述根据所述第一训练集合提取正例样本对应的平均向量特征,包括:
[0107]
获取所述第一训练集合中的正例样本的数量作为第一数量,并从所述第一训练集合中逐个提取正例样本作为目标样本;
[0108]
利用预训练好的向量获取模型对所述目标样本进行编码处理,得到目标样本向量;
[0109]
累加各个所述目标样本向量以得到目标样本总向量,并利用所述目标样本总向量除以所述第一数量,得到平均向量特征。
[0110]
可以理解,第一训练集合中包括正例样本对以及由正例样本对增强后得到的第一增强样本,另外,每一个正例样本对以及第一增强样本中又包括两个正例样本。第一训练集合中所包含的正例样本的总数量即为第一数量。
[0111]
目标样本向量为可以表征目标样本的语义的向量,利用向量获取模型获取到第一训练集合中的各个正例样本的目标样本向量后,对各个目标样本向量进行累加,即可得到目标样本总向量,目标样本总向量与第一数量的商即为平均向量特征。
[0112]
在一些实施方式中,向量获取模型可以为bert(bidirectional encoder representation from transformers)模型,也可以为word2vec(word vecor(,也叫word embedding)模型,还可以为其他可以获取关键词对应的词向量的模型,在此不做限制。
[0113]
可以理解,第一训练样本集以及所述第二训练样本集中包括多个样本对,其中,第一训练样本集中皆为由两个正例样本构成的正例样本对,而第二训练样本集中则皆为由一个正例样本以及一个负例样本构成的负例样本对。从第一训练样本集或者第二训练样本集中逐个提取样本对进行相似度特征标注,当前从第一训练样本集或者第二训练样本集中提取出来样本对即为目标样本对。另外,构成目标样本对的两个描述信息分别为第一样本以及第二样本。
[0114]
另外,同样可以采用向量获取模型来获取第一样本以及第二样本的向量特征,其中,获取到的第一样本对应的向量特征即为第一向量特征,获取到的第二样本对应的向量特征即为第二向量特征。
[0115]
可以理解,若第一向量特征与平均向量特征的距离越小,则说明第一样本与正例样本越接近;相应的,若第一向量特征与平均向量特征的距离越大,则说明第一样本与、负例样本越接近。同理,若第二向量特征与平均向量特征的距离越小,则说明第二样本与正例样本越接近;相应的,若第二向量特征与平均向量特征的距离越大,则说明第二样本与负例样本越接近。
[0116]
本实施方式中,根据第一向量特征与平均向量特征的距离对第一样本进行标注处理,并根据第二向量特征与平均向量特征的距离对第二样本进行标注处理,再将第一样本以及第二样本输入预构建好的神经网络模型,以对神经网络模型进行训练,则神经网络模型在训练过程中,可以根据各个样本与平均向量特征的距离来评估该样本与正例样本的接近程度,进而提高神经网络模型的学习效率以及学习效果。
[0117]
当神经网络模型的损失函数收敛的预设程度时,神经网络模型训练完成,此时,确定该神经网络模型为诊断模型。
[0118]
本技术中,使用不同数据源的描述信息构建正例样本对以及负例样本对,并对正例样本对以及负例样本对进行数据增强,解决了现有技术在训练中医诊断模型时,训练数据不足的问题;另外,根据第一训练样本集以及第二训练样本集的多个维度特征来训练诊
断模型,进一步提高了诊断模型的训练效果。
[0119]
请参照图2,图2为本技术实施例提供的一种中医诊断模型训练装置的示意性框图。
[0120]
如图2所示,该中医诊断模型训练装置201,包括:
[0121]
指令接收模块2011,用于当接收到识别模型训练指令时,从所述识别模型训练指令中提取目标证型;
[0122]
数据获取模块2012,用于从多个数据源中搜索与所述目标证型相对应的第一描述信息,并从多个所述数据源中获取除所述目标证型之外的其他证型对应的第二描述信息;
[0123]
数据构建模块2013,用于根据所述第一描述信息构建正例样本对,并根据所述第一描述信息以及所述第二描述信息构建负例样本对,其中,所述正例样本对以及所述负例样本对中的描述信息的数据源不同;
[0124]
数据增强模块2014,用于对所述正例样本对进行数据增强以得到第一训练样本集,并对所述负例样本对进行数据增强以得到第二训练样本集;
[0125]
训练模块2015,用于根据所述第一训练样本集以及所述第二训练样本集的实体特征、相似度特征以及文本特征训练诊断模型。
[0126]
在一些实施方式中,所述数据增强模块2014在对所述正例样本对进行数据增强以得到第一训练样本集时,包括:
[0127]
拷贝所述正例样本对以得到拷贝结果,并识别所述拷贝结果中的症状实体信息,以得到实体信息列表;
[0128]
从所述实体信息列表中随机抽取若干个目标实体信息,并获取所述目标实体信息对应的匹配同义词;
[0129]
根据所述匹配同义词对所述正例样本对进行数据增强,以得到第一训练样本集。
[0130]
在一些实施方式中,所述数据增强模块2014在根据所述匹配同义词对所述正例样本对进行数据增强,以得到第一训练样本集时,包括:
[0131]
将所述拷贝结果中的所述目标实体信息替换为所述匹配同义词,得到所述正例样本对的第一增强样本;
[0132]
根据所述正例样本对以及所述第一增强样本构建第一训练样本集。
[0133]
在一些实施方式中,所述数据增强模块2014在根据所述匹配同义词对所述正例样本对进行数据增强,以得到第一训练样本集时,包括:
[0134]
从所述拷贝结果中获取包含所述目标实体信息的目标描述语句;
[0135]
利用预训练好的归一化模型从各个所述第一描述信息中识别与所述匹配同义词对应的匹配描述语句;
[0136]
将所述拷贝结果中的所述目标描述语句替换为所述匹配描述语句,得到所述正例样本对的第二增强样本;
[0137]
根据所述正例样本对以及所述第二增强样本构建第一训练样本集。
[0138]
在一些实施方式中,所述数据构建模块2013在根据所述第一描述信息以及所述第二描述信息构建负例样本对时,包括:
[0139]
获取所述目标证型在预设的临床术语标准中所处的节点作为目标节点;
[0140]
从所述临床术语标准中获取与所述目标节点相邻的节点作为邻居节点,并获取所
述邻居节点在所述临床术语标准中对应的证型作为邻居证型;
[0141]
从各个所述第二描述信息中筛选与所述邻居证型相对应的目标描述信息,并根据所述第一描述信息以及所述目标描述信息构建负例样本对。
[0142]
在一些实施方式中,所述训练模块2015在根据所述第一训练样本集以及所述第二训练样本集的实体特征、相似度特征以及文本特征训练诊断模型时,包括:
[0143]
从所述第一训练样本集的各个样本中提取症状实体信息,并计算所述症状实体信息与所述目标证型的互信息;
[0144]
根据各个所述症状实体信息对应的互信息构建诊断规则,并根据所述诊断规则对所述第一训练样本集以及所述第二训练样本集进行标注处理;
[0145]
对所述第一训练样本集以及所述第二训练样本集进行相似度特征标注处理后,使用所述第一训练样本集以及所述第二训练样本集训练诊断模型。
[0146]
在一些实施方式中,所述训练模块2015在对所述第一训练样本集以及所述第二训练样本集进行相似度特征标注处理后,使用所述第一训练样本集以及所述第二训练样本集训练诊断模型时,包括:
[0147]
根据所述第一训练集合提取正例样本对应的平均向量特征;
[0148]
从所述第一训练样本集或所述第二训练样本集中选取目标样本对,并从所述目标样本对中提取第一样本以及第二样本;
[0149]
获取所述第一样本对应的向量特征作为第一向量特征,并获取所述第二样本对应的向量特征作为第二向量特征;
[0150]
根据所述第一向量特征与所述平均向量特征的距离对所述第一样本进行标注处理,并根据所述第二向量特征与所述平均向量特征的距离对所述第二样本进行标注处理;
[0151]
将所述第一样本以及所述第二样本输入预构建好的神经网络模型,以对所述神经网络模型进行训练;
[0152]
当所述神经网络模型训练完成时,得到诊断模型。
[0153]
需要说明的是,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的装置和各模块及单元的具体工作过程,可以参考前述中医诊断模型训练方法实施例中的对应过程,在此不再赘述。
[0154]
上述实施例提供的装置可以实现为一种计算机程序的形式,该计算机程序可以在如图3所示的计算机设备上运行。
[0155]
请参阅图3,图3为本技术实施例提供的一种计算机设备的结构示意性框图。该计算机设备包括但不限定于服务器。
[0156]
如图3所示,该计算机设备301包括通过系统总线连接的处理器3011、存储器和网络接口,其中,存储器可以包括存储介质3012和内存储器3015,存储介质3012可以是非易失性的,也可以是易失性的。
[0157]
存储介质3012可存储操作系统和计算机程序。该计算机程序包括程序指令,该程序指令被执行时,可使得处理器3011执行任意一种中医诊断模型训练方法。
[0158]
处理器3011用于提供计算和控制能力,支撑整个计算机设备的运行。
[0159]
内存储器3015为存储介质3012中的计算机程序的运行提供环境,该计算机程序被处理器3011执行时,可使得处理器3011执行任意一种中医诊断模型训练方法。
[0160]
该网络接口用于进行网络通信,如发送分配的任务等。本领域技术人员可以理解,图3中示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
[0161]
应当理解的是,处理器3011可以是中央处理单元(central processing unit,cpu),该处理器3011还可以是其他通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
[0162]
其中,在一些实施方式中,所述处理器3011用于运行存储在存储器中的计算机程序,以实现如下步骤:
[0163]
当接收到识别模型训练指令时,从所述识别模型训练指令中提取目标证型;
[0164]
从多个数据源中搜索与所述目标证型相对应的第一描述信息,并从多个所述数据源中获取除所述目标证型之外的其他证型对应的第二描述信息;
[0165]
根据所述第一描述信息构建正例样本对,并根据所述第一描述信息以及所述第二描述信息构建负例样本对,其中,所述正例样本对以及所述负例样本对中的描述信息的数据源不同;
[0166]
对所述正例样本对进行数据增强以得到第一训练样本集,并对所述负例样本对进行数据增强以得到第二训练样本集;
[0167]
根据所述第一训练样本集以及所述第二训练样本集的实体特征、相似度特征以及文本特征训练诊断模型。
[0168]
在一些实施方式中,所述处理器3011在对所述正例样本对进行数据增强以得到第一训练样本集时,用于实现:
[0169]
拷贝所述正例样本对以得到拷贝结果,并识别所述拷贝结果中的症状实体信息,以得到实体信息列表;
[0170]
从所述实体信息列表中随机抽取若干个目标实体信息,并获取所述目标实体信息对应的匹配同义词;
[0171]
根据所述匹配同义词对所述正例样本对进行数据增强,以得到第一训练样本集。
[0172]
在一些实施方式中,所述处理器3011在根据所述匹配同义词对所述正例样本对进行数据增强,以得到第一训练样本集时,用于实现:
[0173]
将所述拷贝结果中的所述目标实体信息替换为所述匹配同义词,得到所述正例样本对的第一增强样本;
[0174]
根据所述正例样本对以及所述第一增强样本构建第一训练样本集。
[0175]
在一些实施方式中,所述处理器3011在根据所述匹配同义词对所述正例样本对进行数据增强,以得到第一训练样本集时,用于实现:
[0176]
从所述拷贝结果中获取包含所述目标实体信息的目标描述语句;
[0177]
利用预训练好的归一化模型从各个所述第一描述信息中识别与所述匹配同义词对应的匹配描述语句;
[0178]
将所述拷贝结果中的所述目标描述语句替换为所述匹配描述语句,得到所述正例样本对的第二增强样本;
[0179]
根据所述正例样本对以及所述第二增强样本构建第一训练样本集。
[0180]
在一些实施方式中,所述处理器3011在根据所述第一描述信息以及所述第二描述信息构建负例样本对时,用于实现:
[0181]
获取所述目标证型在预设的临床术语标准中所处的节点作为目标节点;
[0182]
从所述临床术语标准中获取与所述目标节点相邻的节点作为邻居节点,并获取所述邻居节点在所述临床术语标准中对应的证型作为邻居证型;
[0183]
从各个所述第二描述信息中筛选与所述邻居证型相对应的目标描述信息,并根据所述第一描述信息以及所述目标描述信息构建负例样本对。
[0184]
在一些实施方式中,所述处理器3011在根据所述第一训练样本集以及所述第二训练样本集的实体特征、相似度特征以及文本特征训练诊断模型时,用于实现:
[0185]
从所述第一训练样本集的各个样本中提取症状实体信息,并计算所述症状实体信息与所述目标证型的互信息;
[0186]
根据各个所述症状实体信息对应的互信息构建诊断规则,并根据所述诊断规则对所述第一训练样本集以及所述第二训练样本集进行标注处理;
[0187]
对所述第一训练样本集以及所述第二训练样本集进行相似度特征标注处理后,使用所述第一训练样本集以及所述第二训练样本集训练诊断模型。
[0188]
在一些实施方式中,所述处理器3011在对所述第一训练样本集以及所述第二训练样本集进行相似度特征标注处理后,使用所述第一训练样本集以及所述第二训练样本集训练诊断模型时,用于实现:
[0189]
根据所述第一训练集合提取正例样本对应的平均向量特征;
[0190]
从所述第一训练样本集或所述第二训练样本集中选取目标样本对,并从所述目标样本对中提取第一样本以及第二样本;
[0191]
获取所述第一样本对应的向量特征作为第一向量特征,并获取所述第二样本对应的向量特征作为第二向量特征;
[0192]
根据所述第一向量特征与所述平均向量特征的距离对所述第一样本进行标注处理,并根据所述第二向量特征与所述平均向量特征的距离对所述第二样本进行标注处理;
[0193]
将所述第一样本以及所述第二样本输入预构建好的神经网络模型,以对所述神经网络模型进行训练;
[0194]
当所述神经网络模型训练完成时,得到诊断模型。
[0195]
需要说明的是,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述计算机设备的具体工作过程,可以参考前述中医诊断模型训练方法实施例中的对应过程,在此不再赘述。
[0196]
本技术实施例还提供一种存储介质,该存储介质为计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序中包括程序指令,所述程序指令被执行时所实现的方法可参照本技术中医诊断模型训练方法的各个实施例。
[0197]
其中,所述计算机可读存储介质可以是前述实施例所述的计算机设备的内部存储单元,例如所述计算机设备的硬盘或内存。所述计算机可读存储介质也可以是所述计算机
设备的外部存储设备,例如所述计算机设备上配备的插接式硬盘,智能存储卡(smart media card,smc),安全数字(secure digital,sd)卡,闪存卡(flash card)等。
[0198]
应当理解,在此本技术说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本技术。如在本技术说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
[0199]
还应当理解,在本技术说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
[0200]
上述本技术实施例序号仅仅为了描述,不代表实施例的优劣。以上所述,仅为本技术的具体实施方式,但本技术的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本技术揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本技术的保护范围之内。因此,本技术的保护范围应以权利要求的保护范围为准。

技术特征:
1.一种中医诊断模型训练方法,其特征在于,所述方法包括:当接收到识别模型训练指令时,从所述识别模型训练指令中提取目标证型;从多个数据源中搜索与所述目标证型相对应的第一描述信息,并从多个所述数据源中获取除所述目标证型之外的其他证型对应的第二描述信息;根据所述第一描述信息构建正例样本对,并根据所述第一描述信息以及所述第二描述信息构建负例样本对,其中,所述正例样本对以及所述负例样本对中的描述信息的数据源不同;对所述正例样本对进行数据增强以得到第一训练样本集,并对所述负例样本对进行数据增强以得到第二训练样本集;根据所述第一训练样本集以及所述第二训练样本集的实体特征、相似度特征以及文本特征训练诊断模型。2.根据权利要求1所述的方法,其特征在于,所述对所述正例样本对进行数据增强以得到第一训练样本集,包括:拷贝所述正例样本对以得到拷贝结果,并识别所述拷贝结果中的症状实体信息,以得到实体信息列表;从所述实体信息列表中随机抽取若干个目标实体信息,并获取所述目标实体信息对应的匹配同义词;根据所述匹配同义词对所述正例样本对进行数据增强,以得到第一训练样本集。3.根据权利要求2所述的方法,其特征在于,所述根据所述匹配同义词对所述正例样本对进行数据增强,以得到第一训练样本集,包括:将所述拷贝结果中的所述目标实体信息替换为所述匹配同义词,得到所述正例样本对的第一增强样本;根据所述正例样本对以及所述第一增强样本构建第一训练样本集。4.根据权利要求2所述的方法,其特征在于,所述根据所述匹配同义词对所述正例样本对进行数据增强,以得到第一训练样本集,包括:从所述拷贝结果中获取包含所述目标实体信息的目标描述语句;利用预训练好的归一化模型从各个所述第一描述信息中识别与所述匹配同义词对应的匹配描述语句;将所述拷贝结果中的所述目标描述语句替换为所述匹配描述语句,得到所述正例样本对的第二增强样本;根据所述正例样本对以及所述第二增强样本构建第一训练样本集。5.根据权利要求1所述的方法,其特征在于,所述根据所述第一描述信息以及所述第二描述信息构建负例样本对,包括:获取所述目标证型在预设的临床术语标准中所处的节点作为目标节点;从所述临床术语标准中获取与所述目标节点相邻的节点作为邻居节点,并获取所述邻居节点在所述临床术语标准中对应的证型作为邻居证型;从各个所述第二描述信息中筛选与所述邻居证型相对应的目标描述信息,并根据所述第一描述信息以及所述目标描述信息构建负例样本对。6.根据权利要求1所述的方法,其特征在于,所述根据所述第一训练样本集以及所述第
二训练样本集的实体特征、相似度特征以及文本特征训练诊断模型,包括:从所述第一训练样本集的各个样本中提取症状实体信息,并计算所述症状实体信息与所述目标证型的互信息;根据各个所述症状实体信息对应的互信息构建诊断规则,并根据所述诊断规则对所述第一训练样本集以及所述第二训练样本集进行标注处理;对所述第一训练样本集以及所述第二训练样本集进行相似度特征标注处理后,使用所述第一训练样本集以及所述第二训练样本集训练诊断模型。7.根据权利要求6所述的方法,其特征在于,所述对所述第一训练样本集以及所述第二训练样本集进行相似度特征标注处理后,使用所述第一训练样本集以及所述第二训练样本集训练诊断模型,包括:根据所述第一训练集合提取正例样本对应的平均向量特征;从所述第一训练样本集或所述第二训练样本集中选取目标样本对,并从所述目标样本对中提取第一样本以及第二样本;获取所述第一样本对应的向量特征作为第一向量特征,并获取所述第二样本对应的向量特征作为第二向量特征;根据所述第一向量特征与所述平均向量特征的距离对所述第一样本进行标注处理,并根据所述第二向量特征与所述平均向量特征的距离对所述第二样本进行标注处理;将所述第一样本以及所述第二样本输入预构建好的神经网络模型,以对所述神经网络模型进行训练;当所述神经网络模型训练完成时,得到诊断模型。8.一种中医诊断模型训练装置,其特征在于,包括:指令接收模块,用于当接收到识别模型训练指令时,从所述识别模型训练指令中提取目标证型;数据获取模块,用于从多个数据源中搜索与所述目标证型相对应的第一描述信息,并从多个所述数据源中获取除所述目标证型之外的其他证型对应的第二描述信息;数据构建模块,用于根据所述第一描述信息构建正例样本对,并根据所述第一描述信息以及所述第二描述信息构建负例样本对,其中,所述正例样本对以及所述负例样本对中的描述信息的数据源不同;数据增强模块,用于对所述正例样本对进行数据增强以得到第一训练样本集,并对所述负例样本对进行数据增强以得到第二训练样本集;训练模块,用于根据所述第一训练样本集以及所述第二训练样本集的实体特征、相似度特征以及文本特征训练诊断模型。9.一种计算机设备,其特征在于,所述计算机设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机程序,其中所述计算机程序被所述处理器执行时,实现如权利要求1至7中任一项所述的中医诊断模型训练方法的步骤。10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,其中所述计算机程序被处理器执行时,实现如权利要求1至7中任一项所述的中医诊断模型训练方法的步骤。

技术总结
本申请涉及人工智能技术领域,公开了一种中医诊断模型训练方法、装置、设备及存储介质,方法包括:当接收到识别模型训练指令时,从识别模型训练指令中提取目标证型;从多个数据源中搜索与目标证型相对应的第一描述信息,并从多个数据源中获取除目标证型之外的其他证型对应的第二描述信息;根据第一描述信息构建正例样本对,并根据第一描述信息以及第二描述信息构建负例样本对,其中,正例样本对以及负例样本对中的描述信息的数据源不同;对正例样本对进行数据增强以得到第一训练样本集,并对负例样本对进行数据增强以得到第二训练样本集;根据第一训练样本集以及第二训练样本集的实体特征、相似度特征以及文本特征训练诊断模型。型。型。


技术研发人员:胡意仪 阮晓雯 吴振宇
受保护的技术使用者:平安科技(深圳)有限公司
技术研发日:2023.04.14
技术公布日:2023/7/25
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐