诊断漏写检测方法、装置、电子设备和存储介质与流程

未命名 08-27 阅读:148 评论:0


1.本发明涉及自然语言处理技术领域,尤其涉及一种诊断漏写检测方法、装置、电子设备和存储介质。


背景技术:

2.目前,对病历文本进行诊断漏写检测一般通过以下几种方式实现,一是基于人工检测的方式,即由医生或者医院的病历质检人员对病历进行检查,将病历首页中可能漏写的诊断进行标注;二是基于检索疾病知识库进行检查,即基于疾病知识库中每个疾病名在病历文本中进行诊断漏写检测;三是基于疾病预测的方法对病历进行诊断漏写检测。
3.但是,基于人工检测的方式需要耗费大量的人力,且检测效率和准确性不高;基于检索疾病知识库进行检查,检测结果的准确性和全面性依赖于经常对疾病知识库进行维护,而后期对疾病知识库维护的难度较大;另外,疾病预测对主要诊断的预测效果比较好,但是一些恶性肿瘤诊断一般不作为主要诊断,所以预测效果并不理想,进而检测效果也不理想。


技术实现要素:

4.本发明提供一种诊断漏写检测方法、装置、电子设备和存储介质,用以解决现有技术中诊断漏写检测效率低、准确度不高,进而检测效果不理想的缺陷。
5.本发明提供一种诊断漏写检测方法,包括:
6.获取待检测的病历文本,基于所述病历文本对应的诊断疾病信息,确定候选漏写疾病信息;
7.从所述病历文本中检索与所述候选漏写疾病信息的疾病要素匹配的片段,作为所述候选漏写疾病信息的相关片段;
8.基于所述候选漏写疾病信息与所述相关片段之间的相关度,进行诊断漏写检测。
9.根据本发明提供的一种诊断漏写检测方法,所述相关度的确定步骤包括:
10.提取所述候选漏写疾病信息的疾病信息特征,以及所述相关片段的片段特征;
11.基于所述疾病信息特征与所述片段特征之间的特征相似度,对所述疾病信息特征和所述片段特征进行特征交互,得到疾病信息增强特征和片段增强特征;
12.基于所述疾病信息增强特征和所述片段增强特征,确定所述相关度。
13.根据本发明提供的一种诊断漏写检测方法,所述基于所述疾病信息增强特征和所述片段增强特征,确定所述相关度,包括:
14.基于所述候选漏写疾病信息中的每个字在所述疾病信息特征中的字级特征,确定所述候选漏写疾病信息的句级疾病信息特征;
15.基于所述相关片段中的每个字在所述片段特征中的字级特征,确定所述相关片段的句级片段特征;
16.基于所述句级疾病信息特征、所述句级片段特征,以及所述疾病信息增强特征和
所述片段增强特征,确定所述相关度。
17.根据本发明提供的一种诊断漏写检测方法,所述基于所述候选漏写疾病信息与所述相关片段之间的相关度,进行诊断漏写检测,包括:
18.基于漏写检测模型,确定所述候选漏写疾病信息与所述相关片段之间的相关度,以进行诊断漏写检测;
19.所述漏写检测模型基于正例样本和负例样本训练得到,所述正例样本基于样本病历文本以及所述样本病历文本对应的诊断疾病信息确定。
20.根据本发明提供的一种诊断漏写检测方法,所述负例样本是对所述正例样本中的诊断疾病信息进行疾病要素替换得到的。
21.根据本发明提供的一种诊断漏写检测方法,所述从所述病历文本中检索与所述候选漏写疾病信息的疾病要素匹配的片段,作为所述候选漏写疾病信息的相关片段,包括:
22.对所述病历文本进行片段划分,得到所述病历文本中的各片段,以及所述各片段的片段类型;
23.从所述各片段中选取所述片段类型为预设类型的片段,作为候选片段;
24.检索与所述疾病要素匹配的候选片段,作为所述相关片段。
25.根据本发明提供的一种诊断漏写检测方法,所述基于所述病历文本对应的诊断疾病信息,确定候选漏写疾病信息,包括:
26.在所述病历文本对应的诊断疾病信息包括预设疾病类型的疾病信息的情况下,获取所述预设疾病类型的下的疾病信息集合;
27.从所述疾病信息集合中,删除所述预设疾病类型的诊断疾病信息,得到所述候选漏写疾病信息。
28.本发明还提供一种漏写检测装置,包括:
29.获取单元,获取待检测的病历文本,基于所述病历文本对应的诊断疾病信息,确定候选漏写疾病信息;
30.检索单元,从所述病历文本中检索与所述候选漏写疾病信息的疾病要素匹配的片段,作为所述候选漏写疾病信息的相关片段;
31.检测单元,基于所述候选漏写疾病信息与所述相关片段之间的相关度,进行诊断漏写检测。
32.本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述诊断漏写检测方法。
33.本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述诊断漏写检测方法。
34.本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述诊断漏写检测方法。
35.本发明提供的诊断漏写检测方法、装置、电子设备和存储介质,通过病历文本对应的诊断疾病信息,确定候选漏写疾病信息,以实现先验诊断,使得对病历文本的诊断漏写检测更全面;从病历文本中检索与候选漏写疾病信息的疾病要素匹配的片段,作为候选漏写疾病信息的相关片段,以实现片段粗筛;基于候选漏写疾病信息与相关片段之间的相关度,
进行诊断漏写检测,以实现片段细筛,通过两级筛选片段,得到能够支持存在针对候选漏写疾病信息的诊断漏写问题的证据,实现了更加准确的诊断漏写检测,尤其使得恶性肿瘤类疾病信息的诊断漏写检测效果更理想。
附图说明
36.为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
37.图1是本发明提供的诊断漏写检测方法的流程示意图之一;
38.图2是本发明提供的确定相关度的方法的流程示意图;
39.图3是本发明提供的确定候选漏写疾病信息的相关片段的方法的流程示意图;
40.图4是本发明提供的确定候选漏写疾病信息的方法的流程示意图;
41.图5是本发明提供的诊断漏写检测方法的流程示意图之二;
42.图6是本发明提供的诊断漏写检测方法的流程示意图之三;
43.图7是本发明提供的诊断漏写检测装置的结构示意图;
44.图8是本发明提供的电子设备的结构示意图。
具体实施方式
45.为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
46.现有技术中对病历文本进行诊断漏写检测,通常是基于人工、或者是基于检索疾病知识库、又或者是基于疾病预测,存在诊断漏写检测效率较低、检测效果不太理想的问题,尤其是在恶性肿瘤类诊断漏写检测上,检测结果的全面性、准确性不高的问题更加明显。
47.基于此,一种显式漏诊、隐式漏诊结合的漏诊检测方法应运而生,但是,一般恶性肿瘤类疾病的确诊需要根据检查结果来进行详细判断,而隐式漏诊主要利用简单的诊断与检查或者诊断与药物等关系进行漏写判断,由此,隐式漏诊对恶性肿瘤诊断漏写的检测效果并不理想。
48.针对上述问题,本发明提供一种诊断漏写检测方法,以实现全面、准确、高效的诊断漏写检测,该方法可以应用于各类疾病的诊断漏写检测,尤其可以应用于恶性肿瘤类型疾病的诊断漏写检测。图1是本发明提供的诊断漏写检测方法的流程示意图之一,如图1所示,该方法包括:
49.步骤110,获取待检测的病历文本,基于所述病历文本对应的诊断疾病信息,确定候选漏写疾病信息;
50.此处,待检测的病历文本可以是电子病历文本,也可以是纸质病历文本,并且可以对纸质病历文本通过ocr(optical character recognition,光学字符识别)得到对应的病
历文本。此处的病历文本对应的诊断疾病信息可以是病历文本所对应的诊断列表中的诊断疾病名,又或者是病历文本所对应的诊断列表中的与疾病相关的其他诊断疾病信息,比如关于疾病的具体细节,例如疾病的性质、症状。可以理解的是,诊断列表中可以包含一个或者多个诊断疾病信息。
51.考虑到病历文本中可能存在诊断漏写的情况,尤其可能存在与诊断疾病信息相关的疾病信息的诊断漏写的情况,比如与诊断疾病信息同类型的疾病信息,例如病历文本的诊断疾病信息中包含“肺腺恶性肿瘤”,但是漏写了“椎体继发恶性肿瘤”这一诊断疾病信息。由此,在获取诊断疾病信息之后,可以将与诊断疾病信息相关的疾病信息,尤其是与诊断疾病信息同类型的疾病信息,作为候选漏写疾病信息。
52.另外,此处的候选漏写疾病信息指的是针对病历文本而言,可能存在诊断漏写的疾病信息。候选漏写疾病信息可以是候选漏写诊断疾病名,也可以是与疾病相关的其他候选漏写疾病信息,比如关于疾病的具体细节,例如疾病的性质、症状。候选漏写疾病信息可以是针对病历文本对应的诊断疾病信息确定的,得到的候选漏写疾病信息可以为一个或者多个,通常是多个。比如可以是通过病历文本中的任一诊断疾病信息,获取全部与诊断疾病信息同类型的疾病信息,从同类型的疾病信息中剔除该诊断疾病信息,将剩余的疾病信息作为该诊断疾病信息的候选漏写疾病信息。相较于通过疾病预测等其他方式确定候选漏写疾病信息,通过先验诊断的方法确定候选漏写疾病信息,使得待检测的病历文本的候选漏写疾病信息更加全面和完整,进而对待检测的病历文本的诊断漏写检测更加全面和完整。
53.步骤120,从所述病历文本中检索与所述候选漏写疾病信息的疾病要素匹配的片段,作为所述候选漏写疾病信息的相关片段;
54.针对任一候选漏写疾病信息,该候选漏写疾病信息的疾病要素可以是通过命名实体识别工具对候选漏写疾病信息进行疾病要素抽取得到的。比如,疾病要素可以是病因、病理、部位、临床表现等属性。进一步地,可以通过在病历文本中检索与候选漏写疾病信息的疾病要素相匹配的片段,并将检索到的相匹配的片段作为候选漏写疾病信息的相关片段。
55.此处,候选漏写疾病信息的相关片段,可以作为推断候选漏写疾病信息是否为该病历文本的漏写疾病信息的判断依据。可以理解的是,一个候选漏写疾病信息可以对应若干个疾病要素,病历文本的各个片段中,只要能够与其中的至少一个疾病要素相匹配,即可作为该候选漏写疾病信息的相关片段。即,相关片段是从病历文本中筛选得到的可能作为诊断漏写的依据。
56.可以理解的是,相较于通过从疾病知识库中获取候选漏写疾病信息的疾病要素,以获取病历文本中与疾病要素匹配的相关片段而言,从病历文本中检索与候选漏写疾病信息的疾病要素匹配的片段,不需要后期对疾病知识库进行维护,也能实现全面的从病例文本中召回与候选漏写疾病信息的相关片段。
57.步骤130,基于所述候选漏写疾病信息与所述相关片段之间的相关度,进行诊断漏写检测。
58.具体地,可以通过分别提取候选漏写疾病信息和相关片段的语义特征,根据此两者的语义特征,计算候选漏写疾病信息与相关片段之间的相关度。此处的相关度可以反映候选漏写疾病信息作为漏写疾病信息的可能性。可以理解的是,该候选漏写疾病信息与对应的相关片段之间的相关度越大,基于该相关片段诊断出该候选漏写疾病信息为漏写疾病
信息的可能性越大,则该病历文本存在该候选漏写疾病信息的诊断漏写的可能性越大;该候选漏写疾病信息与对应的相关片段之间的相关度越小,基于该相关片段诊断出该候选漏写疾病信息为漏写疾病信息的可能性越小,则该病历文本存在该候选漏写疾病信息的诊断漏写的可能性越小。
59.进一步地,得到候选漏写疾病信息与相关片段之间的相关度后,可以将相关度与预设阈值相比较,从而将大于预设阈值的相关度对应的候选漏写疾病信息判断作为漏写疾病信息,即存在诊断漏写,将小于预设阈值的相关度对应的候选漏写疾病信息判断为非漏写疾病信息。针对某一个候选漏写疾病信息与各相关片段的相关度而言,当其中某一个相关度大于预设阈值时,即可判断该候选漏写疾病信息为漏写疾病信息,则该病历文本存在对该漏写疾病信息的诊断漏写。
60.本发明实施例提供的方法,基于病历文本对应的诊断疾病信息,确定候选漏写疾病信息,以实现先验诊断,使得对病历文本的诊断漏写检测更全面;从病历文本中检索与候选漏写疾病信息的疾病要素匹配的片段,作为候选漏写疾病信息的相关片段,以实现片段粗筛;基于候选漏写疾病信息与相关片段之间的相关度,进行诊断漏写检测,以实现片段细筛,通过两级筛选片段,得到能够支持存在针对候选漏写疾病信息的诊断漏写问题的证据,实现了更加准确的诊断漏写检测,尤其使得恶性肿瘤类疾病信息的诊断漏写检测效果更理想。
61.基于上述任一实施例,图2是本发明提供的确定相关度的方法的流程示意图,如图2所示,所述相关度的确定步骤包括:
62.步骤210,提取所述候选漏写疾病信息的疾病信息特征,以及所述相关片段的片段特征;
63.具体地,此处的候选漏写疾病信息的疾病信息特征,可以反映候选漏写疾病信息中的每个字融合了候选漏写疾病信息的文本语义的特征;此处的相关片段的片段特征,可以反映相关片段中的每个字融合了相关片段的文本语义的特征。疾病信息特征和片段特征的获取,可以通过预训练的语言模型实现,例如通过将候选漏写疾病信息和相关片段分别输入到clinical-bert(bidirectional encoder representation from transformers,预训练的语言表征模型)中,通过此模型对候选漏写疾病信息和相关片段分别进行特征编码和初始化得到。
64.步骤220,基于所述疾病信息特征与所述片段特征之间的特征相似度,对所述疾病信息特征和所述片段特征进行特征交互,得到疾病信息增强特征和片段增强特征;
65.具体地,在得到疾病信息特征与片段特征之后,可以计算此两者之间的特征相似度,并基于此对疾病信息特征与片段特征进行特征交互。此处的特征交互可以通过注意力机制实现,具体可以是基于此两者之间的特征相似度,增强疾病信息特征中与片段特征相似度较高的特征,弱化疾病信息特征中与片段特征相似度较低的特征,以获取疾病增强特征。此外,还可以基于此两者之间的特征相似度,增强片段特征中与疾病信息特征相似度较高的特征,弱化片段特征中与疾病信息特征相似度较低的特征,以获取片段增强特征。
66.例如,可以将疾病信息特征与片段特征输入co-attention(共同注意力机制)模型,得到疾病信息特征与片段特征之间的相似度矩阵。接着,可以利用相似度矩阵,对疾病信息特征和片段特征进行特征交互,得到疾病信息增强特征和片段增强特征,具体可以通
过以下公式实现:
[0067][0068][0069][0070]
式中,表示片段中的第i个字的片段特征;表示疾病信息中第j个字的疾病信息特征;e
ij
表示疾病信息特征与片段特征的矩阵;表示片段中第i个字的片段增强特征;lb表示疾病信息特征的长度;e
ik
表示片段中第i个字的片段特征与疾病信息特征中每个字的疾病信息特征的相似度矩阵;表示疾病信息中第j个字的疾病信息增强特征;la表示片段特征的长度;e
kj
表示疾病信息中第j个字的疾病信息特征与片段特征中每个字的片段特征的相似度矩阵。
[0071]
此外,考虑到此处得到的疾病信息增强特征和片段增强特征可能对序列长度敏感,可以对此处的疾病信息增强特征和片段增强特征进行平均池化,以对齐文本段,增强后续应用疾病信息增强特征和片段增强特征的鲁棒性。具体可以通过以下等式实现:
[0072][0073][0074]
式中,g表示平均池化后的片段增强特征;h表示平均池化后的疾病信息增强特征。
[0075]
步骤230,基于所述疾病信息增强特征和所述片段增强特征,确定所述相关度。
[0076]
具体地,可以通过将疾病信息增强特征和片段增强特征进行拼接,又或者,可以将疾病信息特征、片段特征、疾病信息增强特征和片段增强特征进行拼接,基于拼接特征,计算得到候选漏写疾病信息与相关片段之间的相关度。疾病增强特征突出显示了在候选疾病信息中与相关片段相近的语义信息,片段增强特征突出显示了在相关片段中与候选疾病信息相近的语义信息。由此得到的候选漏写疾病信息与相关片段的相关度更加准确。
[0077]
本发明实施例提供的方法,基于疾病信息特征与片段特征之间的特征相似度,对疾病信息特征和片段特征进行特征交互,得到疾病信息增强特征和片段增强特征;基于交互后的增强特征,确定候选漏写疾病信息与相关片段之间的相关度,保证了候选漏写疾病信息与相关片段之间相关度确定的准确性。
[0078]
基于上述任一实施例,步骤230,包括:
[0079]
基于所述候选漏写疾病信息中的每个字在所述疾病信息特征中的字级特征,确定
所述候选漏写疾病信息的句级疾病信息特征;
[0080]
基于所述相关片段中的每个字在所述片段特征中的字级特征,确定所述相关片段的句级片段特征;
[0081]
基于所述句级疾病信息特征、所述句级片段特征,以及所述疾病信息增强特征和所述片段增强特征,确定所述相关度。
[0082]
具体地,此处的句级疾病信息特征可以反映候选漏写疾病信息在句子级别上整体的语义信息;此处的句级片段特征可以反映相关片段在句子级别上整体的语义信息。可以理解的是,候选漏写疾病信息和相关片段中的每个字的字级特征不仅能反映单个字在各自文本中的语义信息,还能反映单个字在各自文本中上下文的语义信息。由此得到的句级片段特征和句级疾病信息特征,则可以反映相关片段和候选漏写疾病信息句子级别的语义信息,更能准确的反映相关片段和候选漏写疾病信息整体的语义信息。
[0083]
进一步地,可以通过对候选漏写疾病信息中的每个字在疾病信息特征中的字级特征进行平均池化,得到候选漏写疾病信息的句级疾病信息特征。同样地,也可以通过对片段中每个字在片段特征中的字级特征进行平均池化,得到相关片段的句级片段特征。例如可以通过以下公式获取句级疾病信息特征和句级片段特征:
[0084][0085][0086]
式中,u表示相关片段的句级片段特征;v表示候选漏写疾病信息的句级疾病信息特征。
[0087]
进一步地,为了降低疾病信息增强特征和片段增强特征分别对疾病信息特征和片段特征的稀释与弱化,以提升计算相关度的准确性,可以通过将句级疾病信息特征、句级片段特征、疾病信息增强特征和片段增强特征进行拼接,得到拼接特征,并基于拼接特征,计算得到候选漏写疾病信息与相关片段之间的相关度。
[0088]
基于上述任一实施例,步骤130,包括:
[0089]
基于漏写检测模型,确定所述候选漏写疾病信息与所述相关片段之间的相关度,以进行诊断漏写检测;
[0090]
所述漏写检测模型基于正例样本和负例样本训练得到,所述正例样本基于样本病历文本以及所述样本病历文本对应的诊断疾病信息确定。
[0091]
此处,上述实施例中候选漏写疾病信息与相关片段之间相关度的计算,以及基于相关度进行诊断漏写检测,均可以基于漏写检测模型实现。此处的漏写检测模型,可以是应用预先标注的正例样本和负例样本进行有监督学习得到的。可以理解的是,常规意义上的正例样本,包括确认不存在诊断漏写的样本病历,以及样本病历文本对应的诊断疾病信息;常规意义上的负例样本,是确认存在诊断漏写的样本病历,以及样本病历文本对应的漏写疾病信息。而上述正负例样本的获取,均需要大量的专业人士对大量的数据进行标注,而且
费时费力,还可能存在人工判断失误的情况。
[0092]
考虑到这一问题,本发明实施例提供了一种无需人工标注即可实现样本获取的方式。
[0093]
其中,对于正例样本包括样本病历文本,以及样本病历文本对应的诊断疾病信息。可以理解的是,根据经验,样本病历文本都是不存在诊断漏写的,即多数样本病历文本,均是可以作为正例样本的。虽然其中可能存在极少数的样本病历文本对应的诊断疾病信息是未明确描述的,即极少数的样本病历文本本身是存在诊断漏写的问题,但是考虑到这一部分样本病历文本的数量极少,为了减少构建训练样本的成本,本发明实施例在未经标注的情况下,将样本病历文本,以及样本诊断疾病信息的相关片段集合,直接视为正例样本。
[0094]
具体在模型训练中,可以结合负例样本以及上述无标签方式获取到的正例样本,训练检测模型;也可以将负例样本以及上述无标签方式获取到的正例样本作为样本a,将有标签方式得到的训练样本作为样本b,先应用大规模的样本a进行检测模型训练,再应用小规模的样本b对漏写检测模型进行微调,从而得到诊断漏写检测效果更优的漏写检测模型。
[0095]
基于上述任一实施例,所述负例样本是对所述正例样本中的诊断疾病信息进行疾病要素替换得到的。
[0096]
具体地,对正例样本中的样本病历文本对应的诊断疾病信息进行疾病要素替换,则替换后的诊断疾病信息可以作为负例样本中的漏写疾病信息。同样地,为了使得对模型进行训练的效果更好,进而进行诊断漏写检测更加准确,可以对不同疾病要素进行替换得到的全部负例样本与正例样本的比例控制在1:1,或者控制在其余适当的比例。
[0097]
此处的疾病要素可以是通过对正例样本中的诊断疾病信息通过命名实体工具进行要素抽取得到,比如部位、病因、症状、程度、性质等。通常来说,候选漏写疾病信息与病历文本中的诊断疾病信息是有一定联系的,并且候选漏写疾病信息是不在病历文本的诊断疾病信息之中的,由此,可以通过对病历文本中的诊断疾病信息的疾病要素进行替换,可以通过icd(international classification of diseases,国际疾病分类法)编码进行替换,得到贴近实际的候选漏写疾病信息。
[0098]
以恶性肿瘤类型的疾病信息为例,针对恶性肿瘤类型的疾病信息来说,一般是对部位这一疾病要素进行替换,并且,恶性肿瘤分为原发性恶性肿瘤、继发性恶性肿瘤两大类,由此,对恶性肿瘤类型的诊断疾病信息构建负例样本,比如可以通过分别构建以下四个负例样本得到:负例样本之一,可以对正例样本中的诊断疾病信息为“部位+恶性肿瘤”的部位替换为icd编码中其他所有的“部位+恶性肿瘤”的疾病信息,得到负例样本之一;负例样本之二,可以对正例样本中的诊断疾病信息为“部位+继发性恶性肿瘤”的部位替换为icd编码中其他所有的“部位+继发性恶性肿瘤”的疾病信息,得到负例样本之二;负例样本之三,可以对正例样本中的诊断疾病信息为“部位+淋巴结+继发性恶性肿瘤”的部位替换为icd编码中其他所有的“部位+淋巴结+继发性恶性肿瘤”的疾病信息,得到负例样本之三;负例样本之四,可以对正例样本中的诊断疾病信息为“部位+淋巴结+继发性恶性肿瘤”的部位替换为icd编码中其他具有相同部位的“部位+继发性恶性肿瘤”的疾病信息,得到负例样本之四。即,将正例样本中的诊断疾病信息的某些疾病要素进行替换,则替换后的疾病信息和正例样本中的相关片段以及诊断未漏写的检测结果共同构成负例样本。可以理解的是,负例样本中的疾病信息都不在正例样本的诊断疾病信息之中,并且正例样本与负例样本的比例
为1:1,即正例样本:负例样本之一:负例样本之二:负例样本之三:负例样本之四为4:1:1:1:1。
[0099]
本发明实施例通过对正例样本中的诊断疾病信息进行疾病要素替换得到负例样本,使得负例样本中的漏写疾病信息更加全面,进而基于负例样本训练得到的模型对诊断漏写的检测更加全面。
[0100]
基于上述任一实施例,图3是本发明提供的确定候选漏写疾病信息的相关片段的方法的流程示意图,如图3所示,步骤120,包括:
[0101]
步骤310,对所述病历文本进行片段划分,得到所述病历文本中的各片段,以及所述各片段的片段类型;
[0102]
一般来说,病历文本的文本信息量是比较大的,并且包含较多的段落,每个或多个段落都有对应的文本目录,比如,检查结果这一文本目录可以对应多个病历文本段落。由此,可以对相对冗长的病历文本进行片段划分,可以将同一文本目录下的段落划分为一个片段,并可以将文本目录作为对应片段的片段类型。又或者,通过基于bert+crf(conditional random fields,条件随机场)等序列标注工具的病历内涵解析工具,将病历文本划分为多个片段,并将解析的结果作为各片段的片段类型,以实现对病历文本的片段划分。此处的片段类型可以是检查结果、检验结果、药物治疗、手术治疗等其中的至少一种。
[0103]
步骤320,从所述各片段中选取所述片段类型为预设类型的片段,作为候选片段;
[0104]
可以理解的是,冗长的病历文本中不一定所有片段类型的片段都包含与候选漏写疾病信息相关的片段。由此,可以从病历文本对应的各片段中选取片段类型为预设类型的片段,作为候选片段,以实现对病历文本中的片段精细定位。此处的预设类型可以是预先根据病历文本中可以作为漏写疾病信息的依据的分布规律来确定的。比如,针对恶性肿瘤类诊断疾病信息的诊断依据一般分布在病历文本对应的检查结果这一片段类型的片段中,则可以将检查结果这一片段类型作为预设类型。另外,此处的候选片段可以是最有可能包含各候选漏写疾病信息为漏写疾病信息的依据的片段。可以理解的是,此处的预设类型可以是一个或者多个,本发明实施例不做具体限定,相应地,候选片段也可以是一个或者多个。
[0105]
步骤330,检索与所述疾病要素匹配的候选片段,作为所述相关片段。
[0106]
在获取相关片段时,不再从全部的片段类型对应的片段中进行检索,而是只从预设类型的候选片段中进行检索,得到与疾病要素匹配的相关片段。
[0107]
本发明实施例提供的方法,通过对病历文本进行片段划分,得到病历文本中的各片段,以及各片段的片段类型;从各片段中选取片段类型为预设类型的片段,作为候选片段;检索与疾病要素匹配的候选片段,作为相关片段,提升了从病历文本中召回与候选漏写疾病信息的疾病要素相匹配的相关片段的效率,进而提升了对病历文本进行诊断漏写检测的效率。
[0108]
在实际应用中,病历文本存在诊断漏写检测时,绝大多数是对病历文本的诊断疾病信息中某一诊断疾病信息的同类型的疾病信息漏写,尤其是针对特殊的恶性肿瘤类型的疾病信息来说,几乎不存在漏写病历文本对应的诊断疾病信息中未出现的诊断疾病信息的同类型疾病信息。
[0109]
针对此情况,基于上述任一实施例,图4是本发明提供的确定候选漏写疾病信息的方法的流程示意图,如图4所示,步骤110中,所述基于所述病历文本对应的诊断疾病信息,
确定候选漏写疾病信息,包括:
[0110]
步骤410,在所述病历文本对应的诊断疾病信息包括预设疾病类型的疾病信息的情况下,获取所述预设疾病类型的下的疾病信息集合;
[0111]
此处,预设疾病类型可以是将病历样本中经常出现诊断漏写的疾病类型作为预设疾病类型,比如恶性肿瘤类,或者其他任意疾病类型。具体地,在病历文本对应的诊断疾病信息包括预设疾病类型的疾病信息的情况下,可以通过icd获取该预设疾病类型下的疾病信息集合,此处的疾病信息集合是一个或者多个疾病信息,通常是包含多个疾病信息。可以理解的是,疾病信息集合中的疾病信息容易与病历文本中的预设疾病类型下的诊断疾病信息同时在患者身上诱发。比如,病历文本对应的诊断疾病信息中包括食管恶性肿瘤,则其对应的疾病信息集合可以包括直肠恶性肿瘤、胃部恶性肿瘤、结肠恶性肿瘤等。
[0112]
步骤420,从所述疾病信息集合中,删除所述预设疾病类型的诊断疾病信息,得到所述候选漏写疾病信息。
[0113]
具体地,可以通过先验诊断的方式获得候选漏写疾病信息,即从疾病信息集合中,删除该病历文本中预设疾病类型下的诊断疾病信息。可以理解的是,候选漏写疾病信息一定不包括当前该病历文本对应的诊断疾病信息中的疾病信息。
[0114]
本发明实施例提供的方法,通过在病历文本对应的诊断疾病信息包括预设疾病类型的疾病信息的情况下,获取预设疾病类型的下的疾病信息集合;从疾病信息集合中,删除预设疾病类型的诊断疾病信息,得到候选漏写疾病信息,使得确定的候选漏写疾病信息更加全面和准确,进而对病历文本进行诊断漏写检测更加全面和准确。
[0115]
基于上述任一实施例,图5是本发明提供的诊断漏写检测方法的流程示意图之二,如图5所示,该方法应用与于针对恶肿瘤的诊断漏写检测,该方法包括:
[0116]
首先,输入待检测的病历文本;其中包括病历文本对应的诊断疾病信息。此处的病历文本,是诊断疾病信息中包含有恶性肿瘤类型的疾病信息的病历文本。
[0117]
接着,生成候选漏写疾病信息;
[0118]
具体地,在病历文本对应的诊断疾病信息包括恶性肿瘤类型的疾病信息时,可以从icd编码中获取与恶性肿瘤类型下的所有疾病信息集合,从疾病信息集合中删除病历文本中已有的恶性肿瘤类型的疾病信息,得到候选漏写疾病信息。在病历文本对应的诊断疾病信息不包括恶性肿瘤类型的疾病信息时,不对此病历文本进行诊断漏写检测。
[0119]
再接着,抽取候选漏写疾病信息的关键要素;
[0120]
进一步地,从病历文本中抽取与疾病要素匹配的片段作为相关片段;
[0121]
具体地,对病历文本进行片段划分,得到病历文本中的各片段,以及各片段的片段类型。从各片段中选取所述片段类型为检查结果的片段,作为候选片段;检索与疾病要素匹配的候选片段,作为相关片段。
[0122]
然后,基于漏写检测模型,确定候选漏写疾病信息与相关片段之间的相关度,以进行诊断漏写检测,得到候选漏写疾病信息的诊断漏写检测结果为诊断漏写,或者是非诊断漏写。
[0123]
具体地,漏写检测模型基于正例样本和负例样本训练得到。其中,正例样本基于样本病历文本以及样本病历文本对应的诊断疾病信息确定。另外,负例样本是对正例样本中的诊断疾病信息进行疾病要素替换得到的。即,将正例样本中的诊断疾病信息的某些疾病
要素进行替换,则替换后的疾病信息和正例样本中的相关片段以及诊断未漏写的检测结果共同构成负例样本。可以理解的是,负例样本中的疾病信息都不在正例样本的诊断疾病信息之中,并且正例样本与负例样本的比例为1:1。
[0124]
进一步地,在得到正负例样本数据后,基于正负例样本数据中的候选漏写疾病信息与相关片段之间的相关度,以正负例样本数据中诊断漏写结果作为训练标签,进行监督学习,得到检测模型。此处的相关度可以基于深度神经网络模型得到,图6是本发明提供的诊断漏写检测方法的流程示意图之三,如图6所示:首先,输入候选漏写疾病信息和相关片段,通过clinical-bert模型分别提取候选漏写疾病信息的疾病信息特征,以及相关片段的片段特征。接着,可以对提取得到的疾病信息特征以及片段特征进行平均池化,分别得到候选漏写疾病信息的句级疾病信息特征以及相关片段的句级片段特征。另外,可以通过co-attention层,基于疾病信息特征与片段特征之间的特征相似度,对疾病信息特征和片段特征进行特征交互,得到疾病信息增强特征和片段增强特征,并且可以对疾病信息增强特征和片段增强特征进行平均池化,得到最后的疾病信息增强特征和片段增强特征。
[0125]
进一步地,可以通过将句级疾病信息特征、句级片段特征、疾病信息增强特征和片段增强特征进行拼接,得到拼接特征,计算得到候选漏写疾病信息与所述相关片段之间的相关度。接着,可以将拼接特征通过sigmoid激活函数的全连接层,将相关度映射在0~1之间。最后,可以通过sofmax激活函数的全连接层,对相关度进行与预设阈值进行比较,当其中某一个相关度大于预设阈值时,即可判断该候选漏写疾病信息为漏写疾病信息,进而得到诊断漏写检测结果。
[0126]
基于上述任一实施例,图7是本发明提供的诊断漏写检测装置的结构示意图,如图7所示,该装置包括:
[0127]
获取单元710,获取待检测的病历文本,基于所述病历文本对应的诊断疾病信息,确定候选漏写疾病信息;
[0128]
检索单元720,从所述病历文本中检索与所述候选漏写疾病信息的疾病要素匹配的片段,作为所述候选漏写疾病信息的相关片段;
[0129]
检测单元730,基于所述候选漏写疾病信息与所述相关片段之间的相关度,进行诊断漏写检测。
[0130]
本发明实施例提供的装置,基于病历文本对应的诊断疾病信息,确定候选漏写疾病信息,以实现先验诊断,使得对病历文本的诊断漏写检测更全面;从病历文本中检索与候选漏写疾病信息的疾病要素匹配的片段,作为候选漏写疾病信息的相关片段,以实现片段粗筛;基于候选漏写疾病信息与相关片段之间的相关度,进行诊断漏写检测,以实现片段细筛,通过两级筛选片段,得到能够支持存在针对候选漏写疾病信息的诊断漏写问题的证据,实现了更加准确的诊断漏写检测,尤其使得恶性肿瘤类疾病信息的诊断漏写检测效果更理想。
[0131]
基于上述任一实施例,检测单元具体用于:
[0132]
提取所述候选漏写疾病信息的疾病信息特征,以及所述相关片段的片段特征;
[0133]
基于所述疾病信息特征与所述片段特征之间的特征相似度,对所述疾病信息特征和所述片段特征进行特征交互,得到疾病信息增强特征和片段增强特征;
[0134]
基于所述疾病信息增强特征和所述片段增强特征,确定所述相关度。
[0135]
基于上述任一实施例,检测单元具体用于:
[0136]
基于所述候选漏写疾病信息中的每个字在所述疾病信息特征中的字级特征,确定所述候选漏写疾病信息的句级疾病信息特征;
[0137]
基于所述相关片段中的每个字在所述片段特征中的字级特征,确定所述相关片段的句级片段特征;
[0138]
基于所述句级疾病信息特征、所述句级片段特征,以及所述疾病信息增强特征和所述片段增强特征,确定所述相关度。
[0139]
基于上述任一实施例,检测单元具体用于:
[0140]
基于漏写检测模型,确定所述候选漏写疾病信息与所述相关片段之间的相关度,以进行诊断漏写检测;
[0141]
所述漏写检测模型基于正例样本和负例样本训练得到,所述正例样本基于样本病历文本以及所述样本病历文本对应的诊断疾病信息确定。
[0142]
基于上述任一实施例,所述负例样本是对所述正例样本中的诊断疾病信息进行疾病要素替换得到的。
[0143]
基于上述任一实施例,检索单元具体用于:
[0144]
对所述病历文本进行片段划分,得到所述病历文本中的各片段,以及所述各片段的片段类型;
[0145]
从所述各片段中选取所述片段类型为预设类型的片段,作为候选片段;
[0146]
检索与所述疾病要素匹配的候选片段,作为所述相关片段。
[0147]
基于上述任一实施例,获取单元具体用于:
[0148]
在所述病历文本对应的诊断疾病信息包括预设疾病类型的疾病信息的情况下,获取所述预设疾病类型的下的疾病信息集合;
[0149]
从所述疾病信息集合中,删除所述预设疾病类型的诊断疾病信息,得到所述候选漏写疾病信息。
[0150]
图8示例了一种电子设备的实体结构示意图,如图8所示,该电子设备可以包括:处理器(processor)810、通信接口(communications interface)820、存储器(memory)830和通信总线840,其中,处理器810,通信接口820,存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令,以执行诊断漏写检测方法,该方法包括:获取待检测的病历文本,基于所述病历文本对应的诊断疾病信息,确定候选漏写疾病信息;从所述病历文本中检索与所述候选漏写疾病信息的疾病要素匹配的片段,作为所述候选漏写疾病信息的相关片段;基于所述候选漏写疾病信息与所述相关片段之间的相关度,进行诊断漏写检测。
[0151]
此外,上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种
可以存储程序代码的介质。
[0152]
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的诊断漏写检测方法,该方法包括:获取待检测的病历文本,基于所述病历文本对应的诊断疾病信息,确定候选漏写疾病信息;从所述病历文本中检索与所述候选漏写疾病信息的疾病要素匹配的片段,作为所述候选漏写疾病信息的相关片段;基于所述候选漏写疾病信息与所述相关片段之间的相关度,进行诊断漏写检测。
[0153]
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的诊断漏写检测方法,该方法包括:获取待检测的病历文本,基于所述病历文本对应的诊断疾病信息,确定候选漏写疾病信息;从所述病历文本中检索与所述候选漏写疾病信息的疾病要素匹配的片段,作为所述候选漏写疾病信息的相关片段;基于所述候选漏写疾病信息与所述相关片段之间的相关度,进行诊断漏写检测。
[0154]
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
[0155]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
[0156]
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

技术特征:
1.一种诊断漏写检测方法,其特征在于,包括:获取待检测的病历文本,基于所述病历文本对应的诊断疾病信息,确定候选漏写疾病信息;从所述病历文本中检索与所述候选漏写疾病信息的疾病要素匹配的片段,作为所述候选漏写疾病信息的相关片段;基于所述候选漏写疾病信息与所述相关片段之间的相关度,进行诊断漏写检测。2.根据权利要求1所述的诊断漏写检测方法,其特征在于,所述相关度的确定步骤包括:提取所述候选漏写疾病信息的疾病信息特征,以及所述相关片段的片段特征;基于所述疾病信息特征与所述片段特征之间的特征相似度,对所述疾病信息特征和所述片段特征进行特征交互,得到疾病信息增强特征和片段增强特征;基于所述疾病信息增强特征和所述片段增强特征,确定所述相关度。3.根据权利要求2所述的诊断漏写检测方法,其特征在于,所述基于所述疾病信息增强特征和所述片段增强特征,确定所述相关度,包括:基于所述候选漏写疾病信息中的每个字在所述疾病信息特征中的字级特征,确定所述候选漏写疾病信息的句级疾病信息特征;基于所述相关片段中的每个字在所述片段特征中的字级特征,确定所述相关片段的句级片段特征;基于所述句级疾病信息特征、所述句级片段特征,以及所述疾病信息增强特征和所述片段增强特征,确定所述相关度。4.根据权利要求1所述的诊断漏写检测方法,其特征在于,所述基于所述候选漏写疾病信息与所述相关片段之间的相关度,进行诊断漏写检测,包括:基于漏写检测模型,确定所述候选漏写疾病信息与所述相关片段之间的相关度,以进行诊断漏写检测;所述漏写检测模型基于正例样本和负例样本训练得到,所述正例样本基于样本病历文本以及所述样本病历文本对应的诊断疾病信息确定。5.根据权利要求4所述的诊断漏写检测方法,其特征在于,所述负例样本是对所述正例样本中的诊断疾病信息进行疾病要素替换得到的。6.根据权利要求1至5中任一项所述的诊断漏写检测方法,其特征在于,所述从所述病历文本中检索与所述候选漏写疾病信息的疾病要素匹配的片段,作为所述候选漏写疾病信息的相关片段,包括:对所述病历文本进行片段划分,得到所述病历文本中的各片段,以及所述各片段的片段类型;从所述各片段中选取所述片段类型为预设类型的片段,作为候选片段;检索与所述疾病要素匹配的候选片段,作为所述相关片段。7.根据权利要求1至5中任一项所述的诊断漏写检测方法,其特征在于,所述基于所述病历文本对应的诊断疾病信息,确定候选漏写疾病信息,包括:在所述病历文本对应的诊断疾病信息包括预设疾病类型的疾病信息的情况下,获取所述预设疾病类型的下的疾病信息集合;
从所述疾病信息集合中,删除所述预设疾病类型的诊断疾病信息,得到所述候选漏写疾病信息。8.一种漏写检测装置,其特征在于,包括:获取单元,获取待检测的病历文本,基于所述病历文本对应的诊断疾病信息,确定候选漏写疾病信息;检索单元,从所述病历文本中检索与所述候选漏写疾病信息的疾病要素匹配的片段,作为所述候选漏写疾病信息的相关片段;检测单元,基于所述候选漏写疾病信息与所述相关片段之间的相关度,进行诊断漏写检测。9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述诊断漏写检测方法。10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述诊断漏写检测方法。

技术总结
本发明提供一种诊断漏写检测方法、装置、电子设备和存储介质,通过获取待检测的病历文本,基于病历文本对应的诊断疾病信息,确定候选漏写疾病信息;从病历文本中检索与候选漏写疾病信息的疾病要素匹配的相关片段;基于候选漏写疾病信息与相关片段之间的相关度,进行诊断漏写检测。本发明提供的方法、装置、电子设备和存储介质,通过先验诊断,使得诊断漏写检测更全面;检索与候选漏写疾病信息匹配的相关片段,以实现片段粗筛;基于候选漏写疾病信息与相关片段之间的相关度,进行诊断漏写检测,以实现片段细筛,通过两级筛选片段,得到能够支持存在针对候选漏写疾病信息的诊断漏写问题的证据,实现更准确的诊断漏写检测。实现更准确的诊断漏写检测。实现更准确的诊断漏写检测。


技术研发人员:李美微 刘少辉
受保护的技术使用者:北京惠及智医科技有限公司
技术研发日:2023.04.17
技术公布日:2023/8/24
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐