基于人工智能的ICD自动编码方法及相关设备与流程

未命名 09-17 阅读:135 评论:0

基于人工智能的icd自动编码方法及相关设备
技术领域
1.本技术涉及人工智能和数字医疗技术领域,尤其涉及一种基于人工智能的icd自动编码方法及相关设备。


背景技术:

2.国际疾病分类(international classification of diseases,icd)作为疾病和有关健康问题的国际分类标准,是卫生信息标准体系的重要构成部分。疾病分类是根据疾病的某些特征,按照一定的规则对疾病分门别类,疾病分类实际上也是一种分组,有时一个组别可以包含若干种相同或者相似性质的疾病,有时仅单纯的包含某种疾病。国际疾病分类icd是用编码的方法对疾病进行分组,不同疾病类别对应不同的icd编码。icd编码不仅能够统一规范疾病名称,并且能够反映国家卫生状况。同时,疾病分类也是医保审核和付费时的重要依据。
3.目前,常常通过对临床医生书写的诊断信息进行图像识别获得文本信息,利用自然语言处理模型对文本信息直接与所有icd术语进行匹配,得到icd编码结果,然而,临床医生书写的诊断信息中常常出现错别字、口语化、俗称等情况,且获得的文本信息都是短文本,自然语言处理模型很难在缺少上下文的情况下提取高质量的文本特征,从而降低了icd编码的准确率。


技术实现要素:

4.鉴于以上内容,有必要提出一种基于人工智能的icd自动编码方法及相关设备,以解决如何提高icd编码的准确率这一技术问题,其中,相关设备包括基于人工智能的icd自动编码装置、电子设备及存储介质。
5.本技术提供基于人工智能的icd自动编码方法,所述方法包括:
6.基于医学知识图谱中至少一种实体类别搭建图谱嵌入层;
7.基于所述图谱嵌入层搭建icd编码初始模型,所述icd编码初始模型包括输入层、嵌入层和输出层,所述嵌入层包括文本嵌入层和所述图谱嵌入层;
8.采集多组诊断术语和icd术语的样本对以作为训练集;
9.基于所述训练集训练所述icd编码初始模型得到所述icd编码目标模型,所述icd编码目标模型输入为诊断术语和icd术语,输出为所述诊断术语和所述icd术语的相似度;
10.将待编码诊断术语输入所述icd编码目标模型,计算所述待编码诊断术语与每个icd术语的相似度,将相似度的最大值对应的icd术语作为所述待编码诊断术语的编码结果。
11.在一些实施例中,采集多组诊断术语和icd术语的样本对以作为训练集包括:
12.采集带有病例信息或诊断结果的图像,并利用光学字符识别技术提取所述图像中的文本信息,得到诊断术语;
13.获取任意一个诊断术语的编码结果,所述编码结果为所述诊断术语对应的icd术
语;
14.将所述诊断术语和编码结果作为一组正样本对,将所述诊断术语和所述编码结果之外的任意一个icd术语作为一组负样本对;
15.采集并储存多组正样本对和多组负样本对作为训练集。
16.在一些实施例中,所述医学知识图谱包括所有实体和任意实体之间的关联关系,所述基于医学知识图谱中至少一种实体类别搭建图谱嵌入层包括:
17.从所述医学知识图谱中提取相同实体类别的所有实体和实体之间的关联关系,得到每一种实体类别的子知识图谱;
18.所述图谱嵌入层的输入为各实体类别的子知识图谱,输出为用于表征所有子知识图谱中医学知识的图谱嵌入向量,所述图谱嵌入层包括多个特征提取层和特征融合层,所述特征提取层与所述实体类别一一对应;
19.所述特征提取层用于提取对应的实体类别的子知识图谱的特征以获取所述实体类别中每个实体的编码向量,并将所有实体的编码向量相加,得到所述实体类别的医学特征向量;
20.所述特征融合层用于对所有实体类别的医学特征向量进行融合以获取图谱嵌入向量,所述图谱嵌入向量满足关系式:
[0021][0022]
其中,n为所有实体类别的数量,hn为实体类别n的医学特征向量,αn为实体类别n的权重系数,β是偏置参数,h为所述图谱嵌入向量。
[0023]
在一些实施例中,所述基于所述图谱嵌入层搭建icd编码初始模型包括:
[0024]
所述输入层用于接收任意诊断术语和任意icd术语;
[0025]
将所述诊断术语输入所述嵌入层以执行预处理操作,得到第一输入数据和第二输入数据;
[0026]
将所述第一输入数据输入所述图谱嵌入层以获取图谱嵌入向量,将所述第二输入数据输入所述文本嵌入层以获取文本嵌入向量,并对所述图谱嵌入向量和所述文本嵌入向量进行拼接以获取所述诊断术语的诊断向量;
[0027]
将所述icd术语输入所述嵌入层以执行所述预处理操作,并基于所述文本嵌入层和所述图谱嵌入层得到所述icd术语的icd向量;
[0028]
将所述诊断向量和所述icd向量输入所述输出层,输出所述诊断术语和所述icd术语的相似度。
[0029]
在一些实施例中,所述将所述诊断术语输入所述嵌入层以执行预处理操作,得到第一输入数据和第二输入数据,包括:
[0030]
基于所述医学知识图谱从所述诊断术语中抽取不同实体类别的实体以构建每个实体类别的实体抽取集;
[0031]
针对每一个实体类别,判断对应的子知识图谱中的每一个实体是否在所述实体抽取集中,若所述实体在所述实体抽取集中,则将所述子知识图谱中所述实体保留,若所述实体不在所述实体抽取集中,则将所述子知识图谱中所述实体替换为空文本;
[0032]
当遍历完每一个实体类别对应的子知识图谱中所有实体后,得到每一个实体类别
的诊断子知识图谱;
[0033]
将所有实体类别的诊断子知识图谱作为第一输入数据;
[0034]
将所述诊断术语中的所有实体替换为预设字符,并在所述诊断术语的末尾填充所述预设字符以达到预设长度,得到第二输入数据。
[0035]
在一些实施例中,所述基于所述医学知识图谱从所述诊断术语中抽取不同实体类别的实体以构建每个实体类别的实体抽取集包括:
[0036]
获取所述医学知识图谱中每个实体的混淆实体;
[0037]
基于所述医学知识图谱中的实体和所述混淆实体构建字典树;
[0038]
查询所述字典树以获取所述诊断术语中包含的实体或混淆实体,并将所述诊断术语中包含的实体或混淆实体按照实体类别分类存储以获取每个实体类别的初始实体抽取集;
[0039]
将每个实体类别的初始实体抽取集中的所有混淆实体替换为所述混淆实体对应的实体,得到每个实体类别的实体抽取集。
[0040]
在一些实施例中,所述基于所述训练集训练所述icd编码初始模型得到所述icd编码目标模型包括:
[0041]
从所述训练集中随机选取预设数量的样本对,所述样本对包括所述正样本对和所述负样本对;
[0042]
将各样本对输入所述icd编码初始模型得到每个样本对的预测相似度;
[0043]
基于每个样本对的预测相似度计算损失函数的数值,所述损失函数满足关系式:
[0044][0045]
其中,m
+
为正样本对的数量,simu为正样本对u的预测相似度,m-为负样本对的数量,simv为负样本对v的预测相似度,‖sim
u-1‖2表示计算simu和1之间的欧氏距离,loss为所述损失函数的数值;
[0046]
依据反向传播算法更新所述icd编码初始模型以降低所述损失函数的数值;
[0047]
不断从所述训练集中随机选取样本对以更新所述icd编码初始模型,直至所述损失函数的数值小于预设损失值时停止,得到所述icd编码目标模型。
[0048]
本技术实施例还提供一种基于人工智能的icd自动编码装置,所述装置包括:
[0049]
第一搭建单元,用于基于医学知识图谱中至少一种实体类别搭建图谱嵌入层;
[0050]
第二搭建单元,用于基于所述图谱嵌入层搭建icd编码初始模型,所述icd编码初始模型包括输入层、嵌入层和输出层,所述嵌入层包括文本嵌入层和所述图谱嵌入层;
[0051]
采集单元,用于采集多组诊断术语和icd术语的样本对以作为训练集;
[0052]
训练单元,用于基于所述训练集训练所述icd编码初始模型得到所述icd编码目标模型,所述icd编码目标模型输入为诊断术语和icd术语,输出为所述诊断术语和所述icd术语的相似度;
[0053]
编码单元,用于将待编码诊断术语输入所述icd编码目标模型,计算所述待编码诊断术语与每个icd术语的相似度,将相似度的最大值对应的icd术语作为所述待编码诊断术语的编码结果。
[0054]
本技术实施例还提供一种电子设备,所述电子设备包括:
[0055]
存储器,存储至少一个指令;
[0056]
处理器,执行所述存储器中存储的指令以实现所述的基于人工智能的icd自动编码方法。
[0057]
本技术实施例还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个指令,所述至少一个指令被电子设备中的处理器执行以实现所述的基于人工智能的icd自动编码方法。
[0058]
综上,本技术借助医学知识图谱从诊断术语和icd术语中提取不同实体类别的实体以构建各实体类别的子知识图谱,借助图谱嵌入层实现各实体类别的特征提取,可快速获取图谱嵌入向量;借助文本嵌入层对诊断术语和icd术语中不属于实体的文本进行特征提取,获取文本嵌入向量,融合图谱嵌入向量和文本嵌入层可得到准确的诊断向量和icd向量,进而得到诊断术语和icd术语之间的相似度;通过计算诊断术语和所述icd术语之间的相似度实现icd自动编码,提高了icd自动编码的准确性。
附图说明
[0059]
图1是本技术所涉及的基于人工智能的icd自动编码方法的较佳实施例的流程图。
[0060]
图2是本技术所涉及的图谱嵌入层的结构示意图。
[0061]
图3是本技术所涉及的icd编码初始模型的结构示意图。
[0062]
图4是本技术所涉及的基于人工智能的icd自动编码装置的较佳实施例的功能模块图。
[0063]
图5是本技术所涉及的基于人工智能的icd自动编码方法的较佳实施例的电子设备的结构示意图。
具体实施方式
[0064]
为了能够更清楚地理解本技术的目的、特征和优点,下面结合附图和具体实施例对本技术进行详细描述。需要说明的是,在不冲突的情况下,本技术的实施例及实施例中的特征可以相互结合。在下面的描述中阐述了很多具体细节以便于充分理解本技术,所述描述的实施例仅是本技术一部分实施例,而不是全部的实施例。
[0065]
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个所述特征。在本技术的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
[0066]
除非另有定义,本文所使用的所有的技术和科学术语与属于本技术的技术领域的技术人员通常理解的含义相同。本文中在本技术的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本技术。本文所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。
[0067]
本技术实施例提供一种基于人工智能的icd自动编码方法,可应用于一个或者多个电子设备中,电子设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(application specific integrated circuit,asic)、可编程门阵列(field-programmable gate array,fpga)、数
字处理器(digital signal processor,dsp)、嵌入式设备等。
[0068]
电子设备可以是任何一种可与客户进行人机交互的电子产品,例如,个人计算机、平板电脑、智能手机、个人数字助理(personal digital assistant,pda)、游戏机、交互式网络电视(internet protocol television,iptv)、智能式穿戴式设备等。
[0069]
电子设备还可以包括网络设备和/或客户设备。其中,所述网络设备包括,但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算(cloud computing)的由大量主机或网络服务器构成的云。
[0070]
电子设备所处的网络包括但不限于互联网、广域网、城域网、局域网、虚拟专用网络(virtual private network,vpn)等。
[0071]
如图1所示,是本技术基于人工智能的icd自动编码方法的较佳实施例的流程图。根据不同的需求,该流程图中步骤的顺序可以改变,某些步骤可以省略。本技术实施例提供的基于人工智能的icd自动编码方法能够应用于任一种需要进行icd自动编码的场景中,且该方法能够应用于这些场景的产品中,例如,数字医疗领域内的疾病分类等等。
[0072]
s10,基于医学知识图谱中至少一种实体类别搭建图谱嵌入层。
[0073]
在一个可选的实施例中,所述医学知识图谱是一种表示任意不同实体之间关联关系的语义网络,所述实体包括至少一种实体类别的实体概念、名称以及别名等文本表述,实体间的关联关系包括归属、包含、导致、表现、修饰限制、恶化、缓解等,实体间的关联关系是双向的,比如a属于b,那么b包含a,a表现c,c的概念是a。所述医学知识图谱由大量的三元组构成,所述三元组包括两个实体和所述两个实体之间的关联关系,比如,三元组(a,属于,b)表示实体a属于实体b。
[0074]
所述实体类别包括但不限于身体结构、疾病核心词、疾病类型、疾病性质。每一种实体类别包括多个实体,其中,所述实体类别“身体结构”包括脊椎骨、胰腺管、胸腹、肺组织等多个实体;所述实体类别“疾病核心词”包括炎、挫伤、息肉、囊肿、肿瘤等多个实体;所述实体类别“疾病类型”包括1型、2型、a型、b型等多个实体;所述实体类别“疾病性质”包括继发性、回缩型、退行性、喘鸣性、孔骨性等多个实体。
[0075]
请参见图2,图2是本技术所涉及的图谱嵌入层的结构示意图。在一个可选的实施例中,所述医学知识图谱包括所有实体和任意实体之间的关联关系,所述基于医学知识图谱中至少一种实体类别搭建图谱嵌入层包括:
[0076]
从所述医学知识图谱中提取相同实体类别的所有实体和实体之间的关联关系,得到每一种实体类别的子知识图谱;
[0077]
所述图谱嵌入层的输入为各实体类别的子知识图谱,输出为用于表征所有子知识图谱中医学知识的图谱嵌入向量,所述图谱嵌入层包括多个特征提取层和特征融合层,所述特征提取层与所述实体类别一一对应;
[0078]
所述特征提取层用于提取对应的实体类别的子知识图谱的特征以获取所述实体类别中每个实体的编码向量,并将所有实体的编码向量相加,得到所述实体类别的医学特征向量;
[0079]
所述特征融合层用于对所有实体类别的医学特征向量进行融合以获取图谱嵌入向量,所述图谱嵌入向量满足关系式:
[0080][0081]
其中,n为所有实体类别的数量,hn为实体类别n的医学特征向量,αn为实体类别n的权重系数,β是偏置参数,h为所述图谱嵌入向量。
[0082]
其中,所述实体类别的子知识图谱中只包括相同实体类别的实体以及所述实体之间的关联关系,示例性的,以实体类别“疾病核心词”为示例,实体“息肉”和“肿瘤”之间的关联关系为恶化,即构成三元组(息肉,恶化,肿瘤);实体“挫伤”和“炎”之间的关联关系为导致,即构成三元组(挫伤,导致,炎)。
[0083]
在所述医学知识图谱中不同实体类别的实体之间也会存在关联关系,但若在所述图谱嵌入层中考虑不同实体类别的实体之间的关联关系会大大增加计算量,从而导致延长所述图谱嵌入层的训练时间;故本技术中针对每一个实体类别构建子知识图谱,只考虑相同实体类别的实体之间的关联关系,然后通过所述特征融合层将不同的实体类别的医学特征向量融合起来,可以降低所述图谱嵌入层中的计算量。
[0084]
所述特征提取层的结构为图神经网络,输入为对应实体类别的子知识图谱,输出为所述实体类别的医学特征向量。其中,每一个实体为所述图神经网络中的一个节点,借助所述图神经网络可以不断更新每个实体的编码向量,所述实体的编码向量可以表征医学知识图谱中该实体与相同实体类别的其他实体之间的关联关系;将相同实体类别的所有实体的编码向量相加即可得到所述实体类别的医学特征向量。
[0085]
所述实体类别n的权重系数αn和所述偏置参数β为可训练参数,其具体数值与所述图谱嵌入层的训练过程有关。所述图谱嵌入层输出的图谱嵌入向量包含所有子知识图谱中医学知识,对提高icd自动编码的准确性提供了医学理论依据。
[0086]
如此,基于医学知识图谱构建了不同实体类别的子知识图谱,图谱嵌入层先对每个子知识图谱分别进行特征提取后再进行特征融合,得到所有子知识图谱整体特征的图谱嵌入向量,降低了获取图谱嵌入向量的计算量,同时实现了所有实体和实体之间关联关系的特征提取。
[0087]
s11,基于所述图谱嵌入层搭建icd编码初始模型,所述icd编码初始模型包括输入层、嵌入层和输出层,所述嵌入层包括文本嵌入层和所述图谱嵌入层。
[0088]
请参见图3,图3是本技术所涉及的icd编码初始模型的结构示意图。在一个可选的实施例中,所述基于所述图谱嵌入层搭建icd编码初始模型包括:
[0089]
所述输入层用于接收任意诊断术语和任意icd术语;
[0090]
将所述诊断术语输入所述嵌入层以执行预处理操作,得到第一输入数据和第二输入数据;
[0091]
将所述第一输入数据输入所述图谱嵌入层以获取图谱嵌入向量,将所述第二输入数据输入所述文本嵌入层以获取文本嵌入向量,并对所述图谱嵌入向量和所述文本嵌入向量进行拼接以获取所述诊断术语的诊断向量;
[0092]
将所述icd术语输入所述嵌入层以执行所述预处理操作,并基于所述文本嵌入层和所述图谱嵌入层得到所述icd术语的icd向量;
[0093]
将所述诊断向量和所述icd向量输入所述输出层,输出所述诊断术语和所述icd术语的相似度。
的混淆实体为“自内障”,实体“皮疹”的混淆实体为“皮诊”。一个实体对应的混淆实体的数量为0个、1个或多个,所述混淆实体的获取方式为统计获取。所述字典树为一种用于快速检索的多叉树结构的数据库,所述字典树中储存了所有实体以及每一个实体的混淆实体。
[0110]
需要说明的是,将混淆实体参与字典树的构建,避免了诊断术语中错别字、口语化、俗称,或ocr识别不准确等因素造成的实体抽取失败的情况。
[0111]
如此,完成icd编码初始模型的搭建,所述icd编码初始模型可以获取输出任意诊断术语和任意icd术语之间的相似度,且所述icd编码初始模型中的嵌入层通过对诊断术语或icd术语进行实体抽取并拆分为第一输入数据和第二输入数据,避免诊断术语中错别字、口语化、俗称等因素对icd自动编码的准确性的影响。
[0112]
s12,采集多组诊断术语和icd术语的样本对以作为训练集。
[0113]
在一个可选的实施例中,所述诊断术语为医生在实际诊断的过程中书写的病例信息或诊断结果。所述icd术语为疾病诊断编码库中储存的不同疾病分类的icd编码,所述疾病诊断编码库包括所有疾病分类的icd编码。
[0114]
在一个可选的实施例中,采集多组诊断术语和icd术语的样本对以作为训练集包括:
[0115]
采集带有病例信息或诊断结果的图像,并利用光学字符识别技术提取所述图像中的文本信息,得到诊断术语;
[0116]
获取任意一个诊断术语的编码结果,所述编码结果为所述诊断术语对应的icd术语;
[0117]
将所述诊断术语和编码结果作为一组正样本对,将所述诊断术语和所述编码结果之外的任意一个icd术语作为一组负样本对;
[0118]
采集并储存多组正样本对和多组负样本对作为训练集。
[0119]
其中,所述获取任意一个诊断术语的编码结果中的获取方式为专家标注获得。所述光学字符识别(optical character recognition,ocr)是指对文本资料的图像文件进行分析识别处理,获取文字及版面信息的过程,亦即将图像中的文字进行识别,并以文本的形式返回。
[0120]
示例性的,诊断术语“急性支气管肺炎小叶性肺炎”对应的icd术语为疾病分类“肺部感染”对应的icd编码j98.414;诊断术语“右上颌窦外侧壁骨折”对应的icd术语为疾病分类“颧骨和上颌骨骨折”对应的icd编码s02.4。
[0121]
如此,采集了多组诊断术语和icd术语之间的对应关系,每一组对应关系作为一组训练对,得到训练集,为实现icd自动编码提供了数据基础。
[0122]
s13,基于所述训练集训练所述icd编码初始模型得到所述icd编码目标模型,所述icd编码目标模型输入为诊断术语和icd术语,输出为所述诊断术语和所述icd术语的相似度。
[0123]
在一个可选的实施例中,所述icd编码初始模型为参数化模型,为了约束所述icd编码初始模型能够准确输出任意诊断术语和任意icd术语之间的相似度,需要对所述icd编码初始模型进行训练。
[0124]
在一个可选的实施例中,所述基于所述训练集训练所述icd编码初始模型得到所述icd编码目标模型包括:
[0125]
从所述训练集中随机选取预设数量的样本对,所述样本对包括所述正样本对和所述负样本对;
[0126]
将各样本对输入所述icd编码初始模型得到每个样本对的预测相似度;
[0127]
基于每个样本对的预测相似度计算损失函数的数值,所述损失函数满足关系式:
[0128][0129]
其中,m
+
为正样本对的数量,simu为正样本对u的预测相似度,m-为负样本对的数量,simv为负样本对v的预测相似度,‖sim
u-1‖2表示计算simu和1之间的欧氏距离,loss为所述损失函数的数值;
[0130]
依据反向传播算法更新所述icd编码初始模型以降低所述损失函数的数值;
[0131]
不断从所述训练集中随机选取样本对以更新所述icd编码初始模型,直至所述损失函数的数值小于预设损失值时停止,得到所述icd编码目标模型。
[0132]
其中,所述预设数量为32,所述预设损失值为0.001。
[0133]
如此,完成所述icd编码初始模型的训练,得到所述icd编码目标模型,所述icd编码目标模型输入为诊断术语和icd术语,输出为所述诊断术语和所述icd术语之间准确的相似度。
[0134]
s14,将待编码诊断术语输入所述icd编码目标模型,计算所述待编码诊断术语与每个icd术语的相似度,将相似度的最大值对应的icd术语作为所述待编码诊断术语的编码结果。
[0135]
在一个可选的实施例中,所述icd术语的数量是有限的,基于所述icd编码目标模型计算所述待编码诊断术语与每个icd术语的相似度,将相似度的最大值对应的icd术语作为所述待编码诊断术语的编码结果。
[0136]
如此,可以得到任意一个待编码诊断术语对应的icd术语,实现待编码诊断术语的icd自动编码。
[0137]
由以上技术方案可以看出,本技术借助医学知识图谱从诊断术语和icd术语中提取不同实体类别的实体以构建各实体类别的子知识图谱,借助图谱嵌入层实现各实体类别的特征提取,可快速获取图谱嵌入向量;借助文本嵌入层对诊断术语和icd术语中不属于实体的文本进行特征提取,获取文本嵌入向量,融合图谱嵌入向量和文本嵌入层可得到准确的诊断向量和icd向量,进而得到诊断术语和icd术语之间的相似度;通过计算诊断术语和所述icd术语之间的相似度实现icd自动编码,提高了icd自动编码的准确性。
[0138]
请参见图4,图4是本技术基于人工智能的icd自动编码装置的较佳实施例的功能模块图。基于人工智能的icd自动编码装置11包括第一搭建单元110、第二搭建单元111、采集单元112、训练单元113、编码单元114。本技术所称的模块/单元是指一种能够被处理器13所执行,并且能够完成固定功能的一系列计算机可读指令段,其存储在存储器12中。在本实施例中,关于各模块/单元的功能将在后续的实施例中详述。
[0139]
在一个可选的实施例中,第一搭建单元110用于基于医学知识图谱中至少一种实体类别搭建图谱嵌入层。
[0140]
在一个可选的实施例中,所述医学知识图谱包括所有实体和任意实体之间的关联关系,所述基于医学知识图谱中至少一种实体类别搭建图谱嵌入层包括:
[0141]
从所述医学知识图谱中提取相同实体类别的所有实体和实体之间的关联关系,得到每一种实体类别的子知识图谱;
[0142]
所述图谱嵌入层的输入为各实体类别的子知识图谱,输出为用于表征所有子知识图谱中医学知识的图谱嵌入向量,所述图谱嵌入层包括多个特征提取层和特征融合层,所述特征提取层与所述实体类别一一对应;
[0143]
所述特征提取层用于提取对应的实体类别的子知识图谱的特征以获取所述实体类别中每个实体的编码向量,并将所有实体的编码向量相加,得到所述实体类别的医学特征向量;
[0144]
所述特征融合层用于对所有实体类别的医学特征向量进行融合以获取图谱嵌入向量,所述图谱嵌入向量满足关系式:
[0145][0146]
其中,n为所有实体类别的数量,hn为实体类别n的医学特征向量,αn为实体类别n的权重系数,β是偏置参数,h为所述图谱嵌入向量。
[0147]
在一个可选的实施例中,第二搭建单元111用于基于所述图谱嵌入层搭建icd编码初始模型,所述icd编码初始模型包括输入层、嵌入层和输出层,所述嵌入层包括文本嵌入层和所述图谱嵌入层。
[0148]
在一个可选的实施例中,所述基于所述图谱嵌入层搭建icd编码初始模型包括:
[0149]
所述输入层用于接收任意诊断术语和任意icd术语;
[0150]
将所述诊断术语输入所述嵌入层以执行预处理操作,得到第一输入数据和第二输入数据;
[0151]
将所述第一输入数据输入所述图谱嵌入层以获取图谱嵌入向量,将所述第二输入数据输入所述文本嵌入层以获取文本嵌入向量,并对所述图谱嵌入向量和所述文本嵌入向量进行拼接以获取所述诊断术语的诊断向量;
[0152]
将所述icd术语输入所述嵌入层以执行所述预处理操作,并基于所述文本嵌入层和所述图谱嵌入层得到所述icd术语的icd向量;
[0153]
将所述诊断向量和所述icd向量输入所述输出层,输出所述诊断术语和所述icd术语的相似度。
[0154]
在一个可选的实施例中,所述将所述诊断术语输入所述嵌入层以执行预处理操作,得到第一输入数据和第二输入数据,包括:
[0155]
基于所述医学知识图谱从所述诊断术语中抽取不同实体类别的实体以构建每个实体类别的实体抽取集;
[0156]
针对每一个实体类别,判断对应的子知识图谱中的每一个实体是否在所述实体抽取集中,若所述实体在所述实体抽取集中,则将所述子知识图谱中所述实体保留,若所述实体不在所述实体抽取集中,则将所述子知识图谱中所述实体替换为空文本;
[0157]
当遍历完每一个实体类别对应的子知识图谱中所有实体后,得到每一个实体类别的诊断子知识图谱;
[0158]
将所有实体类别的诊断子知识图谱作为第一输入数据;
[0159]
将所述诊断术语中的所有实体替换为预设字符,并在所述诊断术语的末尾填充所
述预设字符以达到预设长度,得到第二输入数据。
[0160]
在一个可选的实施例中,所述基于所述医学知识图谱从所述诊断术语中抽取不同实体类别的实体以构建每个实体类别的实体抽取集包括:
[0161]
获取所述医学知识图谱中每个实体的混淆实体;
[0162]
基于所述医学知识图谱中的实体和所述混淆实体构建字典树;
[0163]
查询所述字典树以获取所述诊断术语中包含的实体或混淆实体,并将所述诊断术语中包含的实体或混淆实体按照实体类别分类存储以获取每个实体类别的初始实体抽取集;
[0164]
将每个实体类别的初始实体抽取集中的所有混淆实体替换为所述混淆实体对应的实体,得到每个实体类别的实体抽取集。
[0165]
在一个可选的实施例中,采集单元112用于采集多组诊断术语和icd术语的样本对以作为训练集。
[0166]
在一个可选的实施例中,采集多组诊断术语和icd术语的样本对以作为训练集包括:
[0167]
采集带有病例信息或诊断结果的图像,并利用光学字符识别技术提取所述图像中的文本信息,得到诊断术语;
[0168]
获取任意一个诊断术语的编码结果,所述编码结果为所述诊断术语对应的icd术语;
[0169]
将所述诊断术语和编码结果作为一组正样本对,将所述诊断术语和所述编码结果之外的任意一个icd术语作为一组负样本对;
[0170]
采集并储存多组正样本对和多组负样本对作为训练集。
[0171]
在一个可选的实施例中,训练单元113用于基于所述训练集训练所述icd编码初始模型得到所述icd编码目标模型,所述icd编码目标模型输入为诊断术语和icd术语,输出为所述诊断术语和所述icd术语的相似度。
[0172]
在一个可选的实施例中,所述基于所述训练集训练所述icd编码初始模型得到所述icd编码目标模型包括:
[0173]
从所述训练集中随机选取预设数量的样本对,所述样本对包括所述正样本对和所述负样本对;
[0174]
将各样本对输入所述icd编码初始模型得到每个样本对的预测相似度;
[0175]
基于每个样本对的预测相似度计算损失函数的数值,所述损失函数满足关系式:
[0176][0177]
其中,m
+
为正样本对的数量,simu为正样本对u的预测相似度,m-为负样本对的数量,simv为负样本对v的预测相似度,‖sim
u-1‖2表示计算simu和1之间的欧氏距离,loss为所述损失函数的数值;
[0178]
依据反向传播算法更新所述icd编码初始模型以降低所述损失函数的数值;
[0179]
不断从所述训练集中随机选取样本对以更新所述icd编码初始模型,直至所述损失函数的数值小于预设损失值时停止,得到所述icd编码目标模型。
[0180]
在一个可选的实施例中,编码单元114用于将待编码诊断术语输入所述icd编码目
标模型,计算所述待编码诊断术语与每个icd术语的相似度,将相似度的最大值对应的icd术语作为所述待编码诊断术语的编码结果。
[0181]
由以上技术方案可以看出,本技术借助医学知识图谱从诊断术语和icd术语中提取不同实体类别的实体以构建各实体类别的子知识图谱,借助图谱嵌入层实现各实体类别的特征提取,可快速获取图谱嵌入向量;借助文本嵌入层对诊断术语和icd术语中不属于实体的文本进行特征提取,获取文本嵌入向量,融合图谱嵌入向量和文本嵌入层可得到准确的诊断向量和icd向量,进而得到诊断术语和icd术语之间的相似度;通过计算诊断术语和所述icd术语之间的相似度实现icd自动编码,提高了icd自动编码的准确性。
[0182]
请参见图5,是本技术实施例提供的一种电子设备的结构示意图。电子设备1包括存储器12和处理器13。存储器12用于存储计算机可读指令,处理器13用执行所述储器中存储的计算机可读指令以实现上述任一实施例所述的基于人工智能的icd自动编码方法。
[0183]
在一个可选的实施例中,电子设备1还包括总线、存储在所述存储器12中并可在所述处理器13上运行的计算机程序,例如基于人工智能的icd自动编码程序。
[0184]
图5仅示出了具有存储器12和处理器13的电子设备1,本领域技术人员可以理解的是,图5示出的结构并不构成对电子设备1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
[0185]
结合图1,电子设备1中的所述存储器12存储多个计算机可读指令以实现一种基于人工智能的icd自动编码方法,所述处理器13可执行所述多个指令从而实现:
[0186]
基于医学知识图谱中至少一种实体类别搭建图谱嵌入层;
[0187]
基于所述图谱嵌入层搭建icd编码初始模型,所述icd编码初始模型包括输入层、嵌入层和输出层,所述嵌入层包括文本嵌入层和所述图谱嵌入层;
[0188]
采集多组诊断术语和icd术语的样本对以作为训练集;
[0189]
基于所述训练集训练所述icd编码初始模型得到所述icd编码目标模型,所述icd编码目标模型输入为诊断术语和icd术语,输出为所述诊断术语和所述icd术语的相似度;
[0190]
将待编码诊断术语输入所述icd编码目标模型,计算所述待编码诊断术语与每个icd术语的相似度,将相似度的最大值对应的icd术语作为所述待编码诊断术语的编码结果。
[0191]
具体地,所述处理器13对上述指令的具体实现方法可参考图1对应实施例中相关步骤的描述,在此不赘述。
[0192]
本领域技术人员可以理解,所述示意图仅仅是电子设备1的示例,并不构成对电子设备1的限定,电子设备1可以是总线型结构,也可以是星形结构,电子设备1还可以包括比图示更多或更少的其他硬件或者软件,或者不同的部件布置,例如电子设备1还可以包括输入输出设备、网络接入设备等。
[0193]
需要说明的是,电子设备1仅为举例,其他现有的或今后可能出现的电子产品如可适应于本技术,也应包含在本技术的保护范围以内,并以引用方式包含于此。
[0194]
其中,存储器12至少包括一种类型的可读存储介质,所述可读存储介质可以是非易失性的,也可以是易失性的。所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如:sd或dx存储器等)、磁性存储器、磁盘、光盘等。存储器12在一些实施例中可以是电子设备1的内部存储单元,例如该电子设备1的移动硬盘。存储器12在另一些实施例中也可
以是电子设备1的外部存储设备,例如电子设备1上配备的插接式移动硬盘、智能存储卡(smart media card,smc)、安全数字(secure digital,sd)卡、闪存卡(flash card)等。存储器12不仅可以用于存储安装于电子设备1的应用软件及各类数据,例如基于人工智能的icd自动编码程序的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
[0195]
处理器13在一些实施例中可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(central processing unit,cpu)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。处理器13是电子设备1的控制核心(control unit),利用各种接口和线路连接整个电子设备1的各个部件,通过运行或执行存储在所述存储器12内的程序或者模块(例如执行基于人工智能的icd自动编码程序等),以及调用存储在所述存储器12内的数据,以执行电子设备1的各种功能和处理数据。
[0196]
所述处理器13执行所述电子设备1的操作系统以及安装的各类应用程序。所述处理器13执行所述应用程序以实现上述各个基于人工智能的icd自动编码方法实施例中的步骤,例如图1所示的步骤。
[0197]
示例性的,所述计算机程序可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器12中,并由所述处理器13执行,以完成本技术。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机可读指令段,该指令段用于描述所述计算机程序在电子设备1中的执行过程。例如,所述计算机程序可以被分割成第一搭建单元110、第二搭建单元111、采集单元112、训练单元113、编码单元114。
[0198]
上述以软件功能模块的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、计算机设备,或者网络设备等)或处理器(processor)执行本技术各个实施例所述的基于人工智能的icd自动编码方法的部分。
[0199]
电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指示相关的硬件设备来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。
[0200]
其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom,read-only memory)、随机存储器及其他存储器等。
[0201]
进一步地,计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。
[0202]
本技术所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品
服务层以及应用服务层等。
[0203]
总线可以是外设部件互连标准(peripheral component interconnect,简称pci)总线或扩展工业标准结构(extended industry standard architecture,简称eisa)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示,在图5中仅用一根箭头表示,但并不表示仅有一根总线或一种类型的总线。所述总线被设置为实现所述存储器12以及至少一个处理器13等之间的连接通信。
[0204]
本技术实施例还提供一种计算机可读存储介质(图未示),计算机可读存储介质中存储有计算机可读指令,计算机可读指令被电子设备中的处理器执行以实现上述任一实施例所述的基于人工智能的icd自动编码方法。
[0205]
在本技术所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
[0206]
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
[0207]
另外,在本技术各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
[0208]
此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。说明书陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一、第二等词语用来表示名称,而并不表示任何特定的顺序。
[0209]
最后应说明的是,以上实施例仅用以说明本技术的技术方案而非限制,尽管参照较佳实施例对本技术进行了详细说明,本领域的普通技术人员应当理解,可以对本技术的技术方案进行修改或等同替换,而不脱离本技术技术方案的精神和范围。

技术特征:
1.一种基于人工智能的icd自动编码方法,其特征在于,所述方法包括:基于医学知识图谱中至少一种实体类别搭建图谱嵌入层;基于所述图谱嵌入层搭建icd编码初始模型,所述icd编码初始模型包括输入层、嵌入层和输出层,所述嵌入层包括文本嵌入层和所述图谱嵌入层;采集多组诊断术语和icd术语的样本对以作为训练集;基于所述训练集训练所述icd编码初始模型得到所述icd编码目标模型,所述icd编码目标模型输入为诊断术语和icd术语,输出为所述诊断术语和所述icd术语的相似度;将待编码诊断术语输入所述icd编码目标模型,计算所述待编码诊断术语与每个icd术语的相似度,将相似度的最大值对应的icd术语作为所述待编码诊断术语的编码结果。2.如权利要求1所述的基于人工智能的icd自动编码方法,其特征在于,采集多组诊断术语和icd术语的样本对以作为训练集包括:采集带有病例信息或诊断结果的图像,并利用光学字符识别技术提取所述图像中的文本信息,得到诊断术语;获取任意一个诊断术语的编码结果,所述编码结果为所述诊断术语对应的icd术语;将所述诊断术语和编码结果作为一组正样本对,将所述诊断术语和所述编码结果之外的任意一个icd术语作为一组负样本对;采集并储存多组正样本对和多组负样本对作为训练集。3.如权利要求1所述的基于人工智能的icd自动编码方法,其特征在于,所述医学知识图谱包括所有实体和任意实体之间的关联关系,所述基于医学知识图谱中至少一种实体类别搭建图谱嵌入层包括:从所述医学知识图谱中提取相同实体类别的所有实体和实体之间的关联关系,得到每一种实体类别的子知识图谱;所述图谱嵌入层的输入为各实体类别的子知识图谱,输出为用于表征所有子知识图谱中医学知识的图谱嵌入向量,所述图谱嵌入层包括多个特征提取层和特征融合层,所述特征提取层与所述实体类别一一对应;所述特征提取层用于提取对应的实体类别的子知识图谱的特征以获取所述实体类别中每个实体的编码向量,并将所有实体的编码向量相加,得到所述实体类别的医学特征向量;所述特征融合层用于对所有实体类别的医学特征向量进行融合以获取图谱嵌入向量,所述图谱嵌入向量满足关系式:其中,n为所有实体类别的数量,h
n
为实体类别n的医学特征向量,α
n
为实体类别n的权重系数,β是偏置参数,h为所述图谱嵌入向量。4.如权利要求3所述的基于人工智能的icd自动编码方法,其特征在于,所述基于所述图谱嵌入层搭建icd编码初始模型包括:所述输入层用于接收任意诊断术语和任意icd术语;将所述诊断术语输入所述嵌入层以执行预处理操作,得到第一输入数据和第二输入数
据;将所述第一输入数据输入所述图谱嵌入层以获取图谱嵌入向量,将所述第二输入数据输入所述文本嵌入层以获取文本嵌入向量,并对所述图谱嵌入向量和所述文本嵌入向量进行拼接以获取所述诊断术语的诊断向量;将所述icd术语输入所述嵌入层以执行所述预处理操作,并基于所述文本嵌入层和所述图谱嵌入层得到所述icd术语的icd向量;将所述诊断向量和所述icd向量输入所述输出层,输出所述诊断术语和所述icd术语的相似度。5.如权利要求4所述的基于人工智能的icd自动编码方法,其特征在于,所述将所述诊断术语输入所述嵌入层以执行预处理操作,得到第一输入数据和第二输入数据,包括:基于所述医学知识图谱从所述诊断术语中抽取不同实体类别的实体以构建每个实体类别的实体抽取集;针对每一个实体类别,判断对应的子知识图谱中的每一个实体是否在所述实体抽取集中,若所述实体在所述实体抽取集中,则将所述子知识图谱中所述实体保留,若所述实体不在所述实体抽取集中,则将所述子知识图谱中所述实体替换为空文本;当遍历完每一个实体类别对应的子知识图谱中所有实体后,得到每一个实体类别的诊断子知识图谱;将所有实体类别的诊断子知识图谱作为第一输入数据;将所述诊断术语中的所有实体替换为预设字符,并在所述诊断术语的末尾填充所述预设字符以达到预设长度,得到第二输入数据。6.如权利要求5所述的基于人工智能的icd自动编码方法,其特征在于,所述基于所述医学知识图谱从所述诊断术语中抽取不同实体类别的实体以构建每个实体类别的实体抽取集包括:获取所述医学知识图谱中每个实体的混淆实体;基于所述医学知识图谱中的实体和所述混淆实体构建字典树;查询所述字典树以获取所述诊断术语中包含的实体或混淆实体,并将所述诊断术语中包含的实体或混淆实体按照实体类别分类存储以获取每个实体类别的初始实体抽取集;将每个实体类别的初始实体抽取集中的所有混淆实体替换为所述混淆实体对应的实体,得到每个实体类别的实体抽取集。7.如权利要求2所述的基于人工智能的icd自动编码方法,其特征在于,所述基于所述训练集训练所述icd编码初始模型得到所述icd编码目标模型包括:从所述训练集中随机选取预设数量的样本对,所述样本对包括所述正样本对和所述负样本对;将各样本对输入所述icd编码初始模型得到每个样本对的预测相似度;基于每个样本对的预测相似度计算损失函数的数值,所述损失函数满足关系式:其中,m
+
为正样本对的数量,sim
u
为正样本对u的预测相似度,m-为负样本对的数量,sim
v
为负样本对v的预测相似度,‖sim
u-1‖2表示计算sim
u
和1之间的欧氏距离,loss为所述损失
函数的数值;依据反向传播算法更新所述icd编码初始模型以降低所述损失函数的数值;不断从所述训练集中随机选取样本对以更新所述icd编码初始模型,直至所述损失函数的数值小于预设损失值时停止,得到所述icd编码目标模型。8.一种基于人工智能的icd自动编码装置,其特征在于,所述装置包括:第一搭建单元,用于基于医学知识图谱中至少一种实体类别搭建图谱嵌入层;第二搭建单元,用于基于所述图谱嵌入层搭建icd编码初始模型,所述icd编码初始模型包括输入层、嵌入层和输出层,所述嵌入层包括文本嵌入层和所述图谱嵌入层;采集单元,用于采集多组诊断术语和icd术语的样本对以作为训练集;训练单元,用于基于所述训练集训练所述icd编码初始模型得到所述icd编码目标模型,所述icd编码目标模型输入为诊断术语和icd术语,输出为所述诊断术语和所述icd术语的相似度;编码单元,用于将待编码诊断术语输入所述icd编码目标模型,计算所述待编码诊断术语与每个icd术语的相似度,将相似度的最大值对应的icd术语作为所述待编码诊断术语的编码结果。9.一种电子设备,其特征在于,所述电子设备包括:存储器,存储有计算机可读指令;及处理器,执行所述存储器中存储的计算机可读指令以实现如权利要求1至7中任意一项所述的基于人工智能的icd自动编码方法。10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如权利要求1至7中任一项所述的基于人工智能的icd自动编码方法。

技术总结
本申请提出一种基于人工智能的ICD自动编码方法、装置、电子设备及存储介质,基于人工智能的ICD自动编码方法包括:基于医学知识图谱中不同实体类别搭建图谱嵌入层;基于图谱嵌入层搭建ICD编码初始模型,ICD编码初始模型包括输入层、嵌入层和输出层,嵌入层包括图谱嵌入层;采集多组诊断术语和ICD术语的样本对作为训练集;基于训练集训练ICD编码初始模型得到ICD编码目标模型,ICD编码目标模型输入为诊断术语和ICD术语,输出为诊断术语和ICD术语的相似度;将待编码诊断术语输入ICD编码目标模型,计算待编码诊断术语与每个ICD术语的相似度,将相似度的最大值对应的ICD术语作为待编码诊断术语的编码结果。本申请能提高数字医疗领域内ICD编码的准确率。内ICD编码的准确率。内ICD编码的准确率。


技术研发人员:苏国辉
受保护的技术使用者:平安科技(深圳)有限公司
技术研发日:2023.04.20
技术公布日:2023/9/14
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐