医学文档信息抽取方法、装置、电子设备及可读介质与流程

未命名 07-15 阅读:142 评论:0


1.本发明是关于数据处理技术领域,特别是关于一种医学文档信息抽取方法、装置、电子设备及可读介质。


背景技术:

2.在医疗健康领域,存在着大量图像形式的医疗文档,如电子病历,病理报告等,这些医疗文档中存储着大量的有用信息。现有的医疗文档信息抽取方法,通常是采用ocr识别技术进行信息抽取,然后这种方式在医疗文档中包含图片、表格等信息时抽取效果较差。
3.因此,针对上述技术问题,有必要提供一种新的医学文档信息抽取方法、装置、电子设备及可读介质。


技术实现要素:

4.本发明的目的在于提供一种医学文档信息抽取方法、装置、电子设备及可读介质,其适用于医疗文档中不同类型的信息抽取对象,提高信息抽取效果。
5.为实现上述目的,本发明提供的技术方案如下:
6.第一方面,本发明提供了一种医学文档信息抽取方法,其包括:
7.对目标医学文档进行布局分析,以识别信息抽取对象,所述信息抽取对象包括文本、有线表格和无线表格中的至少一种;
8.基于所述信息抽取对象的类型,抽取医学文档信息。
9.在一个或多个实施方式中,对目标医学文档进行布局分析,以识别信息抽取对象,具体包括:获取医学文档样本,并进行预处理;按照文本、有线表格和无线表格的标签分类方式,对所述预处理后的医学文档样本进行标注,得到样本集;基于所述样本集训练的布局分析模型,识别所述目标医学文档中的信息抽取对象。
10.在一个或多个实施方式中,对所述医学文档样本进行预处理,具体包括:将所述医学文档样本转化为统一格式的文档图片,并二值化所述文档图片。
11.在一个或多个实施方式中,所述布局分析模型包括特征提取层、特征采样层和预测层,所述特征提取层包括darknet53网络,所述特征采样层包括fpn网络和pan网络,所述预测层采用anchor-free算法。
12.在一个或多个实施方式中,基于所述信息抽取对象的类型,抽取医学文档信息,具体包括:基于自然语言处理深度学习模型,抽取所述文本中的实体及实体关系。
13.在一个或多个实施方式中,基于所述信息抽取对象的类型,抽取医学文档信息,具体包括:基于所述有线表格的线框信息和文字信息重生成表格;基于所述重生成表格的行信息和列信息,抽取单元格信息。
14.在一个或多个实施方式中,基于所述信息抽取对象的类型,抽取医学文档信息,具体包括:获取所述无线表格中的关键词;基于所述关键词和规则匹配算法,抽取所述无线表格中与所述关键词对应的信息。
15.第二方面,本发明提供了一种医学文档信息抽取装置,其包括:
16.布局分析模块,用于对目标医学文档进行布局分析,以识别信息抽取对象,所述信息抽取对象包括文本、有线表格和无线表格中的至少一种;
17.抽取模块,用于基于所述信息抽取对象的类型,抽取医学文档信息。
18.第三方面,本发明提供了一种电子设备,包括存储器、处理器、以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如前所述的医学文档信息抽取方法。
19.第四方面,本发明提供了一种计算机可读介质,所述计算机可读介质中承载有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如前所述的医学文档信息抽取方法。
20.与现有技术相比,本发明提供的医学文档信息抽取方法,通过对目标医学文档进行布局分析,以识别信息抽取对象,并基于信息抽取对象的类型,抽取医学文档信息;可有效的利用医学文档布局信息,针对文本、有线表格和无线表格等不同的信息抽取对象可使用各自适配的信息抽取方式,以提高信息抽取的准确率。
附图说明
21.图1是本发明一实施方式中医学文本信息抽取系统的架构图;
22.图2是本发明一实施方式中医学文本信息抽取方法的流程图;
23.图3是本发明一实施方式中医学文本信息抽取装置的结构框图;
24.图4是本发明一实施方式中电子设备的结构框图。
具体实施方式
25.下面结合附图,对本发明的具体实施方式进行详细描述,但应当理解本发明的保护范围并不受具体实施方式的限制。
26.除非另有其它明确表示,否则在整个说明书和权利要求书中,术语“包括”或其变换如“包含”或“包括有”等等将被理解为包括所陈述的元件或组成部分,而并未排除其它元件或其它组成部分。
27.为了方便理解本技术的技术方案,下面首先对本发明中可能出现的技术术语进行详细解释。
28.自然语言处理(natural language processing,nlp):是计算机科学、人工智能、语言学关注计算机和人类语言之间的相互作用的领域。自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。这一领域的研究涉及自然语言与语言学的研究有着密切的联系,但又有重要的区别。自然语言处理并不是一般地研究自然语言,而在于研制能有效地实现自然语言通信的计算机系统,特别是其中的软件系统。因而它是计算机科学的一部分。通过自然语言处理,人们可以用自己最习惯的语言来使用计算机,而无需再花大量的时间和精力去学习不很自然和习惯的各种计算机语言;人们也可通过它进一步了解人类的语言能力和智能的机制。
29.bert(bidirectional encoder representations from transformers)模型:是
一种一种语言模型,该模型通过联合所有层中的双向转换器来训练深度双向表示。bert模型融合了众多自然语言处理模型的优点,在多项自然语言处理任务中均取得较优效果。相关技术中,bert模型的模型输入向量为字向量(token embedding)、位置向量(position embedding)和句向量(segment embedding)的向量之和。其中,字向量为文字的向量化表示,位置向量用于表征字在文本中所处的位置,句向量用于表征句子在文本中的先后顺序。
30.crf(conditional random field,条件随机场)模型:是一种判别式概率模型,是随机场的一种,常用于标注或分析序列资料,如自然语言文字或是生物序列。
31.labelme:是麻省理工(mit)的计算机科学和人工智能实验室(csail)研发的图像注释工具,它是用python和pyqt编写的,用于图像标注。labelme可对图像进行多边形,矩形,圆形,多段线,线段,点形式的标注(可用于目标检测,图像分割,等任务),还可对图像进行进行flag形式的标注(可用于图像分类和清理任务)。
32.二值化:是图像分割的一种最简单的方法。二值化可以把灰度图像转换成二值图像。把大于某个临界灰度值的像素灰度设为灰度极大值,把小于这个值的像素灰度设为灰度极小值,从而实现二值化。
33.实体(entity):是客观存在并可互相区别的事物。实体是知识图谱的基本单元,是知识图谱中承载信息的重要单元。知识图谱是由相互连接的实体和实体之间的关系构成,也就是说,知识图谱是由一条条知识组成,每条知识为一个主实体-关系-客实体(subject-predicate-object,spo)三元组,知识图谱中的节点为主实体或者客实体,边为主实体与客实体之间的关系。
34.人工标注:指训练神经网络模型前,通过人工对训练数据集中的训练样本进行真实值(ground-truth)标注的过程。人工标注得到的标注标签作为模型训练过程中对模型输出结果的监督,相应的,模型训练的过程即通过调整模型参数,使模型输出结果趋向于标注标签的过程。
35.光学字符识别(optical character recognition,ocr)是指采用电子设备检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程:即针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。如何除错或利用辅助信息提高识别正确率,是ocr最重要的课题。
36.传统ocr识别面临着以下问题,包括:图像质量差,很多场景待识别的文本图片的质量往往都很差,他存在严重的一些干扰曲线、倾斜、暗光或者曝光扭曲。在识别内容较为复杂,文本内容具有复杂多样性的情况下,例如,在医学文档中可能会存在不同的字体和颜色,小数点近似的英文数字、特殊字符、特殊的符号连接词以及数字的内容,ocr的识别难度会很大,很容易被漏识。
37.有鉴于此,本发明提供一种医学文本信息抽取方法,以解决上述问题。
38.下面结合图1对实施本发明实施例的医学文本信息抽取方法的系统架构作详细说明,图1为本发明一实施方式中的医学文本信息抽取系统的架构图。
39.该医学文本信息抽取系统包括客户端101、信息抽取服务器102及网络103。网络103为用以在客户端101和信息抽取服务器102之间提供通信链路的介质。网络103可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等,且该网络103可以是局域网、城
域网以及广域网中的至少一种。
40.客户端101可以是用于提供医学文档的电子设备。例如,该电子设备可以是智能手机、平板电脑、膝上便携式笔记本电脑等移动终端,也可以是台式电脑、投影式电脑等终端,本发明实施例对此不做限定。图1中,以客户端101为医护人员使用的计算机为例进行说明。
41.信息抽取服务器102是指用于运行任一信息抽取程序,并提供相应信息抽取服务的服务器。信息抽取服务器102可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(content delivery network,cdn)、以及大数据和人工智能平台等基础云计算服务的云服务器。
42.医护人员可通过客户端101将目标医学文档上传至信息抽取服务器102,由信息抽取服务器102对目标医学文档进行布局分析,以识别信息抽取对象,再基于所述信息抽取对象的类型,抽取医学文档信息。信息抽取服务器102可将抽取的医学文档信息通过网络103发送至客户端101。
43.请参照图2所示,为本发明一实施方式中医学文本信息抽取方法的流程图。该医学文本信息抽取方法,具体包括以下步骤:
44.s201:对目标医学文档进行布局分析,以识别信息抽取对象,所述信息抽取对象包括文本、有线表格和无线表格中的至少一种。
45.医学文档中的内容通常包括文本、有线表格和无线表格等,可通过对医学文档进行布局分析,以识别出对于不同类型的信息抽取对象,以供执行后续信息抽取步骤。
46.一示例性的实施例中,对目标医学文档进行布局分析,以识别信息抽取对象的方式具体包括:获取医学文档样本,并进行预处理;按照文本、有线表格和无线表格的标签分类方式,对所述预处理后的医学文档样本进行标注,得到样本集;基于所述样本集训练的布局分析模型,识别所述目标医学文档中的信息抽取对象。
47.具体地,对医学文档样本进行预处理,具体包括:将所述医学文档样本转化为统一格式的文档图片,并二值化所述文档图片。例如,可以利用计算设备对医学类文档样本进行清洗、分割等处理后,再将医学文档样本转化为统一格式(可以是jpg、png等图片格式)的文档图片,然后使用opencv2(是一个基于bsd许可发行的跨平台计算机视觉库)对文档图片进行二值化处理。
48.需要说明的是,为实现布局分析模型的鲁棒性,进行监督学习需要保证样本的多样性。在本实施例中,医学文档样本包括血液病病理报告、影像病理报告、疾病诊断报告等不同类型的医学文档以增加样本的多样性。
49.具体地,使用labelme等常用目标检测方式,按照文本、有线表格和无线表格的标签分类方式,对预处理后的医学文档样本进行人工标注,得到标注数据集,并进一步将标注数据集清洗成标准的目标检测格式样本集,如coco、voc等格式。
50.进一步地,可根据实际需求,将样本集按预定的比例划分为训练集、验证集和测试集。在本实施例中,可以将样本集中的样本随机打乱,并按训练集、验证集和测试集的比例为7:2:1进行划分。
51.本实施例中,可以按照固定轮数及批大小,每次随机选定训练集中部分样本作为输入,并可以对综合损失函数使用adam算法将梯度回传并计算更新后的模型参数值。在每
一轮训练后,考察模型在验证集上的性能指标,例如,精确度(precision)、召回率(recall)和宏平均f1值。当模型训练的迭代次数达到100次,或者在3次测试内验证集的准确率无上涨便停止训练。最后,保存在测试集上表现最好的模型,作为布局分析模型。
52.在本实施例中,布局分析模型包括特征提取层、特征采样层和预测层。其中,所述特征提取层包括darknet53网络,所述特征采样层包括fpn网络和pan网络,所述预测层采用anchor-free算法。
53.需要说明的是,darknet53网络是包含53层卷积层的深度网络。darknet53具有一个重要特点是使用了残差网络residual,darknet53中的残差卷积就是首先进行一次卷积核大小为3*3、步长为2的卷积,该卷积会压缩输入进来的特征层的宽和高,此时可以获得一个特征层,将该特征层命名为layer。之后再对该特征层进行一次1*1的卷积和一次3*3的卷积,并把这个结果加上layer,此时我们便构成了残差结构。通过不断的1*1卷积和3*3卷积以及残差边的叠加,可大幅度地加深了网络。
54.fpn(feature pyramid networks,特征图金字塔网络)是2017年提出的一种网络,fpn主要解决的是物体检测中的多尺度问题,通过简单的网络连接改变,在基本不增加原有模型计算量的情况下,大幅度提升了小物体检测的性能。fpn是自上而下的一个特征金字塔网络,把高层的强语义特征传递下来,由高维度向低维度传递语义信息。pan(像素聚合网络)是在fpn的后面添加一个自下而上的金字塔,对fpn进行补充,将低层的定位特征传递上去。
55.其中,特征提取层对应布局分析模型的backbone部分,在实际应用中,可将目标医学文档转化成图片格式,并resize到640*640分辨率大小,然后送入特征提取层,特征提取层使用不同的cnn架构对图片进行不同类型的特征提取。特征采样层对应布局分析模型的neck部分,可将特征图下采样到不同大小。对于医学文档中的表格可能是大小不同的,所以需要在不同大小的特征图上面进行目标检测。特征采样层主要采用fpn+pan结构(特征金字塔和路径聚合网络)对不同大小的特征进行抽取。预测层布局分析模型的prediction部分,其采用的是anchor-free算法,预测层输出的结果包括信息抽取对象的位置、类型和置信度。
56.经布局分析模型对目标医学文档进行布局分析后,可识别出目标医学文档中的文本、有线表格和无线表格等信息抽取对象,可根据信息抽取对象的类型、位置信息将医学文档划分为不同的区块,以便于后续的信息抽取。
57.s202:基于所述信息抽取对象的类型,抽取医学文档信息。
58.可以理解的是,通前述过布局分析模型将目标医学文档中不同类型的信息抽取对象识别划分后,可根据信息抽取对象的类型采用不同的信息抽取方式进行信息抽取。
59.一示例性的实施例中,可基于自然语言处理深度学习模型,抽取所述文本中的实体及实体关系。例如,可采用bert-crf模型抽取文本中的实体及实体关系,以转化成结构化信息。
60.需要说明的是,bert-crf模型为bert模型结合crf模型而得到的一个整体模型,虽然bert-crf模型为bert模型结合crf模型而得到,但是在训练过程中,bert模型和crf模型是作为一个整体进行训练的。
61.对于bert模型,bert模型的模型结构等价为transformer的编码器,通过bert模型
学习得到的词的表示,会随着语境的不同而不同。bert模型的主要结构由多个多头自注意力机制组成。其中,自注意力机制是指:对于每个词,利用语句中的其他词来表达这个词,以获得这个词的增强语义向量,其中其他词对这个词的表达权重互不相同。多头自注意力机制是指利用多个自注意力机制从不同角度捕捉不同的抽象层面上的关系。bert模型的低层结构可以学习得到词汇层次的表示,高层结构可以学习得到语义层次的表示。经过预训练后的词向量可以克服多义词等复杂情况,即同一个词在不同语境中的词向量也是不同的。
62.对于crf模型,根据先验知识,crf模型在主体名称识别任务中,每一项的输出都会对后一项的输出产生影响,例如在词性识别中,当前一项输出为动词,则后一项就极不可能也为动词。crf模型通过标签转移约束,使得每一项输出都会取决于该项的输入和前一项的输出。
63.通过联合bert模型和crf模型,使得bert模型负责学习输入句子中每个词与这个词对应的实体标签的规律,crf模型负责学习相邻实体标签之间的转移规则,从而可以很好地将待处理文本中的实体及实体关系识别出来。
64.一示例性的实施例中,可基于所述有线表格的线框信息和文字信息重生成表格;并基于所述重生成表格的行信息和列信息,抽取单元格信息。
65.例如,线框信息可基于二值化等图像处理技术识别得到,线框信息包括单元格外部线框的坐标信息等;文字信息可以基于ocr技术识别得到的文字内容,以及文字内容的坐标信息等。根据线框信息可还原出表格的各个单元格,根据文字内容的坐标位置与表格中各个单元格区域位置的对应关系,可将文字内容填入各个单元格,从而可重生成表格。
66.表格中所有结构化信息的对应关系是固定,在得到重生成的表格后,基于所述重生成表格的行信息和列信息,抽取单元格信息,即可得到与表格对应的结构化信息。
67.一示例性的实施例中,可获取所述无线表格中的关键词;并基于所述关键词和规则匹配算法,抽取所述无线表格中与所述关键词对应的信息。
68.医学文档中无线表格信息通常具有固定关键词的表头信息,例如姓名、性别等,因此可采用规则匹配方式(如正则表达式)进行无线表格的结构化信息抽取。
69.一示例性的实施例中,完成文本、有线表格和无线表格的信息抽取后,可将抽取到的信息进行整合,以形成与目标医学文档对应的结构化信息。
70.综上所述,本发明提供的医学文档信息抽取方法,通过对目标医学文档进行布局分析,以识别信息抽取对象,并基于信息抽取对象的类型,抽取医学文档信息;可有效的利用医学文档布局信息,针对文本、有线表格和无线表格等不同的信息抽取对象可使用各自适配的信息抽取方式,以提高信息抽取的准确率。
71.请参照图3所示,基于与前述医学文档信息抽取方法相同的发明构思,本发明一实施方式中提供了一种医学文档信息抽取装置300,其包括布局分析模块301和抽取模块302。
72.布局分析模块301用于对目标医学文档进行布局分析,以识别信息抽取对象,所述信息抽取对象包括文本、有线表格和无线表格中的至少一种。抽取模块302用于基于所述信息抽取对象的类型,抽取医学文档信息。
73.具体地,布局分析模块301基于布局分析模型,识别所述目标医学文档中的信息抽取对象。布局分析模型的训练方式包括:获取医学文档样本,并进行预处理;按照文本、有线表格和无线表格的标签分类方式,对所述预处理后的医学文档样本进行标注,得到样本集;
基于所述样本集训练得到布局分析模型。
74.进一步地,布局分析模型包括特征提取层、特征采样层和预测层,所述特征提取层包括darknet53网络,所述特征采样层包括fpn网络和pan网络,所述预测层采用anchor-free算法。
75.具体地,抽取模块302可用于基于自然语言处理深度学习模型,抽取所述文本中的实体及实体关系。抽取模块302还可用于基于所述有线表格的线框信息和文字信息重生成表格;基于所述重生成表格的行信息和列信息,抽取单元格信息。抽取模块302还可用于获取所述无线表格中的关键词;并基于所述关键词和规则匹配算法,抽取所述无线表格中与所述关键词对应的信息。
76.请参照图4所示,本发明实施例还提供了一种电子设备400,该电子设备400包括至少一个处理器401、存储器402(例如非易失性存储器)、内存403和通信接口404,并且至少一个处理器401、存储器402、内存403和通信接口404经由总线405连接在一起。至少一个处理器401用于调用在存储器402中存储或编码的至少一个程序指令,以使得至少一个处理器401执行本说明书的各个实施方式中所描述的医学文档信息抽取方法的各种操作和功能。
77.在本说明书的实施例中,电子设备400可以包括但不限于:个人计算机、服务器计算机、工作站、桌面型计算机、膝上型计算机、笔记本计算机、移动电子设备、智能电话、平板计算机、蜂窝电话、个人数字助理(pda)、手持装置、消息收发设备、可佩戴电子设备、消费电子设备等等。
78.本发明实施例还提供了一种计算机可读介质,该计算机可读介质上承载有计算机执行指令,所述计算机执行指令被处理器执行时,可用于实现本说明书的各个实施例中描述的医学文档信息抽取方法的各种操作和功能。
79.本发明中的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
80.而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、rf等等,或者上述的任意合适的组合。
81.本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机
可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
82.本发明是参照根据本发明实施例的方法、装置、系统、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
83.前述对本发明的具体示例性实施方案的描述是为了说明和例证的目的。这些描述并非想将本发明限定为所公开的精确形式,并且很显然,根据上述教导,可以进行很多改变和变化。对示例性实施例进行选择和描述的目的在于解释本发明的特定原理及其实际应用,从而使得本领域的技术人员能够实现并利用本发明的各种不同的示例性实施方案以及各种不同的选择和改变。本发明的范围意在由权利要求书及其等同形式所限定。

技术特征:
1.一种医学文档信息抽取方法,其特征在于,包括:对目标医学文档进行布局分析,以识别信息抽取对象,所述信息抽取对象包括文本、有线表格和无线表格中的至少一种;基于所述信息抽取对象的类型,抽取医学文档信息。2.如权利要求1所述的医学文档信息抽取方法,其特征在于,对目标医学文档进行布局分析,以识别信息抽取对象,具体包括:获取医学文档样本,并进行预处理;按照文本、有线表格和无线表格的标签分类方式,对所述预处理后的医学文档样本进行标注,得到样本集;基于所述样本集训练的布局分析模型,识别所述目标医学文档中的信息抽取对象。3.如权利要求2所述的医学文档信息抽取方法,其特征在于,对所述医学文档样本进行预处理,具体包括:将所述医学文档样本转化为统一格式的文档图片,并二值化所述文档图片。4.如权利要求2所述的医学文档信息抽取方法,其特征在于,所述布局分析模型包括特征提取层、特征采样层和预测层,所述特征提取层包括darknet53网络,所述特征采样层包括fpn网络和pan网络,所述预测层采用anchor-free算法。5.如权利要求1所述的医学文档信息抽取方法,其特征在于,基于所述信息抽取对象的类型,抽取医学文档信息,具体包括:基于自然语言处理深度学习模型,抽取所述文本中的实体及实体关系。6.如权利要求1所述的医学文档信息抽取方法,其特征在于,基于所述信息抽取对象的类型,抽取医学文档信息,具体包括:基于所述有线表格的线框信息和文字信息重生成表格;基于所述重生成表格的行信息和列信息,抽取单元格信息。7.如权利要求1所述的医学文档信息抽取方法,其特征在于,基于所述信息抽取对象的类型,抽取医学文档信息,具体包括:获取所述无线表格中的关键词;基于所述关键词和规则匹配算法,抽取所述无线表格中与所述关键词对应的信息。8.一种医学文档信息抽取装置,其特征在于,包括:布局分析模块,用于对目标医学文档进行布局分析,以识别信息抽取对象,所述信息抽取对象包括文本、有线表格和无线表格中的至少一种;抽取模块,用于基于所述信息抽取对象的类型,抽取医学文档信息。9.一种电子设备,包括存储器、处理器、以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1~7中任一项所述的医学文档信息抽取方法。10.一种计算机可读介质,其特征在于,所述计算机可读介质中承载有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如权利要求1~7中任一项所述的医学文档信息抽取方法。

技术总结
本发明公开了一种医学文档信息抽取方法、装置、电子设备及可读介质,该医学文档信息抽取方法,其包括:对目标医学文档进行布局分析,以识别信息抽取对象,所述信息抽取对象包括文本、有线表格和无线表格中的至少一种;基于所述信息抽取对象的类型,抽取医学文档信息。本发明提供的医学文档信息抽取方法、装置、电子设备及可读介质,通过对目标医学文档进行布局分析,以识别信息抽取对象,并基于信息抽取对象的类型,抽取医学文档信息;可有效的利用医学文档布局信息,针对文本、有线表格和无线表格等不同的信息抽取对象可使用各自适配的信息抽取方式,以提高信息抽取的准确率。以提高信息抽取的准确率。以提高信息抽取的准确率。


技术研发人员:杨宇星 王永明
受保护的技术使用者:浙江太美医疗科技股份有限公司
技术研发日:2023.04.07
技术公布日:2023/7/12
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐