机构名称纠错方法、装置、计算机设备及存储介质与流程

未命名 07-27 阅读:178 评论:0


1.本技术涉及人工智能技术领域,尤其涉及一种机构名称纠错方法、装置、计算机设备及存储介质。


背景技术:

2.随着人工智能技术的发展,语音识别在生活、工作以及各种生产活动中的应用也越来越多。语音识别是将语音转换为文本的语音处理操作,是人工智能中的重要研究方向。
3.语音识别包含对命名实体的识别,机构名称是命名实体的重要组成类别。然而,由于机构名称中通常具有非常规语境下的用字,现有的语音识别技术难以准确根据语音翻译出正确的机构名称,导致识别出的机构名称准确性较低。


技术实现要素:

4.本技术实施例的目的在于提出一种机构名称纠错方法、装置、计算机设备及存储介质,以解决语音识别场景下机构名称准确性较低的问题。
5.为了解决上述技术问题,本技术实施例提供一种机构名称纠错方法,采用了如下所述的技术方案:
6.获取基于语音识别生成的待纠错机构名称;
7.从所述待纠错机构名称中提取地域信息、核心信息和行业信息;
8.获取所述地域信息所对应的机构名称库;
9.将所述核心信息转换为汉字拼音,并基于所述汉字拼音生成所述核心信息的相似拼音以及音形码;
10.对所述行业信息进行分解得到多个行业分词;
11.根据所述汉字拼音、所述相似拼音、所述音形码以及所述多个行业分词生成搜索条件;
12.基于预设的搜索策略,在所述机构名称库中根据所述搜索条件进行搜索得到搜索结果,并将所述搜索结果作为已纠错机构名称。
13.为了解决上述技术问题,本技术实施例还提供一种机构名称纠错装置,采用了如下所述的技术方案:
14.名称获取模块,用于获取基于语音识别生成的待纠错机构名称;
15.信息提取模块,用于从所述待纠错机构名称中提取地域信息、核心信息和行业信息;
16.名称库获取模块,用于获取所述地域信息所对应的机构名称库;
17.核心转换模块,用于将所述核心信息转换为汉字拼音,并基于所述汉字拼音生成所述核心信息的相似拼音以及音形码;
18.信息分解模块,用于对所述行业信息进行分解得到多个行业分词;
19.条件生成模块,用于根据所述汉字拼音、所述相似拼音、所述音形码以及所述多个
行业分词生成搜索条件;
20.名称搜索模块,用于基于预设的搜索策略,在所述机构名称库中根据所述搜索条件进行搜索得到搜索结果,并将所述搜索结果作为已纠错机构名称。
21.为了解决上述技术问题,本技术实施例还提供一种计算机设备,采用了如下所述的技术方案:
22.获取基于语音识别生成的待纠错机构名称;
23.从所述待纠错机构名称中提取地域信息、核心信息和行业信息;
24.获取所述地域信息所对应的机构名称库;
25.将所述核心信息转换为汉字拼音,并基于所述汉字拼音生成所述核心信息的相似拼音以及音形码;
26.对所述行业信息进行分解得到多个行业分词;
27.根据所述汉字拼音、所述相似拼音、所述音形码以及所述多个行业分词生成搜索条件;
28.基于预设的搜索策略,在所述机构名称库中根据所述搜索条件进行搜索得到搜索结果,并将所述搜索结果作为已纠错机构名称。
29.为了解决上述技术问题,本技术实施例还提供一种计算机可读存储介质,采用了如下所述的技术方案:
30.获取基于语音识别生成的待纠错机构名称;
31.从所述待纠错机构名称中提取地域信息、核心信息和行业信息;
32.获取所述地域信息所对应的机构名称库;
33.将所述核心信息转换为汉字拼音,并基于所述汉字拼音生成所述核心信息的相似拼音以及音形码;
34.对所述行业信息进行分解得到多个行业分词;
35.根据所述汉字拼音、所述相似拼音、所述音形码以及所述多个行业分词生成搜索条件;
36.基于预设的搜索策略,在所述机构名称库中根据所述搜索条件进行搜索得到搜索结果,并将所述搜索结果作为已纠错机构名称。
37.与现有技术相比,本技术实施例主要有以下有益效果:获取语音识别生成的待纠错机构名称,并从中提取地域信息、核心信息和行业信息;机构名称库按地域划分,仅在地域信息所对应的机构名称库中搜索,以缩小搜索范围,提高搜索速度;核心信息对机构名称具有最强的区分性,将核心信息转换为汉字拼音,并基于汉字拼音生成核心信息的相似拼音以及音形码,以对核心信息进行全面覆盖;对行业信息进行分解得到多个行业分词;根据汉字拼音、相似拼音、音形码以及多个行业分词生成搜索条件,并基于搜索策略在机构名称库中根据搜索条件进行搜索,将搜索结果作为已纠错机构名称完成机构名称纠错;本技术将待纠错机构名称进行分解,不同部分进行不同方式的搜索,对核心信息从拼音角度进行全面的模糊查询,提高了语音识别场景下机构名称的准确性。
附图说明
38.为了更清楚地说明本技术中的方案,下面将对本技术实施例描述中所需要使用的
附图作一个简单介绍,显而易见地,下面描述中的附图是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
39.图1是本技术可以应用于其中的示例性系统架构图;
40.图2是根据本技术的机构名称纠错方法的一个实施例的流程图;
41.图3是根据本技术的机构名称纠错装置的一个实施例的结构示意图;
42.图4是根据本技术的计算机设备的一个实施例的结构示意图。
具体实施方式
43.除非另有定义,本文所使用的所有的技术和科学术语与属于本技术的技术领域的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本技术;本技术的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本技术的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。
44.在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本技术的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
45.为了使本技术领域的人员更好地理解本技术方案,下面将结合附图,对本技术实施例中的技术方案进行清楚、完整地描述。
46.如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
47.用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
48.终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、mp3播放器(moving picture experts group audio layer iii,动态影像专家压缩标准音频层面3)、mp4(moving picture experts group audio layer iv,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。
49.服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上显示的页面提供支持的后台服务器。
50.需要说明的是,本技术实施例所提供的机构名称纠错方法一般由服务器执行,相应地,机构名称纠错装置一般设置于服务器中。
51.应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
52.继续参考图2,示出了根据本技术的机构名称纠错方法的一个实施例的流程图。所述的机构名称纠错方法,包括以下步骤:
53.步骤s201,获取基于语音识别生成的待纠错机构名称。
54.在本实施例中,机构名称纠错方法运行于其上的电子设备(例如图1所示的服务器)可以通过有线连接方式或者无线连接方式与终端进行通信。需要指出的是,上述无线连接方式可以包括但不限于3g/4g/5g连接、wifi连接、蓝牙连接、wimax连接、zigbee连接、uwb(ultra wideband)连接、以及其他现在已知或将来开发的无线连接方式。
55.具体地,获取待纠错机构名称。本技术关联于语音识别场景,待纠错机构名称基于语音识别生成。由于语音识别可能不准确,因此需要对语音识别生成的机构名称进行纠错。
56.步骤s202,从待纠错机构名称中提取地域信息、核心信息和行业信息。
57.具体地,待纠错机构名称具体可以是公司名称,此外,待纠错机构名称还可以是学校、研究所等其他机构的名称。本技术将机构名称中所包含的信息划分成四类,即可以将机构名称划分成四段,按照重要性由大到小依次为:核心信息、行业信息、地域信息和后缀信息。举例说明,现有机构名称:ab市阳光医疗器械有限公司,其中,“阳光”为核心信息,类似于人名,在区分机构名称时起到最核心的作用,非常规语境下的用字往往出现在核心信息中。“医疗器械”为行业信息,起到限制行业、领域的作用。“ab市”是地域信息,起到地域、区域限制作用。“有限公司”是后缀信息,重要性相对较低,但对于某些机构也可以起到区分效果,例如对包含“小学”、“中学”的机构名称起到区分作用。
58.在得到待纠错机构名称后,需要从待纠错机构名称中提取地域信息、核心信息和行业信息。信息提取可以通过预设的正则表达式实现,或者将待纠错机构名称输入基于神经网络的信息提取模型,由信息提取模型提取地域信息、核心信息和行业信息。
59.步骤s203,获取地域信息所对应的机构名称库。
60.具体地,本技术的搜索引擎中预先构建了多个机构名称库,机构名称库中存储了大量的机构名称。可以根据机构名称中的地域信息建立索引,例如将按照“省-市-区”的结构划分索引,例如ab省-cd市-ef区,地域信息包含“ef区”的机构名称存在于同一个索引下,并存储在同一个机构名称库中。
61.在一个实施例中,通过ac自动机提取地域信息,以提高地域信息的提取速度。ac自动机(aho-corasick automaton)是一种多模匹配算法。然后,在地域信息所对应的索引中继续进行搜索。
62.根据地域信息划分索引,避免将全量机构名称存储在同一索引下,提高了搜索速度。
63.在此说明,本技术的机构名称纠错,是根据地域信息、核心信息、行业信息(有时也会用到后缀信息)在机构名称库中搜索待纠错机构名称可能的真实机构名称,从而对语音识别生成的待纠错机构名称进行纠错。机构名称可以存储于elasticsearch(es)搜索引擎中,该搜索引擎中具有机构名称库。elasticsearch是位于elastic stack核心的分布式搜索和分析引擎。
64.步骤s204,将核心信息转换为汉字拼音,并基于汉字拼音生成核心信息的相似拼音以及音形码。
65.具体地,由于核心信息包含非常规用字,难以根据语音准确推断出文字,因此语音识别模型输出的这部分文字置信度较低。因此,本技术基于拼音对核心信息进行搜索。
66.待纠错机构名称为中文文本,从中提取到核心信息后,将其转化为汉字拼音。同
时,生成汉字拼音的相似拼音,以及将汉字拼音转换成音形码。其中,相似拼音与汉字拼音可能存在声母或者韵母上的差异。音形码是指将拼音中的声母与韵母进行编码,以数字或者字母表示声母或者韵母,从而缩短拼音的整体长度,增加搜索召回率,提高es模糊查询的速度。
67.步骤s205,对行业信息进行分解得到多个行业分词。
68.具体地,行业信息中包括至少一个分词。对行业信息进行分词处理得到多个分词,分词可以单独或者组合为不同的表示行业的行业分词。举例说明,待纠错机构名称“ab市阳光医疗器械有限公司”中的行业信息为“医疗器械”;将其分解后可以得到分词“医疗”与“器械”;“医疗”与“器械”可以单独作为行业分词,“医疗”与“器械”组合在一起得到的“医疗器械”也可以构成行业分词。即,根据行业信息“医疗器械”可以得到“医疗”、“器械”与“医疗器械”三个行业分词。
69.步骤s206,根据汉字拼音、相似拼音、音形码以及多个行业分词生成搜索条件。
70.具体地,根据汉字拼音、相似拼音、音形码以及多个行业分词生成搜索条件,搜索条件中可以包括多个子条件。
71.在一个实施例中,搜索使用elasticsearch的布尔查询bool query。布尔查询即组合查询,是把任意多个简单查询组合在一起,使用must、should、must_not、filter选项来表示简单查询之间的逻辑,每个选项都可以出现0次到多次。它是为了满足现实中比较复杂的查询需求,如需要在多个字段上查询多种多样的文本,并且根据一系列的标准来进行过滤。布尔查询中,must表示文档必须匹配must选项下的查询条件,相当于逻辑运算的and,且参与文档相关度的评分。should表示文档可以匹配should选项下的查询条件也可以不匹配,相当于逻辑运算的or,且参与文档相关度的评分。must_not与must相反,匹配该选项下的查询条件的文档不会被返回,must_not语句不会影响评分,它只是将不相关的文档排除。filter和must一样,匹配filter选项下的查询条件的文档才会被返回,但是filter不评分,只起到过滤功能。地域信息可以用于构建filter。
72.在一个实施例中,根据汉字拼音和多个行业分词生成布尔查询条件,并在搜索策略中设置模糊检索。其中,搜索策略用于对搜索进行配置。本实施例中,可以仅将汉字拼音和多个行业分词输入es搜索引擎,由es搜索引擎根据布尔查询条件中的汉字拼音生成相似音以及音形码,然后根据相似音、音形码对布尔查询条件进行调整,将相似音和音形码添加到布尔查询条件中生成搜索条件。
73.在一个实施例中,可以先生成汉字拼音的相似音以及音形码,然后根据汉字拼音、相似拼音、音形码以及多个行业分词生成布尔查询条件形式的搜索条件,并将其输入es搜索引擎中。
74.步骤s207,基于预设的搜索策略,在机构名称库中根据搜索条件进行搜索得到搜索结果,并将搜索结果作为已纠错机构名称。
75.具体地,通过es搜索引擎在机构名称库中根据搜索条件进行搜索,搜索要遵循预设的搜索策略,搜索策略用于对搜索进行配置,例如如何根据中间的搜索结果选取出最后的搜索结果,以及如何根据拼音相关的条件进行模糊查询。由于使用es搜索引擎的布尔查询,在查询过程中会计算多个候选结果的得分,得分也基于搜索策略进行计算。搜索结束后返回搜索结果,该搜索结果中可以仅包含一个机构名称,该机构名称将作为待纠错机构名
称的已纠错机构名称。
76.本实施例中,获取语音识别生成的待纠错机构名称,并从中提取地域信息、核心信息和行业信息;机构名称库按地域划分,仅在地域信息所对应的机构名称库中搜索,以缩小搜索范围,提高搜索速度;核心信息对机构名称具有最强的区分性,将核心信息转换为汉字拼音,并基于汉字拼音生成核心信息的相似拼音以及音形码,以对核心信息进行全面覆盖;对行业信息进行分解得到多个行业分词;根据汉字拼音、相似拼音、音形码以及多个行业分词生成搜索条件,并基于搜索策略在机构名称库中根据搜索条件进行搜索,将搜索结果作为已纠错机构名称完成机构名称纠错;本技术将待纠错机构名称进行分解,不同部分进行不同方式的搜索,对核心信息从拼音角度进行全面的模糊查询,提高了语音识别场景下机构名称的准确性。
77.进一步的,上述步骤s201可以包括:获取待识别语音;将待识别语音输入语音识别模型,得到语音识别结果;对语音识别结果进行预处理;将预处理后的语音识别结果输入命名实体识别模型,得到待纠错机构名称。
78.具体地,获取待识别语音并将待识别语音输入语音识别模型进行语音识别,得到文本形式的语音识别结果。语音识别结果中可能包含语气词、空格等无用信息,因此可以对语音识别结果进行预处理,删除其中的无用信息。然后将预处理后的语音识别结果输入命名实体识别模型进行命名实体识别,得到待纠错机构名称。
79.本实施例中,对待识别语音进行语音识别得到文本形式的语音识别结果,对其进行预处理以删除无用信息,然后通过命名实体识别模型提取出待纠错机构名称,以便进行机构名称纠错。
80.进一步的,上述步骤s204可以包括:将核心信息转换为汉字拼音;基于南方模糊音,生成汉字拼音的相似拼音;基于预设的音形码表,生成汉字拼音的音形码。
81.具体地,将核心信息的文本转换为汉字拼音。识别汉字拼音中的声母以及韵母,如果声母或者韵母具有南方模糊音,则将声母或者韵母替换为南方模糊音,生成汉字拼音的相似拼音。例如,汉字拼音中存在生母z,其存在南方模糊音zh,则将zh替换z,得到汉字拼音的模糊音;或者,汉字拼音中存在生母l,其存在南方模糊音n,则令n替换l,得到汉字拼音的相似音。服务器中预设了音形码表,根据音形码表,可以将汉字拼音中的多字节的声母以及韵母转换为一个单字节码,缩短拼音的整体长度,可以增加召回率,提高es模糊查询的速度。举例说明,对于汉字拼音sheng与shai,两者之间的编辑距离为3,超过模糊查询时预设的最大编辑距离2,因此根据汉字拼音进行模糊查询时,无法根据sheng检索到shai。根据音形码表将sheng转换为音形码得到gg,将shai转换为音形码得到g7,两者之间的编辑距离为1,根据音形码进行模糊查询时,可以根据sheng检索到shai,可见,将汉字拼音转换为音形码进行检索,可以增加召回率,检索到更多信息,可以实现更大范围的检索覆盖,而待纠错机构名称所对应的真实机构名称可能就被检索到。
82.表1和表2为一个实施例中音形码表。
83.a1o2e3i4u5v6ai7ei7ui8ao9ouaiubiecvedereanf
enginhunivenjangfengginghongk
84.表1
85.b1p2m3f4d5t6n7l7g8k9hajbqcxdzhechfshgrhzecfsgyiwj
ꢀꢀ
86.表2
87.本实施例中,将核心信息转换为汉字拼音,并生成汉字拼音的相似音和音形码,以便对基于拼音进行模糊查询,尽可能覆盖核心信息全部可能的结果。
88.进一步的,上述步骤s207可以包括:基于预设的搜索策略,在机构名称库中根据搜索条件进行搜索,得到候选机构名称;根据候选机构名称与搜索要素的对应关系,计算候选机构名称的得分;搜索要素包括汉字拼音、相似拼音、音形码和多个行业分词;返回具有最高得分的候选机构名称作为搜索结果,并将搜索结果确定为已纠错机构名称。
89.具体地,基于预设的搜索策略,在机构名称库中根据搜索条件进行搜索,得到候选机构名称。可以通过布尔查询的评分功能,计算各候选机构名称的得分。搜索条件中包括多个搜索要素,搜索要素包括拼音搜索要素和行业搜索要素,其中,拼音搜索要素是汉字拼音、相似拼音以及音形码,行业搜索要素是多个行业分词。搜索要素可以通过布尔查询中的must、should、must_not、filter等选项组合在一起,候选机构名称也与某些搜索要素相对应,即候选机构是根据某些搜索要素搜索得到的。
90.不同搜索要素预先设置了不同的权重,如果候选机构名称与某些搜索要素相对应,则将搜索要素的权重赋予候选机构名称,多个搜索要素可以同时将权重赋予一个候选机构名称,从而可以根据候选机构名称所对应的搜索要素的权重计算候选机构名称的得分。
91.通常,按照权重由大到小对搜索要素进行排序可以为:汉字拼音、相似拼音、音形码、行业分词。
92.计算出各候选机构名称的得分后,可以选取具有最高得分的候选机构名称作为最终的搜索结果,并将该候选机构名称作为待纠错机构名称的已纠错机构名称。
93.本实施例中,搜索得到候选机构名称后,根据候选机构名称与搜索要素的对应关系计算候选机构名称的得分,得分衡量了候选机构名称的价值,选取具有最高得分的候选机构名称作为搜索结果,并确定为已纠错机构名称,确保了机构名称纠错的准确性。
94.进一步的,上述基于预设的搜索策略,在机构名称库中根据搜索条件进行搜索,得到候选机构名称的步骤可以包括:当根据搜索条件中的拼音搜索要素进行搜索时,获取核心信息中各字符的汉字拼音长度;拼音搜索要素包括汉字拼音、相似拼音和音形码;根据汉字拼音长度确定各字符所对应的搜索编辑距离;基于搜索编辑距离和拼音搜索要素,在机构名称库中进行搜索,得到初始机构名称;根据待纠错机构名称对初始机构名称进行筛选,得到候选机构名称。
95.具体地,搜索条件中的搜索要素可以分类为拼音搜索要素和行业搜索要素,其中,拼音搜索要素是汉字拼音、相似拼音以及音形码,行业搜索要素是多个行业分词。
96.当根据拼音搜索要素进行搜索时进行模糊查询,先获取核心信息中各字符的汉字拼音长度,字符的汉字拼音长度不同,根据拼音搜索要素进行模糊搜索时允许的误差也不一样,该误差为搜索编辑距离。例如,对于核心信息“德成”,两个字符的汉字拼音分别为“de”、“cheng”,其汉字拼音长度分别为2与5。搜索策略中预先设定了es中的搜索编辑距离,汉字拼音长度越长,搜索编辑距离越大。例如,当汉字拼音长度在3以内时,搜索编辑距离为0;当汉字拼音长度在3-5时,搜索编辑距离为1;当汉字拼音长度大于5时,搜索编辑距离为2。在上述例子中,根据“德”的拼音搜索要素搜索到的机构名称,其第一个字符与“德”的汉字拼音/相似拼音/音形码的搜索编辑距离为0,第二个字符与“成”的汉字拼音/相似拼音/音形码的搜索编辑距离为2,不同拼音搜索要素的搜索编辑距离满足且关系。
97.在搜索过程中,根据搜索编辑距离和拼音搜索要素得到初始机构名称。然后再根据待纠错机构名称对初始机构名称进行纠错,得到候选机构名称。
98.候选机构名称再通过计算得分,得到最终的搜索结果,即已纠错机构名称。
99.本实施例中,根据搜索条件中的拼音搜索要素进行搜索时,根据核心信息中字符的汉字拼音长度确定搜索编辑距离,然后在搜索编辑距离内对拼音搜索要素进行搜索得到初始机构名称,从而覆盖更多可能的结果;再根据待纠错机构名称对初始机构名称进行筛选,得到候选机构名称,确保了机构名称纠错的准确性。
100.进一步的,在本技术的另一个实施例中,上述基于预设的搜索策略,在机构名称库中根据搜索条件进行搜索,得到候选机构名称的步骤可以包括:当根据搜索条件中的多个行业分词进行搜索时,计算各行业分词与库存机构名称中行业信息的匹配度;库存机构名称为机构名称库中的机构名称;当匹配度大于预设的匹配度阈值时,将匹配到的库存机构名称确定为初始机构名称;根据待纠错机构名称对初始机构名称进行筛选,得到候选机构名称。
101.具体地,当根据搜索条件中的行业搜索要素即多个行业分词进行搜索时,计算各行业分词与库存机构名称中行业信息的匹配度。行业信息可以预先进行分词,获取得到的分词的第一数量。比对行业分词与库存机构名称的行业信息中多少个分词匹配,得到第二数量,第二数量与第一数量的比值即为匹配度。如果匹配度大与预设的匹配度阈值,则将匹配到的库存机构名称确定为初始机构名称。例如,行业分词为“医疗”,库存机构名称中行业信息为“医疗器械”,包含两个分词“医疗”与“器械”。行业分词“医疗”与行业信息“医疗器械”匹配1个分词,则匹配度为50%,如果匹配度为30%,则可以将匹配到的库存机构名称确定为初始机构名称。
102.然后根据待纠错机构名称对初始机构名称进行筛选,得到候选机构名称。
103.在计算候选机构名称的得分时,行业分词的权重具有上限值,将候选机构名称与行业分词的匹配度与上限值相乘,作为候选机构名称从行业分词处得到的分数。例如,行业分词的总权重为2,候选机构名称与行业分词的匹配度为100%,则候选机构名称通过行业分词得到的分数为2;如果候选机构名称与行业分词的匹配度为50%,则候选机构名称通过行业分词得到的分数为1。
104.本实施例中,根据行业分词进行搜索时,计算行业分词与库存机构名称库中行业
信息的匹配度,选取匹配度大于匹配度阈值的库存机构名称作为初始机构名称,确保了初始机构名称的准确性。
105.进一步的,上述根据待纠错机构名称对初始机构名称进行筛选,得到候选机构名称的步骤可以包括:将待纠错机构名称与初始机构名称进行字符比对,得到字符比对结果;计算待纠错机构名称与初始机构名称之间的名称编辑距离;当字符比对结果符合预设的字符比对条件,且名称编辑距离符合预设的名称距离条件时,将初始机构名称确定为候选机构名称。
106.具体地,在搜索过程中,需要根据待纠错机构名称对初始机构名称进行筛选。将待纠错机构名称与初始机构名称进行字符对比,得到字符比对结果,字符比对结果可以是初始机构名称中不同于待纠错机构名称的字符的数量。如果该数量小于等于预设的数量阈值,则字符比对结果符合字符比对条件。
107.然后,计算待纠错机构名称与初始机构名称之间的编辑距离,即名称编辑距离。如果名称编辑距离小于等于预设的编辑距离阈值,则名称编辑距离符合预设的名称距离条件。
108.如果字符比对结果符合预设的字符比对条件,且名称编辑距离符合预设的名称距离条件,则将初始机构名称确定为候选机构名称。否则将初始机构名称过滤,不再保留。
109.本实施例中,从字符比对和编辑距离两个层面对初始编辑距离进行筛选,确保了得到的候选编辑距离与待纠错机构名称之间的相似性,提高了机构名称纠错的准确性。
110.本技术中,为了提高召回速度,可以从软件和硬件层面再进行优化。软件层面,可以先通过粗筛得到小范围的数据集(例如根据地域信息进行倒排索引),然后通过复杂的计算逻辑(例如模糊匹配)进行搜索,提高召回速度。同时,粗筛可以采用es的filter缓存机制,同一个索引下的字/filte过后,会存在缓存,下次搜索碰到这个字/词倒排索引检索时,会快速返回。
111.硬件层面,本技术可以采用分布式集群,将索引平均分布在不同的机器上,让不同的硬盘同时读取数据再合并计算;采用固态硬盘取代机械硬盘;通过forcemerge将es的索引碎片整合为1个,提高连续读取的性能。
112.需要强调的是,为进一步保证上述已纠错机构名称的私密和安全性,上述已纠错机构名称还可以存储于一区块链的节点中。
113.本技术所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
114.本技术实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(artificial intelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
115.人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机
视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
116.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机可读指令来指令相关的硬件来完成,该计算机可读指令可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(read-only memory,rom)等非易失性存储介质,或随机存储记忆体(random access memory,ram)等。
117.应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
118.进一步参考图3,作为对上述图2所示方法的实现,本技术提供了一种机构名称纠错装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
119.如图3所示,本实施例所述的机构名称纠错装置300包括:获取模块301、识别模块302、计算模块303、训练模块304以及处理模块305,其中:
120.名称获取模块301,用于获取基于语音识别生成的待纠错机构名称。
121.信息提取模块302,用于从待纠错机构名称中提取地域信息、核心信息和行业信息。
122.名称库获取模块303,用于获取地域信息所对应的机构名称库。
123.核心转换模块304,用于将核心信息转换为汉字拼音,并基于汉字拼音生成核心信息的相似拼音以及音形码。
124.信息分解模块305,用于对行业信息进行分解得到多个行业分词。
125.条件生成模块306,用于根据汉字拼音、相似拼音、音形码以及多个行业分词生成搜索条件。
126.名称搜索模块307,用于基于预设的搜索策略,在机构名称库中根据搜索条件进行搜索得到搜索结果,并将搜索结果作为已纠错机构名称。
127.本实施例中,获取语音识别生成的待纠错机构名称,并从中提取地域信息、核心信息和行业信息;机构名称库按地域划分,仅在地域信息所对应的机构名称库中搜索,以缩小搜索范围,提高搜索速度;核心信息对机构名称具有最强的区分性,将核心信息转换为汉字拼音,并基于汉字拼音生成核心信息的相似拼音以及音形码,以对核心信息进行全面覆盖;对行业信息进行分解得到多个行业分词;根据汉字拼音、相似拼音、音形码以及多个行业分词生成搜索条件,并基于搜索策略在机构名称库中根据搜索条件进行搜索,将搜索结果作为已纠错机构名称完成机构名称纠错;本技术将待纠错机构名称进行分解,不同部分进行不同方式的搜索,对核心信息从拼音角度进行全面的模糊查询,提高了语音识别场景下机构名称的准确性。
128.在本实施例的一些可选的实现方式中,名称获取模块301可以包括:语音获取子模
块、语音识别子模块、预处理子模块以及实体识别子模块,其中:
129.语音获取子模块,用于获取待识别语音。
130.语音识别子模块,用于将待识别语音输入语音识别模型,得到语音识别结果。
131.预处理子模块,用于对语音识别结果进行预处理。
132.实体识别子模块,用于将预处理后的语音识别结果输入命名实体识别模型,得到待纠错机构名称。
133.本实施例中,对待识别语音进行语音识别得到文本形式的语音识别结果,对其进行预处理以删除无用信息,然后通过命名实体识别模型提取出待纠错机构名称,以便进行机构名称纠错。
134.在本实施例的一些可选的实现方式中,核心转换模块304可以包括:核心转换子模块、相似生成子模块以及音形码生成子模块,其中:
135.核心转换子模块,用于将核心信息转换为汉字拼音。
136.相似生成子模块,用于基于南方模糊音,生成汉字拼音的相似拼音。
137.音形码生成子模块,用于基于预设的音形码表,生成汉字拼音的音形码。
138.本实施例中,将核心信息转换为汉字拼音,并生成汉字拼音的相似音和音形码,以便对基于拼音进行模糊查询,尽可能覆盖核心信息全部可能的结果。
139.在本实施例的一些可选的实现方式中,名称搜索模块307可以包括:名称搜索子模块、得分计算子模块以及名称确定子模块,其中:
140.名称搜索子模块,用于基于预设的搜索策略,在机构名称库中根据搜索条件进行搜索,得到候选机构名称。
141.得分计算子模块,用于根据候选机构名称与搜索要素的对应关系,计算候选机构名称的得分;搜索要素包括汉字拼音、相似拼音、音形码和多个行业分词。
142.名称确定子模块,用于返回具有最高得分的候选机构名称作为搜索结果,并将搜索结果确定为已纠错机构名称。
143.本实施例中,搜索得到候选机构名称后,根据候选机构名称与搜索要素的对应关系计算候选机构名称的得分,得分衡量了候选机构名称的价值,选取具有最高得分的候选机构名称作为搜索结果,并确定为已纠错机构名称,确保了机构名称纠错的准确性。
144.在本实施例的一些可选的实现方式中,名称搜索子模块可以包括:长度获取单元、距离确定单元、名称搜索单元以及初始筛选单元,其中:
145.长度获取单元,用于当根据搜索条件中的拼音搜索要素进行搜索时,获取核心信息中各字符的汉字拼音长度;拼音搜索要素包括汉字拼音、相似拼音和音形码。
146.距离确定单元,用于根据汉字拼音长度确定各字符所对应的搜索编辑距离。
147.名称搜索单元,用于基于搜索编辑距离和拼音搜索要素,在机构名称库中进行搜索,得到初始机构名称。
148.初始筛选单元,用于根据待纠错机构名称对初始机构名称进行筛选,得到候选机构名称。
149.本实施例中,根据搜索条件中的拼音搜索要素进行搜索时,根据核心信息中字符的汉字拼音长度确定搜索编辑距离,然后在搜索编辑距离内对拼音搜索要素进行搜索得到初始机构名称,从而覆盖更多可能的结果;再根据待纠错机构名称对初始机构名称进行筛
选,得到候选机构名称,确保了机构名称纠错的准确性。
150.在本实施例的另一些可选的实现方式中,名称搜索子模块可以包括:匹配度计算单元、名称确定单元以及名称筛选单元,其中:
151.匹配度计算单元,用于当根据搜索条件中的多个行业分词进行搜索时,计算各行业分词与库存机构名称中行业信息的匹配度;库存机构名称为机构名称库中的机构名称。
152.名称确定单元,用于当匹配度大于预设的匹配度阈值时,将匹配到的库存机构名称确定为初始机构名称。
153.名称筛选单元,用于根据待纠错机构名称对初始机构名称进行筛选,得到候选机构名称。
154.本实施例中,根据行业分词进行搜索时,计算行业分词与库存机构名称库中行业信息的匹配度,选取匹配度大于匹配度阈值的库存机构名称作为初始机构名称,确保了初始机构名称的准确性。
155.在本实施例的一些可选的实现方式中,初始筛选单元可以包括:字符比对子单元、距离计算子单元以及初始确定子单元,其中:
156.字符比对子单元,用于将待纠错机构名称与初始机构名称进行字符比对,得到字符比对结果。
157.距离计算子单元,用于计算待纠错机构名称与初始机构名称之间的名称编辑距离。
158.初始确定子单元,用于当字符比对结果符合预设的字符比对条件,且名称编辑距离符合预设的名称距离条件时,将初始机构名称确定为候选机构名称。
159.本实施例中,从字符比对和编辑距离两个层面对初始编辑距离进行筛选,确保了得到的候选编辑距离与待纠错机构名称之间的相似性,提高了机构名称纠错的准确性。
160.可以理解,名称筛选单元可以具有与初始筛选单元一样的子单元,两者都用于根据待纠错机构名称对初始机构名称进行筛选,得到候选机构名称。
161.为解决上述技术问题,本技术实施例还提供计算机设备。具体请参阅图4,图4为本实施例计算机设备基本结构框图。
162.所述计算机设备4包括通过系统总线相互通信连接存储器41、处理器42、网络接口43。需要指出的是,图中仅示出了具有组件41-43的计算机设备4,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。其中,本技术领域技术人员可以理解,这里的计算机设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(application specific integrated circuit,asic)、可编程门阵列(field-programmable gate array,fpga)、数字处理器(digital signal processor,dsp)、嵌入式设备等。
163.所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
164.所述存储器41至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,sd或dx存储器等)、随机访问存储器(ram)、静态随机访问存储器(sram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、可编程只读存
储器(prom)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器41可以是所述计算机设备4的内部存储单元,例如该计算机设备4的硬盘或内存。在另一些实施例中,所述存储器41也可以是所述计算机设备4的外部存储设备,例如该计算机设备4上配备的插接式硬盘,智能存储卡(smart media card,smc),安全数字(secure digital,sd)卡,闪存卡(flash card)等。当然,所述存储器41还可以既包括所述计算机设备4的内部存储单元也包括其外部存储设备。本实施例中,所述存储器41通常用于存储安装于所述计算机设备4的操作系统和各类应用软件,例如机构名称纠错方法的计算机可读指令等。此外,所述存储器41还可以用于暂时地存储已经输出或者将要输出的各类数据。
165.所述处理器42在一些实施例中可以是中央处理器(central processing unit,cpu)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器42通常用于控制所述计算机设备4的总体操作。本实施例中,所述处理器42用于运行所述存储器41中存储的计算机可读指令或者处理数据,例如运行所述机构名称纠错方法的计算机可读指令。
166.所述网络接口43可包括无线网络接口或有线网络接口,该网络接口43通常用于在所述计算机设备4与其他电子设备之间建立通信连接。
167.本实施例中提供的计算机设备可以执行上述机构名称纠错方法。此处机构名称纠错方法可以是上述各个实施例的机构名称纠错方法。
168.本实施例中,获取语音识别生成的待纠错机构名称,并从中提取地域信息、核心信息和行业信息;机构名称库按地域划分,仅在地域信息所对应的机构名称库中搜索,以缩小搜索范围,提高搜索速度;核心信息对机构名称具有最强的区分性,将核心信息转换为汉字拼音,并基于汉字拼音生成核心信息的相似拼音以及音形码,以对核心信息进行全面覆盖;对行业信息进行分解得到多个行业分词;根据汉字拼音、相似拼音、音形码以及多个行业分词生成搜索条件,并基于搜索策略在机构名称库中根据搜索条件进行搜索,将搜索结果作为已纠错机构名称完成机构名称纠错;本技术将待纠错机构名称进行分解,不同部分进行不同方式的搜索,对核心信息从拼音角度进行全面的模糊查询,提高了语音识别场景下机构名称的准确性。
169.本技术还提供了另一种实施方式,即提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,所述计算机可读指令可被至少一个处理器执行,以使所述至少一个处理器执行如上述的机构名称纠错方法的步骤。
170.本实施例中,获取语音识别生成的待纠错机构名称,并从中提取地域信息、核心信息和行业信息;机构名称库按地域划分,仅在地域信息所对应的机构名称库中搜索,以缩小搜索范围,提高搜索速度;核心信息对机构名称具有最强的区分性,将核心信息转换为汉字拼音,并基于汉字拼音生成核心信息的相似拼音以及音形码,以对核心信息进行全面覆盖;对行业信息进行分解得到多个行业分词;根据汉字拼音、相似拼音、音形码以及多个行业分词生成搜索条件,并基于搜索策略在机构名称库中根据搜索条件进行搜索,将搜索结果作为已纠错机构名称完成机构名称纠错;本技术将待纠错机构名称进行分解,不同部分进行不同方式的搜索,对核心信息从拼音角度进行全面的模糊查询,提高了语音识别场景下机构名称的准确性。
171.通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下
前者是更佳的实施方式。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本技术各个实施例所述的方法。
172.显然,以上所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例,附图中给出了本技术的较佳实施例,但并不限制本技术的专利范围。本技术可以以许多不同的形式来实现,相反地,提供这些实施例的目的是使对本技术的公开内容的理解更加透彻全面。尽管参照前述实施例对本技术进行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等效替换。凡是利用本技术说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理在本技术专利保护范围之内。

技术特征:
1.一种机构名称纠错方法,其特征在于,包括下述步骤:获取基于语音识别生成的待纠错机构名称;从所述待纠错机构名称中提取地域信息、核心信息和行业信息;获取所述地域信息所对应的机构名称库;将所述核心信息转换为汉字拼音,并基于所述汉字拼音生成所述核心信息的相似拼音以及音形码;对所述行业信息进行分解得到多个行业分词;根据所述汉字拼音、所述相似拼音、所述音形码以及所述多个行业分词生成搜索条件;基于预设的搜索策略,在所述机构名称库中根据所述搜索条件进行搜索得到搜索结果,并将所述搜索结果作为已纠错机构名称。2.根据权利要求1所述的机构名称纠错方法,其特征在于,所述获取基于语音识别生成的待纠错机构名称的步骤包括:获取待识别语音;将所述待识别语音输入语音识别模型,得到语音识别结果;对所述语音识别结果进行预处理;将预处理后的所述语音识别结果输入命名实体识别模型,得到待纠错机构名称。3.根据权利要求1所述的机构名称纠错方法,其特征在于,所述将所述核心信息转换为汉字拼音,并基于所述汉字拼音生成所述核心信息的相似拼音以及音形码的步骤包括:将所述核心信息转换为汉字拼音;基于南方模糊音,生成所述汉字拼音的相似拼音;基于预设的音形码表,生成所述汉字拼音的音形码。4.根据权利要求1所述的机构名称纠错方法,其特征在于,所述基于预设的搜索策略,在所述机构名称库中根据所述搜索条件进行搜索得到搜索结果,并将所述搜索结果作为已纠错机构名称的步骤包括:基于预设的搜索策略,在所述机构名称库中根据所述搜索条件进行搜索,得到候选机构名称;根据所述候选机构名称与搜索要素的对应关系,计算所述候选机构名称的得分;所述搜索要素包括所述汉字拼音、所述相似拼音、所述音形码和所述多个行业分词;返回具有最高得分的候选机构名称作为搜索结果,并将所述搜索结果确定为已纠错机构名称。5.根据权利要求4所述的机构名称纠错方法,其特征在于,所述基于预设的搜索策略,在所述机构名称库中根据所述搜索条件进行搜索,得到候选机构名称的步骤包括:当根据所述搜索条件中的拼音搜索要素进行搜索时,获取所述核心信息中各字符的汉字拼音长度;所述拼音搜索要素包括所述汉字拼音、所述相似拼音和所述音形码;根据所述汉字拼音长度确定所述各字符所对应的搜索编辑距离;基于所述搜索编辑距离和所述拼音搜索要素,在所述机构名称库中进行搜索,得到初始机构名称;根据所述待纠错机构名称对所述初始机构名称进行筛选,得到候选机构名称。6.根据权利要求4所述的机构名称纠错方法,其特征在于,所述基于预设的搜索策略,
在所述机构名称库中根据所述搜索条件进行搜索,得到候选机构名称的步骤包括:当根据所述搜索条件中的多个行业分词进行搜索时,计算各行业分词与库存机构名称中行业信息的匹配度;所述库存机构名称为所述机构名称库中的机构名称;当所述匹配度大于预设的匹配度阈值时,将匹配到的库存机构名称确定为初始机构名称;根据所述待纠错机构名称对所述初始机构名称进行筛选,得到候选机构名称。7.根据权利要求5所述的机构名称纠错方法,其特征在于,所述根据所述待纠错机构名称对所述初始机构名称进行筛选,得到候选机构名称的步骤包括:将所述待纠错机构名称与所述初始机构名称进行字符比对,得到字符比对结果;计算所述待纠错机构名称与所述初始机构名称之间的名称编辑距离;当所述字符比对结果符合预设的字符比对条件,且所述名称编辑距离符合预设的名称距离条件时,将所述初始机构名称确定为候选机构名称。8.一种机构名称纠错装置,其特征在于,包括:名称获取模块,用于获取基于语音识别生成的待纠错机构名称;信息提取模块,用于从所述待纠错机构名称中提取地域信息、核心信息和行业信息;名称库获取模块,用于获取所述地域信息所对应的机构名称库;核心转换模块,用于将所述核心信息转换为汉字拼音,并基于所述汉字拼音生成所述核心信息的相似拼音以及音形码;信息分解模块,用于对所述行业信息进行分解得到多个行业分词;条件生成模块,用于根据所述汉字拼音、所述相似拼音、所述音形码以及所述多个行业分词生成搜索条件;名称搜索模块,用于基于预设的搜索策略,在所述机构名称库中根据所述搜索条件进行搜索得到搜索结果,并将所述搜索结果作为已纠错机构名称。9.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述处理器执行所述计算机可读指令时实现如权利要求1至7中任一项所述的机构名称纠错方法的步骤。10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如权利要求1至7中任一项所述的机构名称纠错方法的步骤。

技术总结
本申请实施例属于人工智能领域,涉及一种机构名称纠错方法、装置、计算机设备及存储介质,方法包括:获取基于语音识别生成的待纠错机构名称;从待纠错机构名称中提取地域信息、核心信息和行业信息;获取地域信息所对应的机构名称库;将核心信息转换为汉字拼音,并基于汉字拼音生成核心信息的相似拼音以及音形码;对行业信息进行分解得到多个行业分词;根据汉字拼音、相似拼音、音形码以及多个行业分词生成搜索条件;基于预设的搜索策略,在机构名称库中根据搜索条件进行搜索得到搜索结果,并将搜索结果作为已纠错机构名称。此外,本申请还涉及区块链技术,已纠错机构名称可存储于区块链中


技术研发人员:严勇文 魏韬 马骏
受保护的技术使用者:平安科技(深圳)有限公司
技术研发日:2023.04.11
技术公布日:2023/7/25
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐