专有名词纠错方法、装置、设备及计算机可读介质与流程
未命名
07-27
阅读:73
评论:0
1.本发明涉及自然语言处理技术领域,尤其涉及一种专有名词纠错方法、装置、设备及介质。
背景技术:
2.受限于目前的语音识别技术水平、用户自身的方言背景、以及输入法本身的识别技术水平,初始传入搜索引擎的query往往存在着同近音和近形字错误,例如,某些地方的方言背景的用户容易分不清”l”和“n”的发音,导致相应的近音字错误。另一方面,当用户需要检索某个专业领域的信息时,由于专有名词存在较多生僻字,普通用户在输入过程中容易输入更为熟悉和简单的同音近形字代替;同时,由于专有名词的字词组合方式较为罕见,用户难以完全记住,往往输入语序错误、或者具有多字缺字的错误query。
3.在现实应用中,专业领域信息的检索相较于通用领域的信息检索往往具有更低的容错度,在涉及法律、医疗等专业领域,错误的专业名词输入导致的错误检索结果轻则引发用户和平台之间的纠纷,重则会延误用户的求助和医疗救治。因此,亟需一种专有名词纠错方法,能够在用户输入错误时及时纠正,返回用户真正想要且准确的结果。
技术实现要素:
4.本发明提供一种专有名词纠错方法、装置、设备及介质,其主要目的在于提升对专有名词纠错的准确率。
5.为实现上述目的,本发明提供的一种专有名词纠错方法,包括:
6.从预构建的专有名词库中获取多个专有名词,通过计算拼音及字形的编辑距离的方法,从预设字词库中获取所述专有名词对应的候选字词库;
7.根据所述候选字词库对所述专有名词进行随机的字词替换或增删操作,得到正样本,以及从所述专有名词库中选择与所述专有名词完全不相同的专有名词作为负样本;
8.利用所述专有名词以及所述专有名词对应的正样本和负样本对预构建的初始文本纠错模型进行训练,得到标准文本纠错模型;
9.利用所述标准文本纠错模型对待纠错文本进行纠错,得到标准文本。
10.可选地,所述利用所述专有名词以及所述专有名词对应的正样本和负样本对预构建的初始文本纠错模型进行训练,得到标准文本纠错模型,包括:
11.计算各个所述专有名词文本和对应正样本之间的第一欧式距离,以及计算各个所述专有名词文本和对应负样本之间的第二欧式距离;
12.从多个所述专有名词中选取其中一个专有名词,根据选取的所述专有名词的第一欧式距离以及所述第二欧式距离,利用所述初始文本纠错模型中的损失函数公式计算损失函数值;
13.判断所述损失函数值是否大于预设的损失函数阈值;
14.当所述损失函数值大于预设的损失函数阈值时,利用前反馈神经网络最小化所述
损失函数值,并将所述初始文本纠错模型的参数进行网络逆向更新,得到更新文本纠错模型,并返回上述从多个所述专有名词中选取一个专有名词的步骤;
15.当所述损失函数值小于或者等于预设的损失函数阈值时,将所述更新文本纠错模型作为所述标准文本纠错模型。
16.可选地,所述利用所述标准文本纠错模型对待纠错文本进行纠错,得到标准文本之前,所述方法还包括:
17.接收待纠错文本,并将所述待纠错文本拼音化,得到待纠错拼音文本;
18.将所述待纠错拼音文本通过预设的输入法进行转换,得到拼音转换文本;
19.比对所述拼音转换文本和所述待纠错文本的相同字符的数目;
20.当所述拼音转换文本和所述待纠错文本的相同字符的数目小于预设数目时,执行利用所述标准文本纠错模型对待纠错文本进行纠错的步骤。
21.可选地,所述方法还包括:
22.当所述拼音转换文本和所述待纠错文本的相同字符的数目大于或者等于预设数目时,计算所述待纠错文本的向量均值;
23.根据所述向量均值从所述专有名词库中获取所述待纠错文本的标准文本。
24.可选地,所述根据所述候选字词库对所述专有名词进行随机的字词替换或增删操作,得到正样本,包括:
25.从所述候选字词库中随机选择一个或者多个字词,利用选择的所述字词替换所述专有名词中对应的字词,得到替换专有名词;
26.随机删除所述专有名词中的一个或者多个字词,得到缺失专有名词;
27.汇总所述替换专有名词以及所述缺失专有名词,得到所述专有名词的正样本。
28.可选地,所述通过计算拼音及字形的编辑距离的方法,从预设字词库中获取所述专有名词对应的候选字词库,包括:
29.计算所述专有名词中每个字词与所述预设字词库中每个字词的字形编辑距离,从预设字词库中选择所述选择所述字形编辑距离小于预设第一编辑距离阈值的字词,得到字形近似词;
30.获取所述专有名词的拼音表示,得到名词拼音,计算所述名词拼音与所述预设字词库中每个字词的拼音之间的字音编辑距离,并从预设字词库中选择所述字音编辑距离小于预设第二编辑距离阈值的字词,得到拼音近似字词;
31.集合所述拼音近似字词和所述字形近似词,得到所述候选字词库。
32.可选地,所述损失函数公式为:
33.l=max(d(anchor,positive)-d(anchor,negative)+margin,0)
34.其中,l为损失函数值,d(anchor,positive)为所述专有名词文本和所述正样本的欧式距离,d(anchor,negative)为所述专有名词文本和所述负样本的欧式距离,margin为预设距离参考值。
35.为了解决上述问题,本发明还提供一种专有名词纠错装置,所述装置包括:
36.名词获取模块,用于从预构建的专有名词库中获取多个专有名词,通过计算拼音及字形的编辑距离的方法,从预设字词库中获取所述专有名词对应的候选字词库;
37.样本构建模块,用于根据所述候选字词库对所述专有名词进行随机的字词替换或
增删操作,得到正样本,以及从所述专有名词库中选择与所述专有名词完全不相同的专有名词作为负样本;
38.模型训练模块,用于利用所述专有名词以及所述专有名词对应的正样本和负样本对预构建的初始文本纠错模型进行训练,得到标准文本纠错模型;
39.文本纠错模块,用于利用所述标准文本纠错模型对待纠错文本进行纠错,得到标准文本。
40.为了解决上述问题,本发明还提供一种电子设备,所述电子设备包括:
41.至少一个处理器;以及,
42.与所述至少一个处理器通信连接的存储器;其中,
43.所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上所述的专有名词纠错方法。
44.为了解决上述问题,本发明还提供一种计算机可读存储介质,包括存储数据区和存储程序区,存储数据区存储创建的数据,存储程序区存储有计算机程序;其中,所述计算机程序被处理器执行时实现如上所述的专有名词纠错方法。
45.本发明实施例中通过计算拼音及字形的编辑距离的方法,从预设字词库中获取专有名词对应的候选字词库,再根据候选字词库和专有名词库构建正样本和负样本,实现训练样本的获取,然后利用专有名词以及专有名词对应的正样本和负样本对预构建的初始文本纠错模型进行训练,得到标准文本纠错模型,最后利用标准文本纠错模型对待纠错文本进行纠错,得到标准文本。因此,本发明通过构建正样本和负样本训练初始文本纠错模型,能够为用户纠正同音、近形等多种文本输入错误,有效涵盖了用户在进行医疗诊断过程中专有名词搜索时出现的各种错误可能,以实现对输入错误的专有名词进行准确纠错的目的。
附图说明
46.图1为本发明一实施例提供的一种专有名词纠错方法的流程示意图;
47.图2为本发明一实施例提供一种专有名词纠错方法中一个步骤的详细流程示意图;
48.图3为本发明一实施例提供一种专有名词纠错方法中一个步骤的详细流程示意图;
49.图4为本发明一实施例提供的专有名词纠错装置的模块示意图;
50.图5为本发明一实施例提供的实现专有名词纠错方法的电子设备的内部结构示意图。
51.本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
52.应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
53.本技术实施例提供一种专有名词纠错方法。所述专有名词纠错方法的执行主体包括但不限于服务端、终端等能够被配置为执行本技术实施例提供的该方法的电子设备中的
至少一种。其中,服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(content delivery network,cdn)、以及大数据和人工智能平台等基础云计算服务的云服务器。换言之,所述专有名词纠错方法可以由安装在终端设备或服务端设备的软件或硬件来执行,所述软件可以是区块链平台。所述服务端包括但不限于:单台服务器、服务器集群、云端服务器或云端服务器集群等。
54.参照图1所示,为本发明一实施例提供的一种专有名词纠错方法的流程示意图。在本实施例中,所述专有名词纠错方法包括以下步骤s1-s4:
55.s1、从预构建的专有名词库中获取多个专有名词,通过计算拼音及字形的编辑距离的方法,从预设字词库中获取所述专有名词对应的候选字词库。
56.本发明实施例中,所述专有名词可以为法律领域的专有名词或者医学领域的专有名词。本发明实施例以医学领域的专有名词为例,例如,所述专有名词包括“少儿唐氏综合症”,“阿斯伯格综合症”等。
57.本发明实施例中所述专有名词库存储有各种领域的专有名词,进一步地,所述专有名词库中还存有各个专有名词的向量均值。其中,所述向量均值是指所述专有名词中所有字符的向量的平均值。
58.本发明实施例中,所述预设的字词库可以为各种已知的字典库,例如,在线的新华字典,其中包括了所有的汉字。本发明其他实施例中,根据语种的不同,所述字词库也可以包括其他种类语言的字符。本发明实施例通过计算拼音/字形的编辑距离的方法,计算所述预设的字词库中的字词与所述获取的专有名词中的字词之间的编辑距离,并选择所述编辑距离小于预设编辑距离阈值的字词组成所述候选字词库。例如“少”和“小”为字形编辑距离小于预设编辑距离阈值的字词,“唐”和“谭”为拼音编辑距离小于预设距离阈值的字词。
59.详细地,本发明实施例中,所述通过计算拼音及字形的编辑距离的方法,从预设字词库中获取所述专有名词对应的候选字词库,包括:
60.计算所述专有名词中每个字词与所述预设字词库中每个字词的字形编辑距离,从预设字词库中选择所述选择所述字形编辑距离小于预设第一编辑距离阈值的字词,得到字形近似词;
61.获取所述专有名词的拼音表示,得到名词拼音,计算所述名词拼音与所述预设字词库中每个字词的拼音之间的字音编辑距离,并从预设字词库中选择所述字音编辑距离小于预设第二编辑距离阈值的字词,得到拼音近似字词;
62.集合所述拼音近似字词和所述字形近似词,得到所述候选字词库。
63.s2、根据所述候选字词库对所述专有名词进行随机的字词替换或增删操作,得到正样本,以及从所述专有名词库中选择与所述专有名词完全不相同的专有名词作为负样本。
64.本发明实施例中,所述正样本是一种错误模拟文本,所述错误模拟文本用于模拟用户输入专有名词时,由于用户使用的输入法或者用户拼写错误得到的文本。
65.本发明实施例中,所述根据所述候选字词库对所述专有名词进行随机的字词替换或增删操作,得到正样本,包括:
66.从所述候选字词库中随机选择一个或者多个字词,利用选择的所述字词替换所述
专有名词中对应的字词,得到替换专有名词;
67.随机删除所述专有名词中的一个或者多个字词,得到缺失专有名词;
68.汇总所述替换专有名词以及所述缺失专有名词,得到所述专有名词的正样本。
69.本发明实施例中,通过用所述正样本模拟用户输入时出现拼写错误得到文本,并对预设的文本纠错模型进行训练,可以增加所述文本纠错模型的鲁棒性。
70.进一步地,本发明实施例从所述专有名词库中选择与所述专有名词完全不相同的专有名词作为负样本。
71.s3、利用所述专有名词以及所述专有名词对应的正样本和负样本对预构建的初始文本纠错模型进行训练,得到标准文本纠错模型。
72.本发明实施例中,所述初始文本纠错模型可以为基于bert构建的文本纠错模型。
73.参考图2所示,本发明实施例中,所述利用所述专有名词以及所述专有名词对应的正样本和负样本对预构建的初始文本纠错模型进行训练,得到标准文本纠错模型,包括:
74.s30、计算各个所述专有名词文本和对应正样本之间的第一欧式距离,以及计算各个所述专有名词文本和对应负样本之间的第二欧式距离;
75.s31、从多个所述专有名词中选取其中一个专有名词,根据选取的所述专有名词的第一欧式距离以及所述第二欧式距离,利用所述初始文本纠错模型中的下述损失函数公式计算损失函数值:
76.l=max(d(anchor,positive)-d(anchor,negative)+margin,0)
77.其中,l为损失函数值,d(anchor,positive)为所述专有名词文本和所述正样本的第一欧式距离,d(anchor,negative)为所述专有名词文本和所述负样本的第二欧式距离,margin为预设距离参考值;
78.s32、判断所述损失函数值是否大于预设的损失函数阈值;
79.s33、当所述损失函数值大于预设的损失函数阈值时,利用前反馈神经网络最小化所述损失函数值,并将所述初始文本纠错模型的参数进行网络逆向更新,得到更新文本纠错模型,并返回所述步骤s31;
80.s34、当所述损失函数值小于或者等于预设的损失函数阈值时,将所述更新文本纠错模型作为所述标准文本纠错模型。
81.进一步的,所述损失函数为triplet loss损失函数,用于训练差异性小的样本,所述损失函数公式是用来度量模型的预测值和真实值的差异程度的函数式,当所述正样本和所述专有名词文本的距离小于或者等于所述负样本和所述专有名词文本的欧式距离,且差距大于预设距离参考值时,损失函数公式的损失函数值为0,不需要继续进行训练,即所述预设的损失函数阈值为0,当所述当所述正样本和所述专有名词文本的距离大于所述负样本和所述专有名词文本的欧式距离,损失函数值为d(anchor,positive)-d(anchor,negative)+margin,损失函数值大于0,表示需要继续对所述初始文本纠错模型进行训练。
82.s4、利用所述标准文本纠错模型对待纠错文本进行纠错,得到标准文本。
83.本发明实施例中,所述待纠错文本具有乱序错误和文本错误两种错误类型。
84.其中,所述乱序错误为所述待纠错文本中字符顺序错误,例如“少儿唐氏综合症”的乱序错误文本为“儿唐氏少综合症”以及“唐氏少儿综合症”,“阿斯伯格综合症”的乱序错误文本为“阿斯格伯综合症”等。
85.进一步地,所述文本错误为所述待纠错文本中出现错字、缺字,例如“少儿唐氏综合症”的文本错误文本“少儿糖氏综合症”、“少儿唐氏综症”等。
86.参考图3所示,本发明实施例中,所述利用所述标准文本纠错模型对待纠错文本进行纠错,得到标准文本之前,所述方法还包括;
87.s40、接收待纠错文本,并将所述待纠错文本拼音化,得到待纠错拼音文本;
88.s41、将所述待纠错拼音文本通过预设的输入法进行转换,得到拼音转换文本;
89.s42、比对所述拼音转换文本和所述待纠错文本的相同字符的数目;
90.s43、当所述拼音转换文本和所述待纠错文本的相同字符的数目小于预设数目时,执行利用所述标准文本纠错模型对待纠错文本进行纠错的步骤。
91.详细地,所述预设的输入法是为将各个字符输入电子设备而采用的编码方法,所述预设数目可以为根据工作人员的需求设置的,一般情况下,所述预设数目可以设置为所述待纠错文本中字符数目的一半。
92.本发明实施例中,当所述拼音转换文本和所述待纠错文本的相同字符的数目小于预设数目时,可以判断所述待纠错文本为文本错误,当所述拼音转换文本和所述待纠错文本的相同字符的数目大于或者等于预设数目时,可以判断所述待纠错文本为乱序错误,其中,通过判断所述待纠错文本是文本错误还是乱序错误可以方便工作人员针对这两种不同的错误情况选择不同的处理方法,以便于更好的实现专有名词的纠错。
93.进一步地,所述当所述拼音转换文本和所述待纠错文本的相同字符的数目小于预设数目时,执行利用所述标准文本纠错模型对待纠错文本进行纠错的步骤之后,所述方法还包括:
94.当所述拼音转换文本和所述待纠错文本的相同字符的数目大于或者等于预设数目时,计算所述待纠错文本的向量均值;
95.根据所述向量均值从所述专有名词库中获取所述待纠错文本的标准文本。
96.本发明实施例中,所述向量均值为文本中各个字符的向量的平均值,进一步地,所述向量均值不随文本顺序的改变而变更。
97.进一步地,所述计算所述待纠错文本的向量均值可以通过下述公式实现:
[0098][0099]
其中,ea为所述待纠错文本的向量均值,n为所述待纠错文本中的字符个数,ei为所述待纠错文本中第i个字符的向量。
[0100]
本发明实施例中,可以通过查询预设的embedding参数表获取所述待纠错文本中各个字符的向量,其中,所述embedding参数表为将各个字符都转换为固定维数的向量后得到的表,可以通过查询所述embedding参数表获取各个字符的向量。
[0101]
本发明实施例中通过计算拼音及字形的编辑距离的方法,从预设字词库中获取专有名词对应的候选字词库,再根据候选字词库和专有名词库构建正样本和负样本,实现训练样本的获取,然后利用专有名词以及专有名词对应的正样本和负样本对预构建的初始文本纠错模型进行训练,得到标准文本纠错模型,最后利用标准文本纠错模型对待纠错文本进行纠错,得到标准文本。因此,本发明通过构建正样本和负样本训练初始文本纠错模型,
能够为用户纠正同音、近形等多种文本输入错误,有效涵盖了用户在进行医疗诊断过程中专有名词搜索时出现的各种错误可能,以实现对输入错误的专有名词进行准确纠错的目的。
[0102]
如图4所示,是本发明专有名词纠错装置的模块示意图。
[0103]
本发明所述专有名词纠错装置100可以安装于电子设备中。根据实现的功能,所述专有名词纠错装置可以包括名词获取模块101、样本构建模块102、模型训练模块103和文本纠错模块104。本发明所述模块也可以称之为单元,是指一种能够被电子设备处理器所执行,并且能够完成固定功能的一系列计算机程序段,其存储在电子设备的存储器中。
[0104]
在本实施例中,关于各模块/单元的功能如下:
[0105]
所述名词获取模块101,用于从预构建的专有名词库中获取多个专有名词,通过计算拼音及字形的编辑距离的方法,从预设字词库中获取所述专有名词对应的候选字词库;
[0106]
样本构建模块102,用于根据所述候选字词库对所述专有名词进行随机的字词替换或增删操作,得到正样本,以及从所述专有名词库中选择与所述专有名词完全不相同的专有名词作为负样本;
[0107]
模型训练模块103,用于利用所述专有名词以及所述专有名词对应的正样本和负样本对预构建的初始文本纠错模型进行训练,得到标准文本纠错模型;
[0108]
文本纠错模块104,用于利用所述标准文本纠错模型对待纠错文本进行纠错,得到标准文本。
[0109]
详细地,本发明实施例中所述专有名词纠错装置100中所述的各模块在使用时采用与上述图1至图3所述的专有名词纠错方法一样的技术手段,并能够产生相同的技术效果,这里不再赘述。
[0110]
如图5所示,是本发明实现专有名词纠错方法的电子设备的结构示意图。
[0111]
所述电子设备可以包括处理器10、存储器11、通信总线12以及通信接口13,还可以包括存储在所述存储器11中并可在所述处理器10上运行的计算机程序,如专有名词纠错程序。
[0112]
其中,所述处理器10在一些实施例中可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(central processing unit,cpu)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器10是所述电子设备的控制核心(control unit),利用各种接口和线路连接整个电子设备的各个部件,通过运行或执行存储在所述存储器11内的程序或者模块(例如执行专有名词纠错程序等),以及调用存储在所述存储器11内的数据,以执行电子设备的各种功能和处理数据。
[0113]
所述存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如:sd或dx存储器等)、磁性存储器、磁盘、光盘等。所述存储器11在一些实施例中可以是电子设备的内部存储单元,例如该电子设备的移动硬盘。所述存储器11在另一些实施例中也可以是电子设备的外部存储设备,例如电子设备上配备的插接式移动硬盘、智能存储卡(smart media card,smc)、安全数字(secure digital,sd)卡、闪存卡(flash card)等。进一步地,所述存储器11还可以既包括电子设备的内部存储单元也包括外部存储设备。所述存储器11不仅可以用于存储安装于电子设备的应用软件及各
类数据,例如专有名词纠错程序的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
[0114]
所述通信总线12可以是外设部件互连标准(peripheral component interconnect,简称pci)总线或扩展工业标准结构(extended industry standard architecture,简称eisa)总线等。该总线可以分为地址总线、数据总线、控制总线等。所述总线被设置为实现所述存储器11以及至少一个处理器10等之间的连接通信。
[0115]
所述通信接口13用于上述电子设备与其他设备之间的通信,包括网络接口和用户接口。可选地,所述网络接口可以包括有线接口和/或无线接口(如wi-fi接口、蓝牙接口等),通常用于在该电子设备与其他电子设备之间建立通信连接。所述用户接口可以是显示器(display)、输入单元(比如键盘(keyboard)),可选地,用户接口还可以是标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是led显示器、液晶显示器、触控式液晶显示器以及oled(organic light-emitting diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备中处理的信息以及用于显示可视化的用户界面。
[0116]
图5仅示出了具有部件的电子设备,本领域技术人员可以理解的是,图5示出的结构并不构成对所述电子设备的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
[0117]
例如,尽管未示出,所述电子设备还可以包括给各个部件供电的电源(比如电池),优选地,电源可以通过电源管理装置与所述至少一个处理器10逻辑相连,从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备还可以包括多种传感器、蓝牙模块、wi-fi模块等,在此不再赘述。
[0118]
应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。
[0119]
所述电子设备中的所述存储器11存储的专有名词纠错程序是多个计算机程序的组合,在所述处理器10中运行时,可以实现:
[0120]
从预构建的专有名词库中获取多个专有名词,通过计算拼音及字形的编辑距离的方法,从预设字词库中获取所述专有名词对应的候选字词库;
[0121]
根据所述候选字词库对所述专有名词进行随机的字词替换或增删操作,得到正样本,以及从所述专有名词库中选择与所述专有名词完全不相同的专有名词作为负样本;
[0122]
利用所述专有名词以及所述专有名词对应的正样本和负样本对预构建的初始文本纠错模型进行训练,得到标准文本纠错模型;
[0123]
利用所述标准文本纠错模型对待纠错文本进行纠错,得到标准文本。
[0124]
具体地,所述处理器10对上述计算机程序的具体实现方法可参考图1对应实施例中相关步骤的描述,在此不赘述。
[0125]
进一步地,所述电子设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个非易失性计算机可读取存储介质中。所述计算机可读存储介质可以是易失性的,也可以是非易失性的。例如,所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光
盘、计算机存储器、只读存储器(rom,read-only memory)。
[0126]
本发明还提供一种计算机可读存储介质,所述可读存储介质存储有计算机程序,所述计算机程序在被电子设备的处理器所执行时,可以实现:
[0127]
从预构建的专有名词库中获取多个专有名词,通过计算拼音及字形的编辑距离的方法,从预设字词库中获取所述专有名词对应的候选字词库;
[0128]
根据所述候选字词库对所述专有名词进行随机的字词替换或增删操作,得到正样本,以及从所述专有名词库中选择与所述专有名词完全不相同的专有名词作为负样本;
[0129]
利用所述专有名词以及所述专有名词对应的正样本和负样本对预构建的初始文本纠错模型进行训练,得到标准文本纠错模型;
[0130]
利用所述标准文本纠错模型对待纠错文本进行纠错,得到标准文本。
[0131]
在本发明所提供的几个实施例中,应该理解到,所揭露的设备,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
[0132]
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
[0133]
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
[0134]
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。
[0135]
因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
[0136]
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
[0137]
本技术实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(artificial intelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
[0138]
此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称,而并不表示任何特定的顺序。
[0139]
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照
较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。
技术特征:
1.一种专有名词纠错方法,其特征在于,所述方法包括:从预构建的专有名词库中获取多个专有名词,通过计算拼音及字形的编辑距离的方法,从预设字词库中获取所述专有名词对应的候选字词库;根据所述候选字词库对所述专有名词进行随机的字词替换或增删操作,得到正样本,以及从所述专有名词库中选择与所述专有名词完全不相同的专有名词作为负样本;利用所述专有名词以及所述专有名词对应的正样本和负样本对预构建的初始文本纠错模型进行训练,得到标准文本纠错模型;利用所述标准文本纠错模型对待纠错文本进行纠错,得到标准文本。2.如权利要求1所述的专有名词纠错方法,其特征在于,所述利用所述专有名词以及所述专有名词对应的正样本和负样本对预构建的初始文本纠错模型进行训练,得到标准文本纠错模型,包括:计算各个所述专有名词文本和对应正样本之间的第一欧式距离,以及计算各个所述专有名词文本和对应负样本之间的第二欧式距离;从多个所述专有名词中选取其中一个专有名词,根据选取的所述专有名词的第一欧式距离以及所述第二欧式距离,利用所述初始文本纠错模型中的损失函数公式计算损失函数值;判断所述损失函数值是否大于预设的损失函数阈值;当所述损失函数值大于预设的损失函数阈值时,利用前反馈神经网络最小化所述损失函数值,并将所述初始文本纠错模型的参数进行网络逆向更新,得到更新文本纠错模型,并返回上述从多个所述专有名词中选取一个专有名词的步骤;当所述损失函数值小于或者等于预设的损失函数阈值时,将所述更新文本纠错模型作为所述标准文本纠错模型。3.如权利要求1所述的专有名词纠错方法,其特征在于,所述利用所述标准文本纠错模型对待纠错文本进行纠错,得到标准文本之前,所述方法还包括:接收待纠错文本,并将所述待纠错文本拼音化,得到待纠错拼音文本;将所述待纠错拼音文本通过预设的输入法进行转换,得到拼音转换文本;比对所述拼音转换文本和所述待纠错文本的相同字符的数目;当所述拼音转换文本和所述待纠错文本的相同字符的数目小于预设数目时,执行利用所述标准文本纠错模型对待纠错文本进行纠错的步骤。4.如权利要求3所述的专有名词纠错方法,其特征在于,所述方法还包括:当所述拼音转换文本和所述待纠错文本的相同字符的数目大于或者等于预设数目时,计算所述待纠错文本的向量均值;根据所述向量均值从所述专有名词库中获取所述待纠错文本的标准文本。5.如权利要求1所述的专有名词纠错方法,其特征在于,所述根据所述候选字词库对所述专有名词进行随机的字词替换或增删操作,得到正样本,包括:从所述候选字词库中随机选择一个或者多个字词,利用选择的所述字词替换所述专有名词中对应的字词,得到替换专有名词;随机删除所述专有名词中的一个或者多个字词,得到缺失专有名词;汇总所述替换专有名词以及所述缺失专有名词,得到所述专有名词的正样本。
6.如权利要求1所述的专有名词纠错方法,其特征在于,所述通过计算拼音及字形的编辑距离的方法,从预设字词库中获取所述专有名词对应的候选字词库,包括:计算所述专有名词中每个字词与所述预设字词库中每个字词的字形编辑距离,从预设字词库中选择所述选择所述字形编辑距离小于预设第一编辑距离阈值的字词,得到字形近似词;获取所述专有名词的拼音表示,得到名词拼音,计算所述名词拼音与所述预设字词库中每个字词的拼音之间的字音编辑距离,并从预设字词库中选择所述字音编辑距离小于预设第二编辑距离阈值的字词,得到拼音近似字词;集合所述拼音近似字词和所述字形近似词,得到所述候选字词库。7.如权利要求2所述的专有名词纠错方法,其特征在于,所述损失函数公式为:l=max(d(anchor,positive)-d(anchor,negative)+margin,0)其中,l为损失函数值,d(anchor,positive)为所述专有名词文本和所述正样本的欧式距离,d(anchor,negative)为所述专有名词文本和所述负样本的欧式距离,margin为预设距离参考值。8.一种专有名词纠错装置,其特征在于,所述装置包括:名词获取模块,用于从预构建的专有名词库中获取多个专有名词,通过计算拼音及字形的编辑距离的方法,从预设字词库中获取所述专有名词对应的候选字词库;样本构建模块,用于根据所述候选字词库对所述专有名词进行随机的字词替换或增删操作,得到正样本,以及从所述专有名词库中选择与所述专有名词完全不相同的专有名词作为负样本;模型训练模块,用于利用所述专有名词以及所述专有名词对应的正样本和负样本对预构建的初始文本纠错模型进行训练,得到标准文本纠错模型;文本纠错模块,用于利用所述标准文本纠错模型对待纠错文本进行纠错,得到标准文本。9.一种电子设备,其特征在于,所述电子设备包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至7中任一项所述的专有名词纠错方法。10.一种计算机可读存储介质,包括存储数据区和存储程序区,存储数据区存储创建的数据,存储程序区存储有计算机程序;其中,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的专有名词纠错方法。
技术总结
本发明涉及自然语言处理技术领域,揭露一种专有名词纠错方法,包括:从预构建的专有名词库中获取多个专有名词,通过计算拼音及字形的编辑距离的方法,从预设字词库中获取专有名词对应的候选字词库;根据候选字词库对专有名词进行随机的字词替换或增删操作,得到正样本,以及从专有名词库中选择与专有名词完全不相同的专有名词作为负样本;利用专有名词以及专有名词对应的正样本和负样本对预构建的初始文本纠错模型进行训练,得到标准文本纠错模型;利用所述标准文本纠错模型对待纠错文本进行纠错,得到标准文本。本发明还提出一种专有名词纠错装置、设备及存储介质。本发明可以提升医疗诊断过程中对专有名词纠错的准确率。升医疗诊断过程中对专有名词纠错的准确率。升医疗诊断过程中对专有名词纠错的准确率。
技术研发人员:杨海韵 严为绒
受保护的技术使用者:平安科技(深圳)有限公司
技术研发日:2023.04.12
技术公布日:2023/7/25
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
上一篇:一种医学图像分割数据自动标注的方法 下一篇:一种双频超声波洁面仪及其控制方法与流程
