文本处理方法、装置、计算机可读存储介质及电子设备

未命名 07-15 阅读:114 评论:0


1.本发明涉及人工智能领域,具体而言,涉及一种文本处理方法、装置、计算机可读存储介质及电子设备。


背景技术:

2.语音是传播信息的主要媒介之一。在语音相关的应用场景(如:医疗、餐饮、金融等)中,一项基础且重要的工作是提取其中的关键信息。比如:医院随访机器人通过语音对话完成患者身体状态及用药情况的记录跟踪,对话过程中机器人需要识别患者所诉“临床表现”、“疾病”、“药品”等关键信息,从而针对性的保存关键信息及给出话术。为实现上述逻辑,如图1所示,相关技术中的解决方案是:首先通过asr(自动语音识别技术,automatic speech recognition)将语音音频转录为文本,再使用抽取模型抽取转录文本中的重要信息得到变体文本,最终对变体文本进行标准化处理,得到该文本的规范表达。
3.在应用过程中,转录后的文本存在较严重的谐音、方言、多字、漏字等变体现象,特别是在专业领域中以及方言问题上,此类现象出现频率更高。目前,相关技术中通常基于字符编辑距离筛选得到与变体文本对应的规范文本,从而无法完全应对复杂多变的变体问题,具有规范化准确度低的问题。
4.针对上述的问题,目前尚未提出有效的解决方案。


技术实现要素:

5.本发明实施例提供了一种文本处理方法、装置、计算机可读存储介质及电子设备,以至少解决相关技术中对语音转录文本中的词语进行规范化时的规范化准确度低的技术问题。
6.根据本发明实施例的一个方面,提供了一种文本处理方法,包括:获取目标词语,其中,目标词语为从语音转录文本中抽取得到的词语;确定目标词语的拼音,并对拼音进行向量表示,得到目标向量;获取多个规范词语以及多个规范词语的拼音的向量,根据目标向量和多个规范词语的拼音的向量,从多个规范词语中筛选出至少一个候选词语;计算目标词语与每个候选词语的第一编辑距离,并根据第一编辑距离从至少一个候选词语中筛选出目标匹配词语,其中,目标匹配词语用于替换语音转录文本中的目标词语。
7.进一步地,文本处理方法还包括:对目标词语的拼音进行拆分,得到目标词语中每个字符的拼音;对每个字符的拼音分别进行特征提取,得到每个字符对应的特征向量;对每个字符的特征向量进行特征融合,得到目标向量。
8.进一步地,文本处理方法还包括:对于每个字符,对当前字符的拼音中的每个字母进行向量表示,得到每个字母的字母向量,并筛选出首字母匹配的字母向量;对每个字母的字母向量进行特征提取,得到当前字符的全字母特征向量;对当前字符的拼音进行向量表示,得到全拼音向量;拼接全字母特征向量、首字母匹配的字母向量以及全拼音向量,得到当前字符的特征向量。
9.进一步地,文本处理方法还包括:对于每个规范词语,对当前规范词语的拼音进行目标处理,得到当前规范词语匹配的正样本,其中,目标处理包括以下至少之一:删除、插入、替换;对于每个规范词语,从多个规范词语中随机采样除当前规范词语外的n个规范词语,得到当前规范词语匹配的负样本,其中,n为正整数;将每个规范词语以及该规范词语匹配的正样本和负样本作为一个训练样本,构建得到训练样本集;获取初始向量模型,并基于对比学习方式,根据损失函数和训练样本集训练初始向量模型,得到目标向量模型。
10.进一步地,文本处理方法还包括:获取多个方言-普通话平行对,其中,方言-普通话平行对中包括方言语句和普通话语句,方言语句和普通话语句分别由拼音组成;对于每个方言-普通话平行对,确定是否存在至少一个拼音共现对,其中,拼音共现对包括方言拼音和普通话拼音,方言拼音与普通话拼音为出现在当前方言-普通话平行对中的不同拼音,且方言拼音与普通话拼音没有出现在当前方言-普通话平行对中的同一个语句中;在多个方言-普通话平行对中存在拼音共现对的情况下,根据多个方言-普通话平行对的拼音共现对,将当前规范词语中的任意一个拼音替换为第一目标方言拼音,得到正样本,其中,任意一个拼音与第一目标方言拼音属于同一个拼音共现对。
11.进一步地,文本处理方法还包括:对于每个拼音共现对,统计多个方言-普通话平行对中该拼音共现对出现的次数;将次数大于预设阈值的拼音共现对确定为目标拼音共现对;根据目标拼音共现对,将当前规范词语中的任意一个拼音替换为第二目标方言拼音,得到正样本,其中,任意一个拼音与第二目标方言拼音属于同一个目标拼音共现对。
12.进一步地,文本处理方法还包括:获取多个普通话语句,并统计多个普通话语句中存在的拼音,得到拼音集合,其中,普通话语句由拼音组成;对拼音集合中的任意两个拼音进行组合,得到多个近似音拼音对;计算每个近似音拼音对中的拼音之间的第二编辑距离,并将每个第二编辑距离与预设编辑距离比较,得到每个近似音拼音对的比较结果;根据比较结果,将第二编辑距离小于预设编辑距离的近似音拼音对确定为目标近似音拼音对;根据目标近似音拼音对,将当前规范词语中的任意一个拼音替换为近似音拼音,得到正样本,其中,任意一个拼音与近似音拼音属于同一个目标近似音拼音对。
13.进一步地,文本处理方法还包括:对目标向量与每个规范词语的拼音的向量进行相似度计算,得到目标向量和每个规范词语的拼音的向量之间的相似度分数;从多个相似度分数中筛选出大于预设阈值的相似度分数,得到至少一个目标相似度分数;确定至少一个目标相似度分数匹配的规范词语为至少一个候选词语。
14.进一步地,文本处理方法还包括:计算目标词语的拼音与每个候选词语的拼音的编辑距离,得到第一子编辑距离;计算目标词语的字符与每个候选词语的字符的编辑距离,得到第二子编辑距离;计算第一子编辑距离和第二子编辑距离的和,得到第一编辑距离。
15.根据本发明实施例的另一方面,还提供了一种文本处理装置,包括:获取模块,用于获取目标词语,其中,目标词语为从语音转录文本中抽取得到的词语;确定模块,用于确定目标词语的拼音,并对拼音进行向量表示,得到目标向量;第一筛选模块,用于获取多个规范词语以及多个规范词语的拼音的向量,根据目标向量和多个规范词语的拼音的向量,从多个规范词语中筛选出至少一个候选词语;第二筛选模块,用于计算目标词语与每个候选词语的第一编辑距离,并根据第一编辑距离从至少一个候选词语中筛选出目标匹配词语,其中,目标匹配词语用于替换语音转录文本中的目标词语。
16.根据本发明实施例的另一方面,还提供了一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,其中,计算机程序被设置为运行时执行上述的文本处理方法。
17.根据本发明实施例的另一方面,还提供了一种电子设备,电子设备包括一个或多个处理器;存储器,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行时,使得一个或多个处理器实现用于运行程序,其中,程序被设置为运行时执行上述的文本处理方法。
18.在本发明实施例中,采用根据目标词语在拼音维度上的特征确定目标词语匹配的规范词语的方式,通过获取目标词语,然后确定目标词语的拼音,并对拼音进行向量表示,得到目标向量,接着获取多个规范词语以及多个规范词语的拼音的向量,根据目标向量和多个规范词语的拼音的向量,从多个规范词语中筛选出至少一个候选词语,从而计算目标词语与每个候选词语的第一编辑距离,并根据第一编辑距离从至少一个候选词语中筛选出目标匹配词语,其中,目标词语为从语音转录文本中抽取得到的词语,目标匹配词语用于替换语音转录文本中的目标词语。
19.容易注意到的是,在上述过程中,通过对目标词语的拼音进行向量表示,得到目标向量,实现了对目标词语在拼音维度上的特征的确定。进一步地,通过根据目标向量和多个规范词语的拼音的向量,从多个规范词语中筛选出至少一个候选词语,可以从规范词语中有效筛选出与目标词语的拼音相似的候选词语,从而避免了相关技术中基于语义向量进行候选词语的筛选造成的无法解决谐音、方言的问题,提高了对语音转录文本中的词语进行规范化时的规范化准确度。更进一步地,通过基于编辑距离从至少一个候选词语中筛选出目标匹配词语,实现了对目标匹配词语的有效确定,从而更进一步地提高了规范化准确度。
20.由此可见,本技术所提供的方案达到了对目标词语的拼音进行向量表示,根据得到的向量确定与目标词语匹配的规范词语的目的,从而实现了提高规范化准确度的技术效果,进而解决了相关技术中对语音转录文本中的词语进行规范化时的规范化准确度低的技术问题。
附图说明
21.此处所说明的附图用来提供对本发明的进一步理解,构成本技术的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:图1是一种可选的相关技术中的文本处理方法的示意图;图2是根据本发明实施例的一种可选的文本处理方法的示意图;图3是根据本发明实施例的一种可选的文本处理方法的流程图;图4是根据本发明实施例的一种可选的目标向量模型确定全字母特征向量的工作示意图;图5是根据本发明实施例的一种可选的目标向量模型确定目标向量的工作示意图;图6是根据本发明实施例的一种可选的目标向量模型的训练流程图;图7是根据本发明实施例的一种可选的文本处理装置的示意图;图8是根据本发明实施例的一种可选的电子设备的示意图。
实施方式
22.为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
23.需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例1
24.根据本发明实施例,提供了一种文本处理方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
25.本实施例中的文本处理方法可以应用于智能语音对话场景中,在智能语音对话场景中,对话过程中可以通过asr模块将实时语音流转录为文本信息,然后通过抽取模型得到关键信息词,之后,采用本实施例中的文本处理方法对关键信息词进行标准化(也即规范化)处理,得到关键信息词对应的规范词,从而可以将关键信息词替换为对应的规范词,以便于进行话术推送及要点保存。
26.图2是根据本发明实施例的一种可选的文本处理方法的示意图,如图2所示,该方法包括如下步骤:步骤s201,获取目标词语,其中,目标词语为从语音转录文本中抽取得到的词语。
27.可选的,可以通过电子设备、应用系统、服务器等装置获取目标词语。在本实施例中,为方便说明,定义一个目标系统,将目标系统作为执行文本处理方法的主体,通过目标系统获取目标词语。其中,目标词语为待标准化(也即规范化)的词语,相当于前述的关键信息词,也相当于变体文本。
28.步骤s202,确定目标词语的拼音,并对拼音进行向量表示,得到目标向量。
29.在步骤s202中,目标系统可以将目标词语转化为拼音,然后对该拼音进行向量化处理。图3是根据本发明实施例的一种可选的文本处理方法的流程图,如图3所示,在向量化处理过程中,目标系统可以使用预先训练好的目标向量模型对目标词语的拼音进行拼音向量化,以实现对目标词语的拼音的向量表示,从而得到目标向量。
30.需要说明的是,通过对目标词语的拼音进行向量表示,得到目标向量,实现了对目标词语在拼音维度上的特征的确定。
31.步骤s203,获取多个规范词语以及多个规范词语的拼音的向量,根据目标向量和
多个规范词语的拼音的向量,从多个规范词语中筛选出至少一个候选词语。
32.可选的,多个规范词语以及多个规范词语的拼音的向量存储在一预先构建好的规范词向量索引库中。在构建规范词向量索引库的过程中,规范词语可以是工作人员预先设置的。进一步地,目标系统可以将每个规范词语转化为拼音,然后如图3所示,利用前述的预先训练好的目标向量模型对规范词语的拼音进行向量化处理,从而得到规范词语的拼音的向量,所有的规范词语的拼音的向量,共同构成规范词向量索引库。
33.在步骤s203中,如图3所示,目标系统可以利用目标向量对规范词向量索引库中规范词语的拼音的向量进行候选词语召回,具体步骤为进行相似向量召回,获取与目标向量相似的规范词语的拼音的向量的排序集合,然后从排序集合中选取前z个向量对应的规范词语分别作为候选词语,其中,z为大于0的正整数。
34.需要说明的是,根据目标向量和多个规范词语的拼音的向量,从多个规范词语中筛选出至少一个候选词语,可以从规范词语中有效筛选出与目标词语的拼音相似的候选词语,从而可以有效解决谐音、方言问题,进而提高对语音转录文本中的词语进行规范化时的规范化准确度。
35.步骤s204,计算目标词语与每个候选词语的第一编辑距离,并根据第一编辑距离从至少一个候选词语中筛选出目标匹配词语,其中,目标匹配词语用于替换语音转录文本中的目标词语。
36.在步骤s204中,当筛选出了至少一个候选词语后,如图3所示,目标系统可以计算目标词语与每个候选词语在拼音上的编辑距离,得到第一编辑距离,可选的,目标系统也可以计算目标词语与每个候选词语在字符上的编辑距离,得到第一编辑距离,可选的,目标系统还可以计算目标词语与每个候选词语在拼音和字符上的编辑距离,得到第一编辑距离。
37.进一步地,当确定了目标词语与每个候选词语的第一编辑距离之后,目标系统可以将与目标词语之间编辑距离最小的候选词语确定为如图3所示的目标匹配词语。
38.需要说明的是,通过在确定规范词语之后,根据编辑距离确定与目标词语最匹配的目标匹配词语,实现了对目标匹配词语的有效确定。
39.基于上述步骤s201至步骤s204所限定的方案,可以获知,在本发明实施例中,采用根据目标词语在拼音维度上的特征确定目标词语匹配的规范词语的方式,通过获取目标词语,然后确定目标词语的拼音,并对拼音进行向量表示,得到目标向量,接着获取多个规范词语以及多个规范词语的拼音的向量,根据目标向量和多个规范词语的拼音的向量,从多个规范词语中筛选出至少一个候选词语,从而计算目标词语与每个候选词语的第一编辑距离,并根据第一编辑距离从至少一个候选词语中筛选出目标匹配词语,其中,目标词语为从语音转录文本中抽取得到的词语,目标匹配词语用于替换语音转录文本中的目标词语。
40.容易注意到的是,在上述过程中,通过对目标词语的拼音进行向量表示,得到目标向量,实现了对目标词语在拼音维度上的特征的确定。进一步地,通过根据目标向量和多个规范词语的拼音的向量,从多个规范词语中筛选出至少一个候选词语,可以从规范词语中有效筛选出与目标词语的拼音相似的候选词语,从而避免了相关技术中基于语义向量进行候选词语的筛选造成的无法解决谐音、方言的问题,提高了对语音转录文本中的词语进行规范化时的规范化准确度。更进一步地,通过基于编辑距离从至少一个候选词语中筛选出目标匹配词语,实现了对目标匹配词语的有效确定,从而更进一步地提高了规范化准确度。
41.由此可见,本技术所提供的方案达到了对目标词语的拼音进行向量表示,根据得到的向量确定与目标词语匹配的规范词语的目的,从而实现了提高规范化准确度的技术效果,进而解决了相关技术中对语音转录文本中的词语进行规范化时的规范化准确度低的技术问题。
42.在一种可选的实施例中,在对拼音进行向量表示,得到目标向量的过程中,目标系统可以对目标词语的拼音进行拆分,得到目标词语中每个字符的拼音,然后对每个字符的拼音分别进行特征提取,得到每个字符对应的特征向量,接着对每个字符的特征向量进行特征融合,得到目标向量。
43.可选的,在本实施例中,目标系统通过前述的预先训练好的目标向量模型对拼音进行向量表示。具体地,目标系统先对目标词语的拼音进行拆分,得到所述目标词语中每个字符的拼音。例如,对“外周血栓”的拼音“waizhouxueshuan”进行拆分,得到字符“外”的拼音“wai”、字符“周”的拼音“zhou”、字符“血”的拼音“xue”,字符“栓”的拼音“shuan”。之后,目标系统可以将每个字符的拼音一同输入至目标向量模型,以对每个字符的拼音分别进行特征提取,得到每个字符对应的特征向量。其中,目标向量模型设计了独特的编码器(encoder)结构以建模拼音特征,该结构从全拼音、首字母、全字母三个角度混合建模,来提取每个字符对应的特征向量,图4是根据本发明实施例的一种可选的目标向量模型确定全字母特征向量的工作示意图,用于提取全字母特征向量如图4所示,该结构结合卷积神经网络层(cnn)、池化(pooling)层、随机失活(dropout)层以提高模型鲁棒性与泛化性。
44.进一步地,图5是根据本发明实施例的一种可选的目标向量模型确定目标向量的工作示意图,如图5所示,在得到每个字符的特征向量之后,目标向量模型将每个字符的特征向量(即图5中的x1、x2、x3、x4)送入随机失活(dropout)层和长短期记忆人工神经网络(lstm)层序列建模,之后依次经卷积神经网络层(cnn)、池化(pooling)层、随机失活(dropout)层和全连接(dense)层进行处理,从而得到最终的目标向量。
45.需要说明的是,通过对目标词语中每个字符的拼音分别进行特征提取,实现了对目标词语中各个字符在拼音维度上的特征的有效确定,进而提高了得到目标词语的目标向量的准确性。
46.在一种可选的实施例中,在对每个字符的拼音分别进行特征提取,得到每个字符对应的特征向量的过程中,对于每个字符,目标系统可以对当前字符的拼音中的每个字母进行向量表示,得到每个字母的字母向量,并筛选出首字母匹配的字母向量,然后对每个字母的字母向量进行特征提取,得到当前字符的全字母特征向量,接着对当前字符的拼音进行向量表示,得到全拼音向量,从而拼接全字母特征向量、首字母匹配的字母向量以及全拼音向量,得到当前字符的特征向量。
47.可选的,在本实施例中,对于每个字符及该字符的拼音中的字母,可以表示为xi(c1,c2,c3,...cn),其中,xi表示第i个字符,c
1-cn为xi的拼音所包含的拼音字母,例如,

周’(

z’,

h’,

o’,

u’)。
48.可选的,对于每个字符,目标向量模型可以对当前字符的拼音中的每个字母先进行向量表示,得到每个字母的字母向量,然后送入如图4中所示的随机失活(dropout)层,再依次经过如图4中所示的经卷积神经网络层(cnn)、池化(pooling)层、随机失活(dropout)层和全连接(dense)层进行处理,从而得到该当前字符的唯一的全字母特征向量[z,h,o,
u]。可选的,在得到当前字符的每个字母的字母向量后,目标向量模型可以从中筛选出首字母匹配的字母向量,例如,对于

周’(

z’,

h’,

o’,

u’),z为首字母。可选的,目标向量模型还可以将当前字符的整体拼音进行向量表示,即对“zhou”进行向量表示,从而得到全拼音向量。
[0049]
进一步地,目标向量模型可以将得到的全字母特征向量、首字母匹配的字母向量以及全拼音向量进行拼接,从而得到当前字符的特征向量

周’([z,h,o,u], z,zhou)。
[0050]
再进一步地,若目标词语为“外周血栓”,则目标向量在得到其中每个字符的特征向量后,如图5所示,将
“‘
x1:外’([w,a,i],w,wai),

x2:周’([z,h,o,u],z,zhou),

x3:血’([x,u,e],x,xue),

x4:栓’([s,h,u,a,n],s,shuan)”送入随机失活(dropout)层和长短期记忆人工神经网络(lstm)层序列建模,然后依次经卷积神经网络层(cnn)、池化(pooling)层、随机失活(dropout)层和全连接(dense)层进行处理,从而得到最终的目标向量。
[0051]
需要说明的是,通过设计基于多角度(全拼音、首字母、全字母)的目标向量模型,有效提高了模型鲁棒性与泛化性,从而便于更进一步地提高对目标词语的规范化准确性。
[0052]
在一种可选的实施例中,通过目标向量模型对拼音进行向量表示,得到目标向量,其中,目标向量模型通过以下方法训练得到:对于每个规范词语,目标系统可以对当前规范词语的拼音进行目标处理,得到当前规范词语匹配的正样本,然后从多个规范词语中随机采样除当前规范词语外的n个规范词语,得到当前规范词语匹配的负样本,接着将每个规范词语以及该规范词语匹配的正样本和负样本作为一个训练样本,构建得到训练样本集,然后获取初始向量模型,并基于对比学习方式,根据损失函数和训练样本集训练初始向量模型,得到目标向量模型。其中,目标处理包括以下至少之一:删除、插入、替换,n为正整数。
[0053]
可选的,图6是根据本发明实施例的一种可选的目标向量模型的训练流程图,如图6所示,在构建训练样本集的过程中,目标系统可以对当前规范词语的拼音从字级别和词级别方向进行处理,以得到当前规范词语匹配的正样本。具体地,在字级别,目标系统可以将当前规范词语的某一个字符的拼音进行随机取首字母、[头



尾]随机插入字母、随机取子拼音串、随机删除字母等处理。其中,举例说明,若目标词语为“外周血栓”,则在进行随机取首字母处理后,得到的拼音可以是“waizxueshuan”,其中,只取了“zhou”中的首字母“z”;在随机插入字母处理后,得到拼音可以是“waizhouxueshuang”,其中,在尾部加了字母“g”;在进行随机取子拼音串处理后,得到的拼音可以是“waizhouxueshu”,其中,取了“an”的子拼音串;在随机删除字母处理后,得到的拼音可以是“waizhouxuanshua”,其中,去掉了字母“n”。需要说明的是,将当前规范词语的某一个字符的拼音进行随机取首字母、[头



尾]随机插入字母,可以使正负样本构建时,解决缺、多字问题,采用随机取子拼音串、随机删除字母的处理,可以使正负样本构建时,兼顾谐音和方言。
[0054]
可选的,在词级别,目标系统可以将当前规范词语的某一个字符的拼音进行全部删除或者随机添加拼音替换,可选的,其也可以根据预先构建好的方言对照表或谐音对照表对某一个字符的拼音进行替换。其中,举例说明,若目标词语为“外周血栓”,则在对某一个字符的拼音进行全部删除后,得到的拼音可以是“waizhoushuan”,其中,删除了字符“血”的拼音“xue”;在对某一个字符的拼音进行随机添加拼音替换后,得到的拼音可以是“waiguoxieshuan”,其中,将字符“周”的拼音“zhou”替换为“guo”。其中,在本实施例中,对规范词语进行的处理可以是字级别和词级别分别各采用一种处理方式,也可以是分别采用
多种处理方式,且对一个规范词语仅构建一个正样本。需要说明的,通过在词级别进行随机删除拼音、随机添加拼音替换,可以使正负样本构建时,兼顾谐音和方言。
[0055]
可选的,如图6所示,在构建训练样本集的过程中,目标系统可以从多个规范词语中随机采样除当前规范词语外的n个规范词语,从而得到当前规范词语匹配的多个负样本。更进一步地,在得到每个规范词语对应的正样本和负样本后,目标系统可以将每个规范词语以及该规范词语匹配的正样本和负样本作为一个训练样本,从而构建得到训练样本集。
[0056]
之后,如图6所示,目标系统可以构建一个初始向量模型,然后基于对比学习框架,将锚点样本(相当于规范词语)与正样本构成正样本对,将锚点样本与该负样本构成负样本对,然后把多个锚点样本及其正负样本送入初始向量模型,通过前述的编码器(encoder)结构获得各个样本的表示向量,再把表示向量通过对比损失进行训练。在训练过程中,构造损失函数使得锚点样本的向量和正样本的向量拉近,锚点样本的向量和负样本的向量拉远,从而在训练完成后,得到图6中示出的有效的目标向量模型。
[0057]
需要说明的是,由于目标处理包括以下至少之一:删除、插入、替换,因此,通过对当前规范词语进行目标处理以得到正样本,因此,一方面,实现了兼顾缺字及多字的对比样本的构造方式,解决了语音转录中常见的漏字重复问题,另一方面,实现了兼顾谐音和方言的对比样本构造方式,解决了语音转录中常见的谐音字和方言识别效果差问题。
[0058]
在一种可选的实施例中,在目标处理为替换的情况下,在对当前规范词语的拼音进行目标处理,得到当前规范词语匹配的正样本的过程中,目标系统可以获取多个方言-普通话平行对,然后对于每个方言-普通话平行对,确定是否存在至少一个拼音共现对,从而在多个方言-普通话平行对中存在拼音共现对的情况下,根据多个方言-普通话平行对的拼音共现对,将当前规范词语中的任意一个拼音替换为第一目标方言拼音,得到正样本。其中,方言-普通话平行对中包括方言语句和普通话语句,方言语句和普通话语句分别由拼音组成,拼音共现对包括方言拼音和普通话拼音,方言拼音与普通话拼音为出现在当前方言-普通话平行对中的不同拼音,且方言拼音与普通话拼音没有出现在当前方言-普通话平行对中的同一个语句中,任意一个拼音与第一目标方言拼音属于同一个拼音共现对。
[0059]
可选的,在构建正样本的过程中,可以预先构建方言对照表,然后通过方言对照表实现前述的词级别的处理。具体地,目标系统首先可以获取方言-普通话平行语料fp(f
1-p1,f
2-p2,f
3-p3,...,f
i-pi),其中,f
i-pi表示第i个方言-普通话平行对,方言语句fi由句子中每个字符的拼音fw1,fw2,fw3,...,fwn组成,fwn表示该方言语句中第n个字符的拼音,普通话语句pi由句子中每个字符的拼音pw1,pw2,pw3,...,pwn组成,pwn表示该普通话语句中第n个字符的拼音。
[0060]
进一步地,对于每个方言-普通话平行对,确定是否存在至少一个拼音共现对,例如,若方言-普通话平行对为“zheshinidezidian—zheshinigezidian”,其中普通话语句为字符句“这是你的字典”的拼音句“zheshinidezidian”,方言语句为字符句“这是你葛字典”的拼音句“zheshinigeziduan”,“de”和“ge”不同且没有出现在这个方言-普通话平行对的同一个语句中,因此,可以确定方言语句中的“ge”为拼音共现对中的方言拼音,普通话语句中的“de”为拼音共现对中的普通话拼音。
[0061]
可选的,目标系统可以遍历方言-普通话平行语料fp,确定在多个方言-普通话平行对中是否存在拼音共现对,并在多个方言-普通话平行对中存在拼音共现对的情况下,将
所有方言-普通话平行对中所能够组成的拼音共现对加入方言对照表。之后,目标系统可以从当前规范词语中任意选取一个待替换的拼音,然后从得到的多个拼音共现对中选出包括该待替换的拼音的拼音共现对,该拼音共现对中除待替换的拼音外的拼音确定为第一目标方言拼音,从而进行替换处理,得到正样本。可选的,目标系统也可以根据拼音共现对的出现次数确定最后用于替换处理的拼音共现对。
[0062]
需要说明的是,通过构建方言对照表,并基于方言对照表构建规范词语的正样本,使得训练得到的目标向量模型可以有效识别方言词汇,并输出准确的向量表示,进而可以提高本技术的规范化准确性。
[0063]
在一种可选的实施例中,在根据多个方言-普通话平行对的拼音共现对,将当前规范词语中的任意一个拼音替换为第一目标方言拼音,得到正样本的过程中,对于每个拼音共现对,目标系统可以统计多个方言-普通话平行对中该拼音共现对出现的次数,然后将次数大于预设阈值的拼音共现对确定为目标拼音共现对,从而根据目标拼音共现对,将当前规范词语中的任意一个拼音替换为第二目标方言拼音,得到正样本,其中,任意一个拼音与第二目标方言拼音属于同一个目标拼音共现对。
[0064]
可选的,目标系统可以在遍历方言-普通话平行语料fp的过程中,同时统计每个拼音共现对的出现次数,然后将拼音共现对的出现次数作为元素值,构建拼音共现矩阵。
[0065]
更进一步地,目标系统可以基于拼音共现矩阵,筛选得到出现次数大于预设阈值的拼音共现对,将其作为目标拼音共现对,并仅将目标拼音共现对加入方言对照表。之后,目标系统可以根据目标拼音共现对对当前规范词语进行替换处理,其中,根据目标拼音共现对对当前规范词语进行替换处理的方法与根据拼音共现对对当前规范词语进行替换处理的方法相同,故此处不再赘述。
[0066]
需要说明的是,通过对得到拼音共现对进行进一步地筛选,保证了方言对照表的有效性,从而更进一步地提高了目标向量模型对方言识别的准确性。
[0067]
在一种可选的实施例中,在目标处理为替换的情况下,在对当前规范词语的拼音进行目标处理,得到当前规范词语匹配的正样本的过程中,目标系统可以获取多个普通话语句,并统计多个普通话语句中存在的拼音,得到拼音集合,然后对拼音集合中的任意两个拼音进行组合,得到多个近似音拼音对,接着计算每个近似音拼音对中的拼音之间的第二编辑距离,并将每个第二编辑距离与预设编辑距离比较,得到每个近似音拼音对的比较结果,然后根据比较结果,将第二编辑距离小于预设编辑距离的近似音拼音对确定为目标近似音拼音对,从而根据目标近似音拼音对,将当前规范词语中的任意一个拼音替换为近似音拼音,得到正样本,其中,任意一个拼音与近似音拼音属于同一个目标近似音拼音对。其中,普通话语句由拼音组成。
[0068]
可选的,在构建正样本的过程中,可以预先构建谐音对照表,然后通过谐音对照表实现前述的词级别的处理,其中,在本实施例中,谐音表示发音相近的拼音,即近似音。具体地,目标系统首先可以获取普通话语句集合p(p1,p2,p3,...pi),其中,普通话语句pi由句子中每个字符的拼音pw1,pw2,pw3,...,pwn组成,pwn表示该普通话语句中第n个字符的拼音。
[0069]
之后,目标系统可以统计多个普通话语句中存在的拼音,得到拼音集合w(w1,w2,w3,...w
x
)。其中,w
x
表示拼音集合中的第x个拼音,且拼音集合中的每个拼音均不相同,例如,若普通话语句集合中包括p1‑“
ni de”和p2‑“
nihao”,则拼音集合为(ni,de,hao)。
[0070]
更进一步地,目标系统可以对拼音集合中的任意两个拼音进行组合,得到多个近似音拼音对,例如,对于前述的拼音集合(ni,de,hao),可以得到近似音拼音对“(ni,hao)”、“(ni,de)”和“(hao,de)”。之后,目标系统可以计算每个近似音拼音对中的两个拼音之间的第二编辑距离,从而将第二编辑距离小于预设编辑距离的近似音拼音对确定为目标近似音拼音对,并将目标近似音拼音对加入谐音对照表。之后,目标系统可以根据目标近似音拼音对对当前规范词语进行替换处理。其中,根据目标近似音拼音对对当前规范词语进行替换处理的方法与根据拼音共现对对当前规范词语进行替换处理的方法相同,故此处不再赘述。
[0071]
需要说明的是,通过构建谐音对照表,并基于谐音对照表构建规范词语的正样本,使得训练得到的目标向量模型可以有效识别谐音词汇,并输出准确的向量表示,进而可以提高本技术的规范化准确性。
[0072]
在一种可选的实施例中,在根据目标向量和多个规范词语的拼音的向量,从多个规范词语中筛选出至少一个候选词语的过程中,目标系统可以对目标向量与每个规范词语的拼音的向量进行相似度计算,得到目标向量和每个规范词语的拼音的向量之间的相似度分数,然后从多个相似度分数中筛选出大于预设阈值的相似度分数,得到至少一个目标相似度分数,从而确定至少一个目标相似度分数匹配的规范词语为至少一个候选词语。
[0073]
可选的,在确定候选词语的过程中,目标系统可以将目标向量与每个规范词语的拼音的向量进行两两点乘相似度计算。其中,由于采用向量计算相似度,因此,可以通过矩阵运算加速计算,即一次性计算目标向量与整个规范词向量索引库中的向量的相似度分数。
[0074]
之后,目标系统可以对各个相似度分数进行排序,然后从中选出大于预设阈值的相似度分数,得到至少一个目标相似度分数。其中,可以将固定值确定为预设阈值,也可以将排序中第z个相似度分数确定为预设阈值。
[0075]
更进一步地,目标系统可以将至少一个目标相似度分数匹配的规范词语确定为至少一个候选词语。
[0076]
.需要说明的是,通过采用向量索引,避免了相关技术中基于文字/拼音倒排索引召回存在的倒排拉链过长、时间复杂度仍高的问题,从而可以加速召回速度,降低整体时间复杂度。此外,通过根据相似度分数筛选得到候选词,有效减少了确定目标匹配词语的过程中的计算量,从而提高了工作效率。
[0077]
在一种可选的实施例中,在计算目标词语与每个候选词语的第一编辑距离的过程中,目标系统可以计算目标词语的拼音与每个候选词语的拼音的编辑距离,得到第一子编辑距离,然后计算目标词语的字符与每个候选词语的字符的编辑距离,得到第二子编辑距离,从而计算第一子编辑距离和第二子编辑距离的和,得到第一编辑距离。
[0078]
例如,若目标词语为“我的”,某一规范词语为“你的”,则该目标词语的字符与该规范词语的字符的编辑距离为1,该目标词语的拼音“wo de”与该规范词语的拼音“ni de”的编辑距离为2,由此,确定该目标词语与该规范词语的第一编辑距离为3。
[0079]
更进一步地,目标系统可以将与目标词语编辑距离最小的规范词语确定为目标匹配词语。
[0080]
需要说明的是,通过从字符和拼音两个维度确定编辑距离,丰富了编辑距离的参
考维度,从而能够更准确的确定目标匹配词语。
[0081]
可选的,对本技术在医疗场景下的一种应用进行示例性说明。其中,医疗随访机器人与患者的对话转录如下所示:机器:您好,我这边是xxx医院随访专员xxx,现在想对您进行一下随访工作占用您几分钟时间,您是本人吗?患者:嗯是,我是。
[0082]
机器:请问您最近降压药有在吃吧?患者:您说是酱血鸭吗?那个有在吃,还吃了点别的药,那个挨踢洛尔也吃着呢。
[0083]
机器:好的,关于您的情况我这里记下了,后续如果有问题可以再拨打护士服务站电话xxx。感谢您的配合,祝您身体健康,再见~可选的,本实施例提供的文本处理方法可以将上述的“酱血鸭”转换为“降血压”,将上述的“挨踢洛尔”转换为“阿替洛尔”,从而方便机器人后台根据标准信息进行逻辑判断和药品记录。
[0084]
可选的,对本技术在餐饮场景下的一种应用进行示例性说明。其中,订餐机器人与客人的对话转录如下所示:机器:欢迎致电xxx餐馆订餐热线,我是本次的服务员xxx。很高兴为您服务!客人:我想定一下腼腆下午三点半的食人间。
[0085]
机器:好的这里已经给您订好了,请问还有什么可以帮到您的吗?客人:没有了。
[0086]
机器:好嘞,感谢您对本餐厅的信任,祝您用餐愉快再见~可选的,本实施例提供的文本处理方法可以将上述的“腼腆”转换为“明天”,将上述的“食人”转换为“十人”,从而方便机器人后台根据标准信息进行逻辑判断和记录时间以及人数。
[0087]
由此可见,本技术所提供的方案达到了对目标词语的拼音进行向量表示,根据得到的向量确定与目标词语匹配的规范词语的目的,从而实现了提高规范化准确度的技术效果,进而解决了相关技术中对语音转录文本中的词语进行规范化时的规范化准确度低的技术问题。
实施例2
[0088]
根据本发明实施例,提供了一种文本处理装置的实施例,其中,图7是根据本发明实施例的一种可选的文本处理装置的示意图,如图7所示,该装置包括:获取模块701,用于获取目标词语,其中,目标词语为从语音转录文本中抽取得到的词语;确定模块702,用于确定目标词语的拼音,并对拼音进行向量表示,得到目标向量;第一筛选模块703,用于获取多个规范词语以及多个规范词语的拼音的向量,根据目标向量和多个规范词语的拼音的向量,从多个规范词语中筛选出至少一个候选词语;第二筛选模块704,用于计算目标词语与每个候选词语的第一编辑距离,并根据第一编辑距离从至少一个候选词语中筛选出目标匹配词语,其中,目标匹配词语用于替换语音转录文本中的目标词语。
[0089]
需要说明的是,上述获取模块701、确定模块702、第一筛选模块703以及第二筛选模块704对应于上述实施例中的步骤s201至步骤s204,四个模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例1所公开的内容。
[0090]
可选的,确定模块702还包括:拆分子模块,用于对目标词语的拼音进行拆分,得到目标词语中每个字符的拼音;特征提取子模块,用于对每个字符的拼音分别进行特征提取,得到每个字符对应的特征向量;特征融合子模块,用于对每个字符的特征向量进行特征融合,得到目标向量。
[0091]
可选的,特征提取子模块还包括:筛选单元,用于对于每个字符,对当前字符的拼音中的每个字母进行向量表示,得到每个字母的字母向量,并筛选出首字母匹配的字母向量;特征提取单元,用于对每个字母的字母向量进行特征提取,得到当前字符的全字母特征向量;向量表示单元,用于对当前字符的拼音进行向量表示,得到全拼音向量;拼接单元,用于拼接全字母特征向量、首字母匹配的字母向量以及全拼音向量,得到当前字符的特征向量。
[0092]
可选的,文本处理装置还包括:第一处理模块,用于对于每个规范词语,对当前规范词语的拼音进行目标处理,得到当前规范词语匹配的正样本,其中,目标处理包括以下至少之一:删除、插入、替换;第二处理模块,用于对于每个规范词语,从多个规范词语中随机采样除当前规范词语外的n个规范词语,得到当前规范词语匹配的负样本,其中,n为正整数;构建模块,用于将每个规范词语以及该规范词语匹配的正样本和负样本作为一个训练样本,构建得到训练样本集;训练模块,用于获取初始向量模型,并基于对比学习方式,根据损失函数和训练样本集训练初始向量模型,得到目标向量模型。
[0093]
可选的,第一处理模块还包括:第一获取子模块,用于获取多个方言-普通话平行对,其中,方言-普通话平行对中包括方言语句和普通话语句,方言语句和普通话语句分别由拼音组成;第一确定子模块,用于对于每个方言-普通话平行对,确定是否存在至少一个拼音共现对,其中,拼音共现对包括方言拼音和普通话拼音,方言拼音与普通话拼音为出现在当前方言-普通话平行对中的不同拼音,且方言拼音与普通话拼音没有出现在当前方言-普通话平行对中的同一个语句中;第一处理子模块,用于多个方言-普通话平行对中存在拼音共现对的情况下,根据多个方言-普通话平行对的拼音共现对,将当前规范词语中的任意一个拼音替换为第一目标方言拼音,得到正样本,其中,任意一个拼音与第一目标方言拼音属于同一个拼音共现对。
[0094]
可选的,第二处理子模块还包括:统计单元,用于对于每个拼音共现对,统计多个方言-普通话平行对中该拼音共现对出现的次数;确定单元,用于将次数大于预设阈值的拼音共现对确定为目标拼音共现对;处理单元,用于根据目标拼音共现对,将当前规范词语中的任意一个拼音替换为第二目标方言拼音,得到正样本,其中,任意一个拼音与第二目标方言拼音属于同一个目标拼音共现对。
[0095]
可选的,第一处理模块还包括:第二获取子模块,用于获取多个普通话语句,并统计多个普通话语句中存在的拼音,得到拼音集合,其中,普通话语句由拼音组成;第二处理子模块,用于对拼音集合中的任意两个拼音进行组合,得到多个近似音拼音对;第一计算子模块,用于计算每个近似音拼音对中的拼音之间的第二编辑距离,并将每个第二编辑距离与预设编辑距离比较,得到每个近似音拼音对的比较结果;第二确定子模块,用于根据比较
结果,将第二编辑距离小于预设编辑距离的近似音拼音对确定为目标近似音拼音对;第三处理子模块,用于根据目标近似音拼音对,将当前规范词语中的任意一个拼音替换为近似音拼音,得到正样本,其中,任意一个拼音与近似音拼音属于同一个目标近似音拼音对。
[0096]
可选的,第一筛选模块还包括:第二计算子模块,用于对目标向量与每个规范词语的拼音的向量进行相似度计算,得到目标向量和每个规范词语的拼音的向量之间的相似度分数;筛选子模块,用于从多个相似度分数中筛选出大于预设阈值的相似度分数,得到至少一个目标相似度分数;第三确定子模块,用于确定至少一个目标相似度分数匹配的规范词语为至少一个候选词语。
[0097]
可选的,第二筛选模块还包括:第三计算子模块,用于计算目标词语的拼音与每个候选词语的拼音的编辑距离,得到第一子编辑距离;第四计算子模块,用于计算目标词语的字符与每个候选词语的字符的编辑距离,得到第二子编辑距离;第五计算子模块,用于计算第一子编辑距离和第二子编辑距离的和,得到第一编辑距离。
实施例3
[0098]
根据本发明实施例的另一方面,还提供了计算机可读存储介质,计算机可读存储介质中存储有计算机程序,其中,计算机程序被设置为运行时执行上述的文本处理方法。
实施例4
[0099]
根据本发明实施例的另一方面,还提供了一种电子设备,其中,图8是根据本发明实施例的一种可选的电子设备的示意图,如图8所示,电子设备包括一个或多个处理器;存储器,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行时,使得一个或多个处理器实现用于运行程序,其中,程序被设置为运行时执行上述的文本处理方法。
[0100]
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
[0101]
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
[0102]
在本技术所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
[0103]
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0104]
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
[0105]
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者
说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:u盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
[0106]
以上仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

技术特征:
1.一种文本处理方法,其特征在于,包括:获取目标词语,其中,所述目标词语为从语音转录文本中抽取得到的词语;确定所述目标词语的拼音,并对所述拼音进行向量表示,得到目标向量;获取多个规范词语以及所述多个规范词语的拼音的向量,根据所述目标向量和所述多个规范词语的拼音的向量,从所述多个规范词语中筛选出至少一个候选词语;计算所述目标词语与每个候选词语的第一编辑距离,并根据所述第一编辑距离从所述至少一个候选词语中筛选出目标匹配词语,其中,所述目标匹配词语用于替换所述语音转录文本中的目标词语。2.根据权利要求1所述的方法,其特征在于,对所述拼音进行向量表示,得到目标向量,包括:对所述目标词语的拼音进行拆分,得到所述目标词语中每个字符的拼音;对所述每个字符的拼音分别进行特征提取,得到所述每个字符对应的特征向量;对所述每个字符的特征向量进行特征融合,得到所述目标向量。3.根据权利要求2所述的方法,其特征在于,对所述每个字符的拼音分别进行特征提取,得到所述每个字符对应的特征向量,包括:对于所述每个字符,对当前字符的拼音中的每个字母进行向量表示,得到每个字母的字母向量,并筛选出首字母匹配的字母向量;对每个字母的字母向量进行特征提取,得到所述当前字符的全字母特征向量;对所述当前字符的拼音进行向量表示,得到全拼音向量;拼接所述全字母特征向量、所述首字母匹配的字母向量以及所述全拼音向量,得到所述当前字符的特征向量。4.根据权利要求1至3中任一项所述的方法,其特征在于,通过目标向量模型对所述拼音进行向量表示,得到所述目标向量,其中,所述目标向量模型通过以下方法训练得到:对于每个规范词语,对当前规范词语的拼音进行目标处理,得到所述当前规范词语匹配的正样本,其中,所述目标处理包括以下至少之一:删除、插入、替换;对于每个规范词语,从所述多个规范词语中随机采样除所述当前规范词语外的n个规范词语,得到所述当前规范词语匹配的负样本,其中,n为正整数;将每个规范词语以及该规范词语匹配的正样本和负样本作为一个训练样本,构建得到训练样本集;获取初始向量模型,并基于对比学习方式,根据损失函数和所述训练样本集训练所述初始向量模型,得到所述目标向量模型。5.根据权利要求4所述的方法,其特征在于,在所述目标处理为替换的情况下,对当前规范词语的拼音进行目标处理,得到所述当前规范词语匹配的正样本,包括:获取多个方言-普通话平行对,其中,所述方言-普通话平行对中包括方言语句和普通话语句,所述方言语句和所述普通话语句分别由拼音组成;对于每个方言-普通话平行对,确定是否存在至少一个拼音共现对,其中,所述拼音共现对包括方言拼音和普通话拼音,所述方言拼音与所述普通话拼音为出现在当前方言-普通话平行对中的不同拼音,且所述方言拼音与所述普通话拼音没有出现在所述当前方言-普通话平行对中的同一个语句中;
在所述多个方言-普通话平行对中存在拼音共现对的情况下,根据所述多个方言-普通话平行对的拼音共现对,将所述当前规范词语中的任意一个拼音替换为第一目标方言拼音,得到所述正样本,其中,所述任意一个拼音与所述第一目标方言拼音属于同一个拼音共现对。6.根据权利要求5所述的方法,其特征在于,根据所述多个方言-普通话平行对的拼音共现对,将所述当前规范词语中的任意一个拼音替换为第一目标方言拼音,得到所述正样本,包括:对于每个拼音共现对,统计所述多个方言-普通话平行对中该拼音共现对出现的次数;将所述次数大于预设阈值的拼音共现对确定为目标拼音共现对;根据所述目标拼音共现对,将所述当前规范词语中的任意一个拼音替换为第二目标方言拼音,得到所述正样本,其中,所述任意一个拼音与所述第二目标方言拼音属于同一个目标拼音共现对。7.根据权利要求4所述的方法,其特征在于,在所述目标处理为替换的情况下,对当前规范词语的拼音进行目标处理,得到所述当前规范词语匹配的正样本,包括:获取多个普通话语句,并统计所述多个普通话语句中存在的拼音,得到拼音集合,其中,所述普通话语句由拼音组成;对所述拼音集合中的任意两个拼音进行组合,得到多个近似音拼音对;计算每个近似音拼音对中的拼音之间的第二编辑距离,并将每个第二编辑距离与预设编辑距离比较,得到所述每个近似音拼音对的比较结果;根据所述比较结果,将所述第二编辑距离小于所述预设编辑距离的近似音拼音对确定为目标近似音拼音对;根据目标近似音拼音对,将所述当前规范词语中的任意一个拼音替换为近似音拼音,得到所述正样本,其中,所述任意一个拼音与所述近似音拼音属于同一个目标近似音拼音对。8.根据权利要求1所述的方法,其特征在于,根据所述目标向量和所述多个规范词语的拼音的向量,从所述多个规范词语中筛选出至少一个候选词语,包括:对所述目标向量与每个规范词语的拼音的向量进行相似度计算,得到所述目标向量和所述每个规范词语的拼音的向量之间的相似度分数;从多个相似度分数中筛选出大于预设阈值的相似度分数,得到至少一个目标相似度分数;确定所述至少一个目标相似度分数匹配的规范词语为所述至少一个候选词语。9.根据权利要求1所述的方法,其特征在于,计算所述目标词语与每个候选词语的第一编辑距离,包括:计算所述目标词语的拼音与每个候选词语的拼音的编辑距离,得到第一子编辑距离;计算所述目标词语的字符与每个候选词语的字符的编辑距离,得到第二子编辑距离;计算所述第一子编辑距离和所述第二子编辑距离的和,得到所述第一编辑距离。10.一种文本处理装置,其特征在于,包括:获取模块,用于获取目标词语,其中,所述目标词语为从语音转录文本中抽取得到的词语;
确定模块,用于确定所述目标词语的拼音,并对所述拼音进行向量表示,得到目标向量;第一筛选模块,用于获取多个规范词语以及所述多个规范词语的拼音的向量,根据所述目标向量和所述多个规范词语的拼音的向量,从所述多个规范词语中筛选出至少一个候选词语;第二筛选模块,用于计算所述目标词语与每个候选词语的第一编辑距离,并根据所述第一编辑距离从所述至少一个候选词语中筛选出目标匹配词语,其中,所述目标匹配词语用于替换所述语音转录文本中的目标词语。11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行所述权利要求1至9任一项中所述的文本处理方法。12.一种电子设备,其特征在于,所述电子设备包括一个或多个处理器;存储器,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现用于运行程序,其中,所述程序被设置为运行时执行所述权利要求1至9任一项中所述的文本处理方法。

技术总结
本发明公开了一种文本处理方法、装置、计算机可读存储介质及电子设备。该方法包括:获取目标词语,其中,目标词语为从语音转录文本中抽取得到的词语;确定目标词语的拼音,并对拼音进行向量表示,得到目标向量;获取多个规范词语以及多个规范词语的拼音的向量,根据目标向量和多个规范词语的拼音的向量,从多个规范词语中筛选出至少一个候选词语;计算目标词语与每个候选词语的第一编辑距离,并根据第一编辑距离从至少一个候选词语中筛选出目标匹配词语,其中,目标匹配词语用于替换语音转录文本中的目标词语。本发明解决了相关技术中对语音转录文本中的词语进行规范化时的规范化准确度低的技术问题。准确度低的技术问题。准确度低的技术问题。


技术研发人员:赵韡 刁晓林 张海波 曹旭 王玉鑫 任立新 廉晓丹
受保护的技术使用者:中国医学科学院阜外医院
技术研发日:2023.05.24
技术公布日:2023/7/12
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐