一种文本处理方法、装置、网络设备及介质与流程
未命名
10-18
阅读:88
评论:0
1.本发明涉及信息技术领域,特别涉及一种文本处理方法、装置、网络设备及介质。
背景技术:
2.tn(text normalization,文本规范化)目前的技术方案大多数是基于规则的解决方案,通用技术为fst和正则表达式,也有其他自建规则。这些现有方案通常使用简单的关键词方式解决tn转写歧义的问题,无法更深入地解决问题。而tn神经网络目前的结构大部分采用的比较简单的神经网络,如lstm(long short-term memory,长短期记忆网络)、xgboost(extreme gradient boosting,极端梯度提升)等,有一定的错误率,无法使用规则进行修复。
技术实现要素:
3.本发明的目的在于提供一种文本处理方法、装置、网络设备及介质,用于解决现有技术中转写准确率低的问题。
4.为了解决上述技术问题,本发明实施例提供一种文本处理方法,其中,所述方法包括:
5.获取第一文本的遮掩矩阵;其中,所述第一文本包括单词和非标准词,所述非标准词为所述第一文本中的非英文字符;
6.根据所述遮掩矩阵,获取所述第一文本的标签索引;
7.根据所述标签索引,获取标准文本。
8.可选地,所述的方法,其中,所述获取第一文本的遮掩矩阵,包括:
9.若所述第一文本中的非标准词中存在与单词对应的目标非标准词,获取所述目标非标准词对应的目标单词;
10.用所述目标单词替换所述目标非标准词,获取第二文本;
11.获取所述第二文本的遮掩矩阵。
12.可选地,所述的方法,其中,所述获取所述第二文本的遮掩矩阵,包括:
13.将所述第二文本转换为对应的模式,所述模式包括以下至少一项:数字位数、单词、英文符号和特殊符号;其中,所述特殊符号为难以直接输入的符号;
14.获取所述模式的编码;
15.根据所述模式的编码,获取所述第二文本的所述遮掩矩阵。
16.可选地,所述的方法,其中,所述将所述第二文本转换为对应的模式,包括:
17.获取到所述第二文本中包含的字符的属性;
18.基于所述属性获取所述字符对应的模式。
19.可选地,所述的方法,其中,所述根据所述遮掩矩阵,获取所述第一文本的标签索引,包括:
20.输入所述遮掩矩阵到bert模型进行编码,获取第一嵌入;其中,所述第一嵌入为所
述单词的嵌入;
21.建构第二嵌入;其中,所述第二嵌入为所述非标准词的嵌入;
22.将所述第一嵌入和所述第二嵌入输入双向长短时记忆网络和归一化指数函数回归模型,获取所述第一嵌入和所述第二嵌入分别对应的标签索引;
23.将所述第一嵌入和所述第二嵌入分别对应的标签索引确定为所述第一文本的标签索引。
24.可选地,所述的方法,其中,所述根据所述标签索引,获取标准文本,包括:
25.将所述标签索引转换为标签符号;
26.根据所述标签符号,获取所述标准文本。
27.可选地,所述的方法,其中,在所述根据所述标签符号,获取所述标准文本之前,还包括:
28.获取所述标签符号中的失效标签符号;
29.根据所述失效标签符号对应的所述标签索引,生成替换标签符号;
30.将所述失效标签符号更新为替换标签符号。
31.为了达到上述目的,本发明提供一种文本处理装置,其中,所述装置包括:
32.第一获取模块,用于获取第一文本的遮掩矩阵;其中,所述第一文本包括单词和非标准词,所述非标准词为所述第一文本中的非英文字符;
33.第二获取模块,用于根据所述遮掩矩阵,获取所述第一文本的标签索引;
34.第三获取模块,用于根据所述标签索引,获取标准文本。
35.为了达到上述目的,本发明提供一种网络设备,包括:收发器、处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令;其中,所述处理器执行所述程序或指令时实现如上所述的文本处理方法。
36.为了达到上述目的,本发明提供一种可读存储介质,其上存储有程序或指令,其中,所述程序或指令被处理器执行时实现如上所述的文本处理方法中的步骤。
37.本发明的上述技术方案的有益效果如下:
38.上述方案中,将包括单词和非标准词的第一文本的遮掩矩阵输入模型进行预测,获取第一文本的标签索引,根据标签索引,使用标签对应的转函数代码,将非标准词转换为标准词,从而获取标准文本。引入遮掩矩阵,采用遮掩处理方案,能够有效对tn中的非标准词进行限制,使得非标准词只是在特定的标签中进行预测,解决了现有技术中转写准确率低的问题,提升了tn转写的准确率。
附图说明
39.图1为本发明实施例所述的文本处理方法的示意图;
40.图2为本发明实施例所述的文本处理方法的详细流程图;
41.图3为本发明实施例所述的文本处理方法中遮掩矩阵的示意图;
42.图4为本发明实施例所述的文本处理方法中模型结构示意图;
43.图5为本发明实施例所述的文本处理装置的示意图;
44.图6为本发明实施例所述的文本处理装置的结构图。
具体实施方式
45.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,并不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
46.本发明针对现有技术中转写准确率低的问题,提供一种文本处理方法、装置、网络设备及介质。
47.如图1所示,本发明实施例提供一种文本处理方法,其中,所述方法包括:
48.步骤s10,获取第一文本的遮掩矩阵;其中,所述第一文本包括单词和非标准词,所述非标准词为所述第一文本中的非英文字符;
49.步骤s20,根据所述遮掩矩阵,获取所述第一文本的标签索引;
50.步骤s30,根据所述标签索引,获取标准文本。
51.该实施例中,将包括所述单词和所述非标准词的所述第一文本的所述遮掩矩阵输入模型进行预测,获取所述第一文本的所述标签索引,根据所述标签索引,使用标签对应的转函数代码,将非标准词转换为标准词,从而获取标准文本。引入遮掩矩阵,采用遮掩处理方案,能够有效对tn中的非标准词进行限制,使得非标准词只是在特定的标签中进行预测,解决了现有技术中转写准确率低的问题,提升了tn转写的准确率。
52.如图2和图3所示,可选地,所述的方法,其中,所述获取第一文本的遮掩矩阵,包括:
53.若所述第一文本中的非标准词中存在与单词对应的目标非标准词,获取所述目标非标准词对应的目标单词;
54.用所述目标单词替换所述目标非标准词,获取第二文本;
55.获取所述第二文本的遮掩矩阵。
56.该实施例中,如果所述第一文本中的非标准词根据规则列表的模式,可以直接转成标准词,不需要使用模型进行转写,即图2中触发强制规则模式,直接按照规则转写。
57.可选地,所述的方法,其中,所述获取所述第二文本的遮掩矩阵,包括:
58.将所述第二文本转换为对应的模式,所述模式包括以下至少一项:数字位数、单词、英文符号和特殊符号;其中,所述特殊符号为难以直接输入的符号;
59.获取所述模式的编码;
60.根据所述模式的编码,获取所述第二文本的所述遮掩矩阵。
61.该实施例中,将所述第二文本中的所有单词和非标准词转换成对应的模式,为了解决数字符号在训练是无法穷举的问题,将数字转换为可穷举的模式,如:2020-》digit_4,12345—》digit_5,数字根据长度设置模式:digit_n,其中,n为数字长度,n最长为9位,超过9位的统一使用digit_l标识别。另外,英文单词设置模式为英文本身,不同编码的符号统一转写成英文字符的符号,特殊符号使用特殊符号本身作为模式。根据强相关规则和所述模式的编码,生成所述第二文本的所述遮掩矩阵。
62.可选地,所述的方法,其中,所述将所述第二文本转换为对应的模式,包括:
63.获取到所述第二文本中包含的字符的属性;
64.基于所述属性获取所述字符对应的模式。
65.该实施例中,根据所述第二文本中的字符的属性,对所述字符进行转写,其中,字符的属性包括数字、英文单词、普通字符和特殊符号,特殊符号为难以直接输入的符号。
66.需要说明的是,本发明实施例中的字符中的数字和英文单词是指两个空格之间的英文字母串或是数字串,并不是单个字母或是数字,例如2025为一个属性为数字的字符。
67.可选地,所述的方法,其中,所述根据所述遮掩矩阵,获取所述第一文本的标签索引,包括:
68.输入所述遮掩矩阵到bert模型进行编码,获取第一嵌入;其中,所述第一嵌入为所述单词的嵌入;
69.建构第二嵌入;其中,所述第二嵌入为所述非标准词的嵌入;
70.将所述第一嵌入和所述第二嵌入输入双向长短时记忆网络和归一化指数函数回归模型,获取所述第一嵌入和所述第二嵌入分别对应的标签索引;
71.将所述第一嵌入和所述第二嵌入分别对应的标签索引确定为所述第一文本的标签索引。
72.该实施例中,将每一个模式使用预训练模型bert模型进行编码,将第一文本中的所有模式去重复后,按照顺序进行编码,编码长度为256,非英文单词的嵌入写入到嵌入的第一维开始,按照顺序往后写,未使用的位置使用0占位。英文单词编码比较特殊,按照字母进行编码,编码长度为256。其中,bert模型是通过大规模无标注文本训练的语言模型,能够考虑上下文的情况下给予每一个字符不同的编码,本发明将所有的标准词以均经过bert模型进行编码,得到单词的嵌入,即所述第一嵌入。由于非标准词的嵌入在常规的bert模型无法查询嵌入,因此需要手动构建所述第二嵌入。利用索引的方式,顺序按位作为嵌入,因为bert模型主要储存的是上下文信息,而非标准词不考虑不作为非标准词的参考,所以可以使用常规独热码编码。
73.将所述第一嵌入和所述第二嵌入输入双向长短时记忆网络和归一化指数函数回归模型,所述双向长短时记忆网络和所述归一化指数函数回归模型结构作为基本模型,其中,所述双向长短时记忆网络可以很好的统计出上下文语义信息,而所述归一化指数函数回归模型是多分类任务常用的损失函数,因此,使用所述双向长短时记忆网络和所述归一化指数函数回归模型符合tn任务需求。
74.可选地,所述的方法,其中,所述根据所述标签索引,获取标准文本,包括:
75.将所述标签索引转换为标签符号;
76.根据所述标签符号,获取所述标准文本。
77.该实施例中,将所述标签索引转换为标签符号为对去重复标签放到一个列表中,获取下标id(identity document,唯一编码)。根据标签符号中生成的标签,使用标签对应的转函数代码,将非标准词转换为单词,从而获取所述标准文本。
78.如图4所示,可选地,所述的方法,其中,在所述根据所述标签符号,获取所述标准文本之前,还包括:
79.获取所述标签符号中的失效标签符号;
80.根据所述失效标签符号对应的所述标签索引,生成替换标签符号;
81.将所述失效标签符号更新为替换标签符号。
82.该实施例中,根据定义的标签条件,判断所述标签符号是否无效,例如,日期年份
的范围为4位数字,如果相应的数字长度为5位,则判断当前的标签符号为失效标签符号。使用正则表达式,写出每一种模式组合的默认转写规则,判断所述失效标签符号无效的结果使用正则规则生成的新的标签符号,即所述替换标签符号,使用所述替换标签符号替换所述失效标签符号。使得tn非标准词能够更好地借鉴上下文信息,解决只使用规则导致的转写歧义的问题,将神经网络算法和传统规则相结合的方式,既可以达到灵活控制tn修改,又可以提高tn转写的准确率。
83.需要说明的是,本发明实施例针对tn任务的特殊性,将传统的双向长短时记忆网络和归一化指数函数回归模型进行改进,采用遮掩处理方案,提出一种遮掩解决方案,能够有效解决tn训练问题的标签分散和规则强相关的问题。能够有效的对tn中的非标准词进行限制,使得非标准词只是在特定的标签中进行预测。遮掩模型流程如下:
84.训练阶段预处理数据,得到所述模式对应的所有转写标签符号。训练阶段计算损失的时候,计算得到遮掩矩阵(参考图3),将lstm(long short-term memory,长短期记忆网络)的结果经过两层密集层,激活函数为softsign(软符实数)函数,然后将密集结果与遮掩矩阵相乘,相乘之后的结果通过归一化指数函数回归模型层,最后计算损失。遮掩矩阵举例如图3中的表格,遮掩分为两种,参考如下公式:
[0085][0086]
其中,masked为遮掩,若模式在规则列表内则标记为1,若计算当前的模式则标记为1,其他标记为0。当前的模式用于每一次计算损失的时候仅仅只计算一个模式。规则列表是实现规则与模型融合的关键部分,由规则生成规则列表,生成方法如下:
[0087]
1.通过爬虫方法爬取大量的非标准文本,然后根据nsw(none standard word,非标准词)部分的组成(由数字、英文、符号组成)的各种随机组合,由于数字无法穷举,所以采用上述的方式生成模式。得到模式列表。
[0088]
2.根据规则条件,将条件写入到规则列表。规则列表格式如下:
[0089]
digit_4#date:1i《2500^1i》1000;value:;
[0090]
digit mh digit#ratio;time;date
[0091]
上面过程中的digit_4表示长度为4的数字,而digit表示长度为所有的数字。
[0092]
上面规则列表以#最为分隔符,#前面为模式,右侧为模式对应的规则列表中的名称。
[0093]
上面规则列表中对多个数据,以;为分隔符
[0094]
上面中1i《2500^1i》1000为引入条件,表示长度为4的数字,且值大于1000,小于2500才,引入条件。
[0095]
上面date/value/time/ratio表示对应的标签,满足条件的标签才能作为遮掩矩阵中设置1的条件。
[0096]
模型训练阶段的数据准备:
[0097]
训练数据使用kaggle(开发商和数据科学家提供举办机器学习竞赛、托管数据库、编写和分享代码的平台)开源的english text normalation challenge(英文文本的规范化比赛)数据,数据规模约78万句。tn任务分类标签如下:
[0098]
plain,punct,letters,cardinal,decimal,date,ordinal,verbatim,time,measure,digit,electronic,money,telephone,fraction,address。
[0099]
模型训练流程:
[0100]
1.训练阶段计算归一化指数时,每一个nsw都有固定的模式以及对应的标签,将规则生成的规则列表作为遮掩矩阵的判断依据,即将规则列表判断不正确的遮掩矩阵值置为0,不参与损失计算,这样能够提高损失的收敛。
[0101]
2.训练阶段计算遮掩时,每一句话中带有多个nsw时,计算损失的时候需要遮掩掉不相关的,即每一次损失回传的时候只是计算其中一个nsw,这样能够保证训练的收敛速度。推理阶段也可以通过传入遮掩矩阵,控制模型输出的结果,不需要的转写可以通过遮掩矩阵直接过滤。例如:“earnings rose by1.5percent in july,2022”,这一句中包含多个nsw,同时每一个nsw有多个转写模型,如图3所示。当计算单词的损失的时候,全部遮盖,即遮掩标记为0,当一句话中包含多个nsw的时候,计算一个nsw,遮盖另一个。计算当前标准词不同的标签时,计算损失。
[0102]
模型训练流程参考图4。
[0103]
本发明实施例能够有效的对tn中的非标准词进行限制,使得非标准词只是在特定的标签中进行预测,即能够充分考虑上下文信息,使得tn的准确率更高,同时也结合规则,能够更加方便的对tn结果进行修正,实现一种更加鲁棒的tn系统。
[0104]
如图5所示,为了达到上述目的,本发明提供一种文本处理装置,其中,所述装置包括:
[0105]
第一获取模块01,用于获取第一文本的遮掩矩阵;其中,所述第一文本包括单词和非标准词,所述非标准词为所述第一文本中的非英文字符;
[0106]
第二获取模块02,用于根据所述遮掩矩阵,获取所述第一文本的标签索引;
[0107]
第三获取模块03,用于根据所述标签索引,获取标准文本。
[0108]
可选地,所述的装置,其中,所述第一获取模块01包括:
[0109]
第一获取单元,用于若所述第一文本中的非标准词中存在与单词对应的目标非标准词,获取所述目标非标准词对应的目标单词;
[0110]
第二获取单元,用于用所述目标单词替换所述目标非标准词,获取第二文本;
[0111]
第三获取单元,用于获取所述第二文本的遮掩矩阵。
[0112]
可选地,所述的装置,其中,所述第三获取单元包括:
[0113]
第一处理元件,用于将所述第二文本转换为对应的模式,所述模式包括以下至少一项:数字位数、单词、英文符号和特殊符号;其中,所述特殊符号为难以直接输入的符号;
[0114]
第一获取元件,用于获取所述模式的编码;
[0115]
第二获取元件,用于根据所述模式的编码,获取所述第二文本的所述遮掩矩阵。
[0116]
可选地,所述的装置,其中,所述第一处理元件包括:
[0117]
获取到所述第二文本中包含的字符的属性;
[0118]
基于所述属性获取所述字符对应的模式。
[0119]
可选地,所述的装置,其中,所述第二获取模块02包括:
[0120]
第四获取单元,用于输入所述遮掩矩阵到bert模型进行编码,获取第一嵌入;其中,所述第一嵌入为所述单词的嵌入;
[0121]
第一处理单元,用于建构第二嵌入;其中,所述第二嵌入为所述非标准词的嵌入;
[0122]
第五获取单元,用于将所述第一嵌入和所述第二嵌入输入双向长短时记忆网络和归一化指数函数回归模型,获取所述第一嵌入和所述第二嵌入分别对应的标签索引;
[0123]
第二处理单元,用于将所述第一嵌入和所述第二嵌入分别对应的标签索引确定为所述第一文本的标签索引。
[0124]
可选地,所述的装置,其中,所述第三获取模块03包括:
[0125]
第三处理单元,用于将所述标签索引转换为标签符号;
[0126]
第六获取单元,用于根据所述标签符号,获取所述标准文本。
[0127]
可选地,所述的装置,其中,所述第三获取模块03还包括:
[0128]
第七获取单元,用于获取所述标签符号中的失效标签符号;
[0129]
第一生成单元,用于根据所述失效标签符号对应的所述标签索引,生成替换标签符号;
[0130]
第一更新单元,用于将所述失效标签符号更新为替换标签符号。
[0131]
在此需要说明的是,本发明实施例提供的上述装置,能够实现上述方法实施例所实现的所有方法步骤,且能够达到相同的技术效果,在此不再对本实施例中与方法实施例相同的部分及有益效果进行具体赘述。如图6所示,本发明实施例还提供一种文本处理装置,包括处理器600、收发机610、存储器620及存储在所述存储器620上并可在所述处理器600上运行的程序;其中,收发机610通过总线接口与处理器600和存储器620连接,其中,所述处理器600用于读取存储器中的程序,执行下列过程:
[0132]
获取第一文本的遮掩矩阵;其中,所述第一文本包括单词和非标准词,所述非标准词为所述第一文本中的非英文字符;
[0133]
根据所述遮掩矩阵,获取所述第一文本的标签索引;
[0134]
根据所述标签索引,获取标准文本。
[0135]
收发机610,用于在处理器600的控制下接收和发送数据。
[0136]
其中,在图6中,总线架构可以包括任意数量的互联的总线和桥,具体由处理器600代表的一个或多个处理器和存储器620代表的存储器的各种电路链接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口提供接口。收发机610可以是多个元件,即包括发送机和接收机,提供用于在传输介质上与各种其他装置通信的单元,这些传输介质包括,这些传输介质包括无线信道、有线信道、光缆等传输介质。
[0137]
处理器600负责管理总线架构和通常的处理,存储器620可以存储处理器600在执行操作时所使用的数据。
[0138]
可选的,处理器600可以是cpu(中央处理器)、asic(application specific integrated circuit,专用集成电路)、fpga(field-programmable gate array,现场可编程门阵列)或cpld(complex programmable logic device,复杂可编程逻辑器件),处理器也可以采用多核架构。
[0139]
处理器通过调用存储器存储的计算机程序,用于按照获得的可执行指令执行本技术实施例提供的任一所述方法。处理器与存储器也可以物理上分开布置。
[0140]
可选地,所述n个ai计算节点的硬件配置相同,每个ai计算节点放置一个ai训练模
型,所述ai训练模型用于对目标业务对应的测试任务进行训练。
[0141]
进一步地,所述处理器600执行所述程序时实现以下步骤:
[0142]
若所述第一文本中的非标准词中存在与单词对应的目标非标准词,获取所述目标非标准词对应的目标单词;
[0143]
用所述目标单词替换所述目标非标准词,获取第二文本;
[0144]
获取所述第二文本的遮掩矩阵。
[0145]
进一步地,所述处理器600执行所述程序时实现以下步骤:
[0146]
将所述第二文本转换为对应的模式,所述模式包括以下至少一项:数字位数、单词、英文符号和特殊符号;其中,所述特殊符号为难以直接输入的符号;
[0147]
获取所述模式的编码;
[0148]
根据所述模式的编码,获取所述第二文本的所述遮掩矩阵。
[0149]
进一步地,所述处理器600执行所述程序时实现以下步骤:
[0150]
获取到所述第二文本中包含的字符的属性;
[0151]
基于所述属性获取所述字符对应的模式。
[0152]
进一步地,所述处理器600执行所述程序时实现以下步骤:
[0153]
输入所述遮掩矩阵到bert模型进行编码,获取第一嵌入;其中,所述第一嵌入为所述单词的嵌入;
[0154]
建构第二嵌入;其中,所述第二嵌入为所述非标准词的嵌入;
[0155]
将所述第一嵌入和所述第二嵌入输入双向长短时记忆网络和归一化指数函数回归模型,获取所述第一嵌入和所述第二嵌入分别对应的标签索引;
[0156]
将所述第一嵌入和所述第二嵌入分别对应的标签索引确定为所述第一文本的标签索引。
[0157]
进一步地,所述处理器600执行所述程序时实现以下步骤:
[0158]
将所述标签索引转换为标签符号;
[0159]
根据所述标签符号,获取所述标准文本。
[0160]
进一步地,所述处理器600执行所述程序时实现以下步骤:
[0161]
获取所述标签符号中的失效标签符号;
[0162]
根据所述失效标签符号对应的所述标签索引,生成替换标签符号;
[0163]
将所述失效标签符号更新为替换标签符号。
[0164]
为了达到上述目的,本发明实施例还提供一种网络设备,包括:收发器、处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令;其中,所述处理器执行所述程序或指令时实现如上所述的文本处理方法。
[0165]
为了达到上述目的,本发明实施例还提供一种可读存储介质,其上存储有程序或指令,其中,所述程序或指令被处理器执行时实现如上所述的文本处理方法实施例中的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,所述的计算机可读存储介质,如只读存储器(read-only memory,简称rom)、随机存取存储器(random access memory,简称ram)、磁碟或者光盘等。
[0166]
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而
且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外,需要指出的是,本技术实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能,还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能,例如,可以按不同于所描述的次序来执行所描述的方法,并且还可以添加、省去、或组合各种步骤。另外,参照某些示例所描述的特征可在其他示例中被组合。
[0167]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本技术各个实施例所述的方法。
[0168]
上面结合附图对本技术的实施例进行了描述,但是本技术并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本技术的启示下,在不脱离本技术宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本技术的保护之内。
技术特征:
1.一种文本处理方法,其特征在于,所述方法包括:获取第一文本的遮掩矩阵;其中,所述第一文本包括单词和非标准词,所述非标准词为所述第一文本中的非英文字符;根据所述遮掩矩阵,获取所述第一文本的标签索引;根据所述标签索引,获取标准文本。2.根据权利要求1所述的方法,其特征在于,所述获取第一文本的遮掩矩阵,包括:若所述第一文本中的非标准词中存在与单词对应的目标非标准词,获取所述目标非标准词对应的目标单词;用所述目标单词替换所述目标非标准词,获取第二文本;获取所述第二文本的遮掩矩阵。3.根据权利要求2所述的方法,其特征在于,所述获取所述第二文本的遮掩矩阵,包括:将所述第二文本转换为对应的模式,所述模式包括以下至少一项:数字位数、单词、英文符号和特殊符号;其中,所述特殊符号为难以直接输入的符号;获取所述模式的编码;根据所述模式的编码,获取所述第二文本的所述遮掩矩阵。4.根据权利要求3所述的方法,其特征在于,所述将所述第二文本转换为对应的模式,包括:获取到所述第二文本中包含的字符的属性;基于所述属性获取所述字符对应的模式。5.根据权利要求1所述的方法,其特征在于,所述根据所述遮掩矩阵,获取所述第一文本的标签索引,包括:输入所述遮掩矩阵到bert模型进行编码,获取第一嵌入;其中,所述第一嵌入为所述单词的嵌入;建构第二嵌入;其中,所述第二嵌入为所述非标准词的嵌入;将所述第一嵌入和所述第二嵌入输入双向长短时记忆网络和归一化指数函数回归模型,获取所述第一嵌入和所述第二嵌入分别对应的标签索引;将所述第一嵌入和所述第二嵌入分别对应的标签索引确定为所述第一文本的标签索引。6.根据权利要求1所述的方法,其特征在于,所述根据所述标签索引,获取标准文本,包括:将所述标签索引转换为标签符号;根据所述标签符号,获取所述标准文本。7.根据权利要求6所述的方法,其特征在于,在所述根据所述标签符号,获取所述标准文本之前,还包括:获取所述标签符号中的失效标签符号;根据所述失效标签符号对应的所述标签索引,生成替换标签符号;将所述失效标签符号更新为替换标签符号。8.一种文本处理装置,其特征在于,所述装置包括:第一获取模块,用于获取第一文本的遮掩矩阵;其中,所述第一文本包括单词和非标准
词,所述非标准词为所述第一文本中的非英文字符;第二获取模块,用于根据所述遮掩矩阵,获取所述第一文本的标签索引;第三获取模块,用于根据所述标签索引,获取标准文本。9.一种网络设备,包括:收发器、处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令;其特征在于,所述处理器执行所述程序或指令时实现如权利要求1-7任一项所述的文本处理方法。10.一种可读存储介质,其上存储有程序或指令,其特征在于,所述程序或指令被处理器执行时实现如权利要求1-7任一项所述的文本处理方法中的步骤。
技术总结
本发明提供了一种文本处理方法、装置、网络设备及介质,其中,方法包括:获取第一文本的遮掩矩阵;其中,第一文本包括单词和非标准词,非标准词为第一文本中的非英文字符;根据遮掩矩阵,获取第一文本的标签索引;根据标签索引,获取标准文本。将包括单词和非标准词的第一文本的遮掩矩阵输入模型进行预测,获取第一文本的标签索引,根据标签索引,使用标签对应的转函数代码,将非标准词转换为标准词,从而获取标准文本。解决了现有技术中转写准确率低的问题,提升了TN转写的准确率。提升了TN转写的准确率。提升了TN转写的准确率。
技术研发人员:孙莉
受保护的技术使用者:中国移动通信集团有限公司
技术研发日:2023.07.14
技术公布日:2023/10/15
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
