语料的标签预测方法、装置、电子设备与流程
未命名
07-27
阅读:146
评论:0
1.本发明实施例涉及计算机技术领域,尤其涉及一种语料的标签预测方法、装置、电子设备。
背景技术:
2.随着互联网技术的蓬勃发展,产生了越来越多的语音或者对话数据等语料,对上述语料进行分类存储存在着重要意义。目前,一般通过对语料进行标签预测,从而实现对语料的分类存储。
3.然而,现有技术中,在对语料进行标签预测的过程中,一般需要人工进行分析和判断,从而确定语料对应的标签,这则严重影响了语料的标签预测效率,尤其在针对海量语料进行标签预测时,效率较低,影响用户体验。
技术实现要素:
4.鉴于此,为解决在对语料进行标签预测的过程中,一般需要人工进行分析和判断,从而确定语料对应的标签,这则严重影响了语料的标签预测效率,尤其在针对海量语料进行标签预测时,效率较低,影响用户体验的技术问题,本发明实施例提供一种语料的标签预测方法、装置、电子设备。
5.第一方面,本发明实施例提供一种语料的标签预测方法,所述方法包括:
6.确定预设数据库中待预测语料对应的拉取参数;
7.根据所述拉取参数,采用预设的拉取方式拉取所述预设数据库中存储的多个所述待预测语料;
8.利用训练好的标签预测模型对多个所述待预测语料进行预测,得到每个所述待预测语料对应的标签。
9.作为一个可能的实现方式,所述确定预设数据库中待预测语料对应的拉取参数,包括:
10.从预设的存储介质中获取上一次拉取任务存储的历史偏移量;
11.根据所述历史偏移量,确定所述待预测语料的偏移量;
12.将所述偏移量确定为所述待预测语料对应的拉取参数。
13.作为一个可能的实现方式,所述采用预设的拉取方式拉取预设数据库中存储的多个待预测语料,包括:
14.采用定时增量拉取的拉取方式,拉取所述预设数据库中存储的多个待预测语料;
15.或者,
16.采用实时增量拉取的拉取方式,拉取所述预设数据库中存储的多个待预测语料。
17.作为一个可能的实现方式,所述标签预测模型通过以下方式训练:
18.获取预设的标签树,所述标签树包括语料训练样本、标签训练样本,以及二者之间的对应关系;
19.利用所述标签树对预设模型进行训练,得到标签预测模型。
20.作为一个可能的实现方式,所述利用所述标签树对预设模型进行训练,得到标签预测模型,包括:
21.获取所述标签树包括的语料训练样本、标签训练样本,以及两者之间的对应关系;
22.将所述语料训练样本输入所述预设模型,得到所述预设模型输出的与所述语料训练样本对应的第一标签;
23.根据所述对应关系,确定与所述语料训练样本对应的标签训练样本;
24.将所述第一标签与所述标签训练样本进行比较;
25.在所述第一标签与所述标签训练样本满足预设条件的情况下,停止训练,得到所述标签预测模型;
26.在所述第一标签与所述标签训练样本不满足所述预设条件的情况下,返回执行所述将所述语料训练样本输入所述预设模型的步骤。
27.作为一个可能的实现方式,所述利用训练好的标签预测模型对多个所述待预测语料进行预测,得到每个所述待预测语料对应的标签,包括:
28.对多个所述待预测语料进行预处理,得到所述待预测语料对应的标准待预测语料;
29.将所述标准待预测语料输入所述标签预测模型,得到所述标签预测模型输出的每个待预测语料对应的标签集合;
30.针对每个所述待预测语料,从所述标签集合中确定所述待预测语料对应的标签。
31.作为一个可能的实现方式,标签集合中的每一标签对应一个置信度分值,所述针对每个所述待预测语料,从所述标签集合中确定所述待预测语料对应的标签,包括:
32.确定所述标签集合中的每一标签对应的置信度分值是否大于预设的置信度分值阈值;
33.将所述置信度分值大于所述置信度分值阈值的标签,确定为所述待预测语料对应的标签。
34.作为一个可能的实现方式,所述方法还包括:
35.接收输入的非标准语料;
36.将所述非标准语料进行格式转换,得到标准语料;
37.将所述标准语料作为待预测语料存储至所述预设数据库。
38.第二方面,本发明实施例提供一种语料的标签预测装置,所述装置包括:
39.确定模块,用于确定预设数据库中待预测语料对应的拉取参数;
40.拉取模块,用于根据所述拉取参数,采用预设的拉取方式拉取所述预设数据库中存储的多个所述待预测语料;
41.预测模块,用于利用训练好的标签预测模型对多个所述待预测语料进行预测,得到每个所述待预测语料对应的标签。
42.作为一个可能的实现方式,所述确定模块,具体用于:
43.从预设的存储介质中获取上一次拉取任务存储的历史偏移量;
44.根据所述历史偏移量,确定所述待预测语料的偏移量;
45.将所述偏移量确定为所述待预测语料对应的拉取参数。
46.作为一个可能的实现方式,所述拉取模块,具体用于:
47.采用定时增量拉取的拉取方式,拉取所述预设数据库中存储的多个待预测语料;
48.或者,
49.采用实时增量拉取的拉取方式,拉取所述预设数据库中存储的多个待预测语料。
50.作为一个可能的实现方式,所述装置还包括:
51.获取模块,用于获取预设的标签树,所述标签树包括语料训练样本、标签训练样本,以及二者之间的对应关系;
52.训练模块,用于利用所述标签树对预设模型进行训练,得到标签预测模型。
53.作为一个可能的实现方式,所述训练模块,具体用于:
54.获取所述标签树包括的语料训练样本、标签训练样本,以及两者之间的对应关系;
55.将所述语料训练样本输入所述预设模型,得到所述预设模型输出的与所述语料训练样本对应的第一标签;
56.根据所述对应关系,确定与所述语料训练样本对应的标签训练样本;
57.将所述第一标签与所述标签训练样本进行比较;
58.在所述第一标签与所述标签训练样本满足预设条件的情况下,停止训练,得到所述标签预测模型;
59.在所述第一标签与所述标签训练样本不满足所述预设条件的情况下,返回执行所述将所述语料训练样本输入所述预设模型的步骤。
60.作为一个可能的实现方式,所述预测模块,包括:
61.预处理子模块,用于对多个所述待预测语料进行预处理,得到所述待预测语料对应的标准待预测语料;
62.输入子模块,用于将所述标准待预测语料输入所述标签预测模型,得到所述标签预测模型输出的每个待预测语料对应的标签集合;
63.确定子模块,用于针对每个所述待预测语料,从所述标签集合中确定所述待预测语料对应的标签。
64.作为一个可能的实现方式,所述标签集合中的每一标签对应一个置信度分值,所述确定子模块,具体用于:
65.确定所述标签集合中的每一标签对应的置信度分值是否大于预设的置信度分值阈值;
66.将所述置信度分值大于所述置信度分值阈值的标签,确定为所述待预测语料对应的标签。
67.作为一个可能的实现方式,所述装置还包括:
68.接收模块,用于接收输入的非标准语料;
69.格式转换模块,用于将所述非标准语料进行格式转换,得到标准语料;
70.存储模块,用于将所述标准语料作为待预测语料存储至所述预设数据库。
71.第三方面,本发明实施例提供一种电子设备,包括:处理器和存储器,所述处理器用于执行所述存储器中存储的一种语料的标签预测程序,以实现第一方面中任一项所述的语料的标签预测方法。
72.第四方面,本发明实施例提供一种存储介质,所述存储介质存储有一个或者多个
程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现第一方面中任一项所述的语料的标签预测方法。
73.本发明实施例提供的技术方案,通过确定预设数据库中待预测语料对应的拉取参数,根据该拉取参数,采用预设的拉取方式拉取预设数据库中存储的多个待预测语料,利用训练好的标签模型对多个待预测语料进行预测,得到每个待预测语料对应的标签。这一技术方案,通过根据待预测语料的拉取参数采用预设是拉取方式从预测数据库中拉取待预测语料,并利用训练好的标签预测模型对待预测语料进行预测,从而得到每个待预测语料对应的标签,避免了人工参与,即使对海量语料进行标签预测,也可避免由于人工参与导致的效率低的问题,实现了提高语料标签的预测效率,提高用户体验。
附图说明
74.图1为本发明实施例提供的一种语料的标签预测方法的实施例流程图;
75.图2为本发明实施例提供的另一种语料的标签预测方法的实施例流程图;
76.图3为本发明实施例提供的一种语料的标签预测系统的结构示意图;
77.图4为本发明实施例提供的一种数据仓库模块的结构示意图;
78.图5为本发明实施例提供的一种数据自动化模块的结构示意图;
79.图6为本发明实施例提供的一种语料的标签预测装置的实施例框图;
80.图7为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
81.为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
82.下面结合附图以具体实施例对本发明提供的语料的标签预测方法做进一步的解释说明,实施例并不构成对本发明实施例的限定。
83.参见图1,为本发明实施例提供的一种语料的标签预测方法的实施例流程图。如图1所示,该流程可包括以下步骤:
84.步骤101、确定预设数据库中待预测语料对应的拉取参数。
85.步骤102、根据上述拉取参数,采用预设的拉取方式拉取上述预设数据库中存储的多个待预测语料。
86.以下对步骤101和步骤102进行统一说明:
87.上述待预测语料指待预测标签的语料,其可为语音数据,也可为对话数据,本发明实施例对此不做限制。
88.上述预设数据库为预设的用于存储待预测语料的数据库。
89.上述拉取参数指拉取数据库中存储的待预测语料时所参考的相关参数。可选的,上述拉取参数可为待预测语料的拉取标志,也可为待预测语料的偏移量,本发明实施例对此不做限制。
90.在一实施例中,用户可向上述预设数据库中输入非标准语料,其可为xlsx格式文
件,也可为json格式数据,本发明实施例的执行主体不做限制。
91.基于此,本发明实施例的执行主体可接收输入的上述非标准语料,并将该非标准语料进行格式转换,得到标准语料。之后,可将上述标准语料作为待预测语料存储至上述预设数据库。
92.在一实施例中,上述拉取参数可为待预测语料的偏移量。本发明实施例的执行主体每完成一次拉取任务,可将拉取任务拉取的待预测语料的偏移量存储至预设的存储介质。
93.基于此,本发明实施例的执行主体可从预设的存储介质中获取上一次拉取任务存储的历史偏移量,并根据该历史偏移量,确定上述待预测语料的偏移量。之后,可将该待预测语料的偏移量确定为待预测语料对应的拉取参数,并根据该拉取参数从预设数据库中拉取多个待预测语料。
94.作为一个可能的实现方式,可对上述历史偏移量加上预设值(例如1),得到上述待预测语料对应的偏移量。例如上述历史偏移量为10,那么将该历史偏移量加1,可得到待预测语料对应的偏移量为11。
95.在另一实施例中,上述拉取参数可为拉取标志,相应的,预设数据库中每个待预测语料在存储预设数据库时均存在预设的拉取标志。本发明实施例的执行主体每从预设数据库中拉取一次待预测语料,则将上述待预测语料对应的拉取标志由预设值更改为拉取值。例如,待预测语料在被拉取之前的拉取标志为0,在被拉取后,将该拉取标志由0更改为1。
96.基于此,本发明实施例的执行主体可直接获取待预测语料的拉取标志,并将该拉取标志作为待预测语料的拉取参数,根据该拉取参数,拉取预设数据库中存储的待预测语料。其中,在上述拉取参数为预设值的情况下,本发明实施例的执行主体可拉取预设数据库中存储的待预测语料。
97.本发明实施例中,为了对预设数据库存储的待预测语料进行重复预测,并避免遗漏待预测语料,本发明实施例的执行主体可根据上述拉取参数,采用预设的拉取方式拉取预设数据库中存储的多个待预测语料。
98.作为一种可能的实现方式,本发明实施例的执行主体可采用定时增量拉取的方式,拉取上述预设数据库中存储的多个待预测语料。例如每天的6:00、12:00等,本发明实施例对此不做限制。
99.作为另一种可能的实现方式,本发明实施例的执行主体可采用实时增量拉取的拉取方式,拉取上述预设数据库中存储的多个待预测语料。例如,实时监测预设数据库中是否存在新的存储操作,在监测到预设数据库中存在新的待预测语料时,即可拉取上述新存储的待预测语料。
100.步骤103、利用训练好的标签预测模型对多个待预测语料进行预测,得到每个待预测语料对应的标签。
101.上述标签预测模型为预先训练好的用于预测待预测语料的标签的模型。
102.在一实施例中,本发明实施例的执行主体在拉取到多个待预测语料时,可利用上述训练好的标签预测模型对多个待预测语料进行预测,从而得到每个待预测语料对应的标签。
103.具体的,本发明实施例的执行主体可对多个上述待预测语料进行预处理,得到待
预测语料对应的标准预测语料。其中,上述预处理可包括但不限于清洗、去水,以及降噪等预处理操作。
104.之后,可将得到的标准预测语料输入上述标签预测模块,得到该标签预测模型输出的每个待预测语料对应的标签集合。
105.最后,可针对每个待预测语料,从上述标签集合中确定待预测语料对应的标签。
106.在一实施例中,上述标签集合中的每一标签可对应一个置信度分值。基于此,本发明实施例的执行主体可针对每个待预测语料,根据该置信度分值从标签集合中确定待预测语料对应的标签。
107.具体的,可确定上述标签集合中的每一标签对应的置信度分值是否大于预设的置信度分值阈值,并将置信度分值大于上述置信度分值阈值的标签,确定为该待预测语料对应的标签。
108.此外,本发明实施例的执行主体在确定待预测语料对应的标签后,可通过可视化界面输出该待预测语料以及对应的标签,以使用户进一步判断预测的该待预测标签的准确率。
109.至于本发明实施例的执行主体具体是如何训练得到上述标签预测模型的,可在下文通过图2所示流程进行说明,这里先不详述。
110.本发明实施例提供的技术方案,通过确定预设数据库中待预测语料对应的拉取参数,根据该拉取参数,采用预设的拉取方式拉取预设数据库中存储的多个待预测语料,利用训练好的标签模型对多个待预测语料进行预测,得到每个待预测语料对应的标签。这一技术方案,通过根据待预测语料的拉取参数采用预设是拉取方式从预测数据库中拉取待预测语料,并利用训练好的标签预测模型对待预测语料进行预测,从而得到每个待预测语料对应的标签,避免了人工参与,即使对海量语料进行标签预测,也可避免由于人工参与导致的效率低的问题,实现了提高语料标签的预测效率,提高用户体验。
111.参见图2,为本发明实施例提供的另一种语料的标签预测方法的实施例流程图。图2所示流程在图1所示流程的基础上,进一步描述了本发明实施例的执行主体具体是如何对标签预测模型进行训练的。如图2所示,该流程可包括以下步骤:
112.步骤201、获取预设的标签树。
113.步骤202、利用上述标签树对预设模型进行训练,得到标签预测模型。
114.以下对步骤201和步骤202进行统一说明:
115.上述标签树可包括语料训练样本、标签训练样本,以及二者之间的对应关系。
116.上述预设模型可为未经过训练的基础网络模型。
117.在一实施例中,用户可将已标注标签的语料构造标签树,该标签树可包括语料训练样本、标签训练样本,以及二者之间的对应关系。
118.基于此,本发明实施例的执行主体可利用该标签树对预设模型进行训练,得到标签预测模型。
119.具体的,首先,可获取上述标签树包括的语料训练样本、标签训练样本,以及二者之间的对应关系。
120.之后,可将上述语料训练样本输入上述预设模型,得到该预设模型输出的与语料训练样本对应的标签(为便于描述,以下称为第一标签)。
121.再之后,可根据上述对应关系,确定上述语料训练样本对应的标签训练样本,并将上述第一标签与上述标签训练样本进行比较。
122.可选的,在上述第一标签与标签训练样本满足预设条件的情况下,可停止训练,得到标签预测模型。
123.相反的,在上述第一标签与标签训练样本不满足上述预设条件的情况下,可继续进行训练,也即返回执行将上述语料训练样本输入上述预设模型的步骤。其中,上述预设条件可为第一标签与标签训练样本一致,或者第一标签与标签训练样本的相似度值大于预设的相似度阈值,本发明实施例对此不做限制。
124.此外,本发明实施的执行主体在训练标签预测模型的过程中,可对上述标签树进行调整和完善(例如在标签树中添加新的语料训练样本和标签训练样本),以使训练得到的标签预测模型对语料的标签预测更加准确。
125.进一步地,在得到上述标签预测模型后,用户可自定义语料对上述标签预测模型进行验证,以提高上述标签预测模型的准确率。
126.本发明实施例提供的技术方案,通过获取预设的标签树,上述标签树包括语料训练样本、标签训练样本,以及二者之间的对应关系,利用上述标签树对预设模型进行训练,可得到标签预测模型。这一技术方案,通过获取预先构建的标签树,并根据标签树训练标签预测模型,以使该标签预测模型对待预测语料进行标签预测,避免了在对语料进行标签预测时人工参与,实现了提高语料标签的预测效率,提升用户体验。
127.参见图3,为本发明实施例提供的一种语料的标签预测系统的结构示意图。如图3所示,该语料的标签预测系统可包括以下模块:数据仓库模块、数据自动化处理模块、预处理模块、标签树模块、预测模块、训练模块、算法模型及结果展示模块。
128.可选的,上述语料的标签预测系统可包含两个子流程:一个训练子流程,一个预测流程,其中,预测流程依赖训练子流程训练出来的算法模型。
129.在一实施例中,上述标签树模块与训练模块相连接、训练模块生成算法模型,数据仓库模块与数据自动化处理模块相连接,数据自动化处理模块与预处理模块相连接,预处理模块和算法模型再分别与预测模块相连接,预测模块与结果展示模块相连接。
130.具体的,标签树模块用于录入人工预定义好的标签数据,以及已经标注好的语句语料,每个语料都跟一个标签相关联。标签树结构分为目录和叶子节点,只有叶子节点下面可以关联多个标签,然后每条标签数据下面都需要关联一组语料,所有数据都由人工来进行录入。
131.上述训练模块根据标签树模块录入的数据结构,来训练并生成预测模块需要的算法模型。可以对训练模块输入自定义的语料来检验预测结果是否符合预期,并且可以不断调整录入的标签树数据,然后重复训练模型来最终达到想要的效果。
132.上述数据仓库模块用于大规模录入未标注的对话数据。参见图4,为本发明实施例提供的一种数据仓库模块的结构示意图。如图4所示,该数据仓库模块可包括文件处理单元、数据处理单元和数据写入单元,文件处理单元和数据处理单元都与数据写入单元相连,数据写入单元和数据库相连。
133.对于文件处理单元用于将上传上来的xlsx文件进行分析和校验,然后规格化为标准对话数据;
134.对于数据处理单元可以接收json格式的数据,然后规格化为标准对话数据;
135.对于数据写入单元用于将规格化的对话数据统一写入到数据库中,提供给数据自动化处理模块使用。
136.具体的,上述数据仓库模块的具体实现方式如下:
137.通过前端页面上传文件,经过文件处理单元处理然后交给数据写入单元,或者通过调用接口传入数据然后交给数据处理单元,后端会对用户录入的数据规格化之后,通过数据写入单元会为每个数据生成一个唯一id以及录入时间,然后会根据数据的id哈希然后分组写入到不同的表中,防止一个表中数据量太大。
138.上述数据自动化处理模块用于实时增量拉取数据仓库中的待预测数据,并给下一个模块进行分析。参见图5,为本发明实施例提供的一种数据自动化模块的结构示意图。如图5所述,该数据自动化模块包括:数据拉取单元、偏移量检测单元和数据推送单元,其中数据拉取单元从前面数据仓库中写入的数据进行拉取,然后数据拉取单元和偏移量检测单元连接,偏移量检测单元和数据推送单元连接,最后数据推送单元连接和预处理模块相连。
139.其中,上述数据拉取单元会通过实时或者定时的方式,不断从数据仓库中拉取最新的未标注过的数据。偏移量检查单元会判断拉取的数据中最新的偏移量是多少并且记录下来,保证下一次拉取时不会重复拉取。
140.数据推送单元会把数据推送给预处理模块,以进行下一步的预处理。
141.可选的,数据自动化处理模块的具体实现如下:
142.将数据仓库中的数据通过定时或者实时的方式,不断执行数据拉取的操作,每次执行都会从最新的数据偏移量开始拉取未标注的数据,并且将数据分执行批次推送给预处理模块,触发这一批次的数据预测动作。
143.其中,数据自动化处理模块中的数据拉取单元,可以通过定时或实时两种方式拉取数据,定时是根据不同频率,如每天、每小时、每分钟来定时执行拉取最新的数据,实时是数据拉取的操作在不停地执行,只要有新的数据录入到数据仓库模块,就可以实时拉取到最新的数据。为了避免拉取到重复的数据,会使用数据仓库中数据的录入时间作为数据的偏移量,并行都会从最新的数据偏移量开始递增地拉取最新的数据。
144.数据自动化处理模块中的偏移量检测单元,可以识别下这一批次数据中最新的数据偏移量,并于已有的数据偏移量做比较,并记录下来最大的数据偏移量,提供给数据拉取单元使用。
145.数据自动化处理模块中的数据推送单元,会把拉取到的数据自动推送给下一个预处理模块进行处理。
146.上述预处理模块会依次对数据自动化处理模块推送过来的数据进行清洗、去水和降噪等预处理操作,处理完了之后会交给预测模块进行预测。
147.上述预测模块会接收已经预处理过的数据,然后使用训练模块已经训练好的算法模型进行预测,预测会针对每条数据生成一组标签,每个标签都会有个置信度的分值,只有达到这个分值的标签才会作为最终的预测结果。预测的结果同时会写入到数据库中,提供给结果展示模块进行展示。
148.结果展示模块用于对已标注数据的标签结果进行展示。
149.参见图6,为本发明实施例提供的一种语料的标签预测装置的实施例框图。如图6
所示,该装置包括:
150.确定模块61,用于确定预设数据库中待预测语料对应的拉取参数;
151.拉取模块62,用于根据所述拉取参数,采用预设的拉取方式拉取所述预设数据库中存储的多个所述待预测语料;
152.预测模块63,用于利用训练好的标签预测模型对多个所述待预测语料进行预测,得到每个所述待预测语料对应的标签。
153.作为一个可能的实现方式,所述确定模块61,具体用于:
154.从预设的存储介质中获取上一次拉取任务存储的历史偏移量;
155.根据所述历史偏移量,确定所述待预测语料的偏移量;
156.将所述偏移量确定为所述待预测语料对应的拉取参数。
157.作为一个可能的实现方式,所述拉取模块62,具体用于:
158.采用定时增量拉取的拉取方式,拉取所述预设数据库中存储的多个待预测语料;
159.或者,
160.采用实时增量拉取的拉取方式,拉取所述预设数据库中存储的多个待预测语料。
161.作为一个可能的实现方式,所述装置还包括(图中未示出):
162.获取模块,用于获取预设的标签树,所述标签树包括语料训练样本、标签训练样本,以及二者之间的对应关系;
163.训练模块,用于利用所述标签树对预设模型进行训练,得到标签预测模型。
164.作为一个可能的实现方式,所述训练模块,具体用于:
165.获取所述标签树包括的语料训练样本、标签训练样本,以及两者之间的对应关系;
166.将所述语料训练样本输入所述预设模型,得到所述预设模型输出的与所述语料训练样本对应的第一标签;
167.根据所述对应关系,确定与所述语料训练样本对应的标签训练样本;
168.将所述第一标签与所述标签训练样本进行比较;
169.在所述第一标签与所述标签训练样本满足预设条件的情况下,停止训练,得到所述标签预测模型;
170.在所述第一标签与所述标签训练样本不满足所述预设条件的情况下,返回执行所述将所述语料训练样本输入所述预设模型的步骤。
171.作为一个可能的实现方式,所述预测模块63,包括:
172.预处理子模块,用于对多个所述待预测语料进行预处理,得到所述待预测语料对应的标准待预测语料;
173.输入子模块,用于将所述标准待预测语料输入所述标签预测模型,得到所述标签预测模型输出的每个待预测语料对应的标签集合;
174.确定子模块,用于针对每个所述待预测语料,从所述标签集合中确定所述待预测语料对应的标签。
175.作为一个可能的实现方式,所述确定子模块,具体用于:
176.确定所述标签集合中的每一标签对应的置信度分值是否大于预设的置信度分值阈值;
177.将所述置信度分值大于所述置信度分值阈值的标签,确定为所述待预测语料对应
的标签。
178.作为一个可能的实现方式,所述装置还包括(图中未示出):
179.接收模块,用于接收输入的非标准语料;
180.格式转换模块,用于将所述非标准语料进行格式转换,得到标准语料;
181.存储模块,用于将所述标准语料作为待预测语料存储至所述预设数据库。
182.图7为本发明实施例提供的一种电子设备的结构示意图,图7所示的电子设备700包括:至少一个处理器701、存储器702、至少一个网络接口704和用户接口703。电子设备700中的各个组件通过总线系统705耦合在一起。可理解,总线系统705用于实现这些组件之间的连接通信。总线系统705除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图7中将各种总线都标为总线系统705。
183.其中,用户接口703可以包括显示器、键盘或者点击设备(例如,鼠标,轨迹球(trackball)、触感板或者触摸屏等)。
184.可以理解,本发明实施例中的存储器702可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(read-only memory,rom)、可编程只读存储器(programmable rom,prom)、可擦除可编程只读存储器(erasable prom,eprom)、电可擦除可编程只读存储器(electrically eprom,eeprom)或闪存。易失性存储器可以是随机存取存储器(random access memory,ram),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的ram可用,例如静态随机存取存储器(static ram,sram)、动态随机存取存储器(dynamic ram,dram)、同步动态随机存取存储器(synchronous dram,sdram)、双倍数据速率同步动态随机存取存储器(double datarate sdram,ddrsdram)、增强型同步动态随机存取存储器(enhanced sdram,esdram)、同步连接动态随机存取存储器(synchlink dram,sldram)和直接内存总线随机存取存储器(direct rambus ram,drram)。本文描述的存储器702旨在包括但不限于这些和任意其它适合类型的存储器。
185.在一些实施方式中,存储器702存储了如下的元素,可执行单元或者数据结构,或者他们的子集,或者他们的扩展集:操作系统7021和应用程序7022。
186.其中,操作系统7021,包含各种系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。应用程序7022,包含各种应用程序,例如媒体播放器(media player)、浏览器(browser)等,用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序7022中。
187.在本发明实施例中,通过调用存储器702存储的程序或指令,具体的,可以是应用程序7022中存储的程序或指令,处理器701用于执行各方法实施例所提供的方法步骤,例如包括:
188.确定预设数据库中待预测语料对应的拉取参数;
189.根据所述拉取参数,采用预设的拉取方式拉取所述预设数据库中存储的多个所述待预测语料;
190.利用训练好的标签预测模型对多个所述待预测语料进行预测,得到每个所述待预测语料对应的标签。
191.上述本发明实施例揭示的方法可以应用于处理器701中,或者由处理器701实现。
处理器701可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器701中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器701可以是通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现成可编程门阵列(field programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件单元组合执行完成。软件单元可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器702,处理器701读取存储器702中的信息,结合其硬件完成上述方法的步骤。
192.可以理解的是,本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现,处理单元可以实现在一个或多个专用集成电路(application specific integrated circuits,asic)、数字信号处理器(digital signal processing,dsp)、数字信号处理设备(dsp device,dspd)、可编程逻辑设备(programmable logic device,pld)、现场可编程门阵列(field-programmable gate array,fpga)、通用处理器、控制器、微控制器、微处理器、用于执行本技术所述功能的其它电子单元或其组合中。
193.对于软件实现,可通过执行本文所述功能的单元来实现本文所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。
194.本实施例提供的电子设备可以是如图7中所示的电子设备,可执行如图1和图2中语料的标签预测方法的所有步骤,进而实现图1和图2中语料的标签预测方法的技术效果,具体请参照图1和图2相关描述,为简洁描述,在此不作赘述。
195.本发明实施例还提供了一种存储介质(计算机可读存储介质)。这里的存储介质存储有一个或者多个程序。其中,存储介质可以包括易失性存储器,例如随机存取存储器;存储器也可以包括非易失性存储器,例如只读存储器、快闪存储器、硬盘或固态硬盘;存储器还可以包括上述种类的存储器的组合。
196.当存储介质中一个或者多个程序可被一个或者多个处理器执行,以实现上述在电子设备侧执行的语料的标签预测方法。
197.所述处理器用于执行存储器中存储的语料的标签预测程序,以实现以下在电子设备侧执行的语料的标签预测方法的步骤:
198.确定预设数据库中待预测语料对应的拉取参数;
199.根据所述拉取参数,采用预设的拉取方式拉取所述预设数据库中存储的多个所述待预测语料;
200.利用训练好的标签预测模型对多个所述待预测语料进行预测,得到每个所述待预测语料对应的标签。
201.专业人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。
专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
202.结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(ram)、内存、只读存储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd-rom、或技术领域内所公知的任意其它形式的存储介质中。
203.以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
技术特征:
1.一种语料的标签预测方法,其特征在于,所述方法包括:确定预设数据库中待预测语料对应的拉取参数;根据所述拉取参数,采用预设的拉取方式拉取所述预设数据库中存储的多个所述待预测语料;利用训练好的标签预测模型对多个所述待预测语料进行预测,得到每个所述待预测语料对应的标签。2.根据权利要求1所述的方法,其特征在于,所述确定预设数据库中待预测语料对应的拉取参数,包括:从预设的存储介质中获取上一次拉取任务存储的历史偏移量;根据所述历史偏移量,确定所述待预测语料的偏移量;将所述偏移量确定为所述待预测语料对应的拉取参数。3.根据权利要求1所述的方法,其特征在于,所述采用预设的拉取方式拉取所述预设数据库中存储的多个所述待预测语料,包括:采用定时增量拉取的拉取方式,拉取所述预设数据库中存储的多个待预测语料;或者,采用实时增量拉取的拉取方式,拉取所述预设数据库中存储的多个待预测语料。4.根据权利要求1所述的方法,其特征在于,所述标签预测模型通过以下方式训练:获取预设的标签树,所述标签树包括语料训练样本、标签训练样本,以及二者之间的对应关系;利用所述标签树对预设模型进行训练,得到标签预测模型。5.根据权利要求4所述的方法,其特征在于,所述利用所述标签树对预设模型进行训练,得到标签预测模型,包括:获取所述标签树包括的语料训练样本、标签训练样本,以及两者之间的对应关系;将所述语料训练样本输入所述预设模型,得到所述预设模型输出的与所述语料训练样本对应的第一标签;根据所述对应关系,确定与所述语料训练样本对应的标签训练样本;将所述第一标签与所述标签训练样本进行比较;在所述第一标签与所述标签训练样本满足预设条件的情况下,停止训练,得到所述标签预测模型;在所述第一标签与所述标签训练样本不满足所述预设条件的情况下,返回执行所述将所述语料训练样本输入所述预设模型的步骤。6.根据权利要求1所述的方法,其特征在于,所述利用训练好的标签预测模型对多个所述待预测语料进行预测,得到每个所述待预测语料对应的标签,包括:对多个所述待预测语料进行预处理,得到所述待预测语料对应的标准待预测语料;将所述标准待预测语料输入所述标签预测模型,得到所述标签预测模型输出的每个待预测语料对应的标签集合;针对每个所述待预测语料,从所述标签集合中确定所述待预测语料对应的标签。7.根据权利要求6所述的方法,其特征在于,所述标签集合中的每一标签对应一个置信度分值,所述针对每个所述待预测语料,从所述标签集合中确定所述待预测语料对应的标
签,包括:确定所述标签集合中的每一标签对应的置信度分值是否大于预设的置信度分值阈值;将所述置信度分值大于所述置信度分值阈值的标签,确定为所述待预测语料对应的标签。8.根据权利要求1所述的方法,其特征在于,所述方法还包括:接收输入的非标准语料;将所述非标准语料进行格式转换,得到标准语料;将所述标准语料作为待预测语料存储至所述预设数据库。9.一种语料的标签预测装置,其特征在于,所述装置包括:确定模块,用于确定预设数据库中待预测语料对应的拉取参数;拉取模块,用于根据所述拉取参数,采用预设的拉取方式拉取所述预设数据库中存储的多个所述待预测语料;预测模块,用于利用训练好的标签预测模型对多个所述待预测语料进行预测,得到每个所述待预测语料对应的标签。10.一种电子设备,其特征在于,包括:处理器和存储器,所述处理器用于执行所述存储器中存储的一种语料的标签预测程序,以实现权利要求1~8中任一项所述的语料的标签预测方法。
技术总结
本发明实施例涉及一种语料的标签预测方法、装置、电子设备,所述方法包括:确定预设数据库中待预测语料对应的拉取参数,根据所述拉取参数,采用预设的拉取方式拉取所述预设数据库中存储的多个所述待预测语料,利用训练好的标签预测模型对多个所述待预测语料进行预测,得到每个所述待预测语料对应的标签。由此,能够实现提高语料标签的预测效率,提高用户体验。验。验。
技术研发人员:简仁贤
受保护的技术使用者:竹间智能科技(上海)有限公司
技术研发日:2023.04.23
技术公布日:2023/7/25
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
