一种模型训练方法和装置与流程
未命名
07-12
阅读:99
评论:0
1.本技术涉及算法训练技术领域,特别是涉及一种模型训练方法和装置。
背景技术:
2.在算法训练过程中,训练数据的数量非常重要。如果训练过程中训练样本的数量不足,则会直接影响到模型训练的训练效果。例如,ai(artificial intelligence人工智能)开放平台中,用户在进行模型训练时,使用的训练数据可能出现数据漏标的情况,进而会将一部分漏标的数据筛选掉,导致训练样本的数量不足,进而影响到训练效果。而重新进行标注时,会有一部分数据已经标注过,进而存在多次标注,导致标注效率高。
3.因此,亟需一种方法可以解决漏标导致训练样本数量不足,重新标注标注效率过低,从而影响到目标模型训练效果的问题。
技术实现要素:
4.本技术实施例的目的在于提供一种模型训练方法和装置,用以解决漏标导致训练样本数量不足,重新标注标注效率过低,从而影响到目标模型训练效果的问题。具体技术方案如下:
5.在本技术实施例的第一方面,提供了一种模型训练方法,所述方法包括:
6.从预先标注的原始数据集中确定部分标注数据集,所述部分标注数据集中的数据的标签类型包括至少一种目标实体类型且不包括所有目标实体类型,所述标签类型为数据中存在的实体类型;所述目标实体类型为目标训练模型所能够识别的目标实体的实体类型;
7.对所述部分标注数据集内各数据中待标注实体类型的实体进行标注,得到增量数据集,其中,所述待标注实体类型为所述标签类型中不包括的所述目标实体类型;
8.通过所述增量数据集训练所述目标模型。
9.在一种可能的实施例中,所述方法还包括:
10.从所述原始数据集中确定全量标注数据集,其中,所述全量标注数据集中包括标注配置类型与所述目标实体类型相同的数据,所述标注配置类型为构建所述原始数据集时被配置需要进行标注的实体类型;
11.通过所述全量标注数据集训练所述目标模型。
12.在一种可能的实施例中,所述对所述部分标注数据集内各数据中待标注实体类型的实体进行标注,得到增量数据集,包括:
13.从所述部分标注数据集中确定待标注数据集,其中,所述待标注数据集包括标注配置类型与所述目标实体类型不同的数据;
14.对所述待标注数据集内各数据中待标注实体类型的实体进行标注,得到增量数据集。
15.在一种可能的实施例中,所述对所述部分标注数据集内各数据中待标注实体类型
的实体进行标注,得到增量数据集,包括:
16.将所述部分标注数据集输入预设标注模型中,得到标注后数据,作为所述增量数据集;所述预设标注模型用于标注包括目标实体类型的实体;
17.所述方法还包括:
18.通过所述增量数据集对所述预设标注模型进行无监督学习。
19.在本技术实施例的第二方面,提供了一种模型训练装置,所述装置包括:
20.待标注模块,用于从预先标注的原始数据集中确定部分标注数据集,所述部分标注数据集中的数据的标签类型包括至少一种目标实体类型且不包括所有目标实体类型,所述标签类型为数据中存在的实体类型;所述目标实体类型为目标训练模型所能够识别的目标实体的实体类型;
21.标注模块,用于对所述部分标注数据集内各数据中待标注实体类型的实体进行标注,得到增量数据集,其中,所述待标注实体类型所述标签类型中不包括的所述目标实体类型;
22.训练模块,用于通过所述增量数据集训练所述目标模型。
23.在一种可能的实施例中,所述装置还包括:
24.全量标注模块,用于从所述原始数据集中确定全量标注数据集,其中,所述全量标注数据集中包括标注配置类型与所述目标实体类型相同的数据,所述标注配置类型为构建所述原始数据集时被配置需要进行标注的实体类型;
25.所述训练模块,还用于通过所述全量标注数据集训练所述目标模型。
26.在一种可能的实施例中,所述标注模块,具体从所述部分标注数据集中确定待标注数据集,其中,所述待标注数据集包括标注配置类型与所述目标实体类型不同的数据;
27.对所述待标注数据集内各数据中待标注实体类型的实体进行标注,得到增量数据集。在一种可能的实施例中,所述标注模块,具体用于将所述部分标注数据集输入预设标注模型中,得到标注后数据,作为所述增量数据集;所述预设标注模型用于标注包括目标实体类型的实体;
28.通过所述增量数据集对所述预设标注模型进行无监督学习。
29.在本技术实施例的第三方面,提供了一种电子设备,包括:
30.存储器,用于存放计算机程序;
31.处理器,用于执行存储器上所存放的程序时,实现如前述第一方面所述的方法。
32.在本技术实施例的第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现如前述第一方面所述的方法。
33.本技术实施例有益效果:
34.本技术实施例提供的一种模型训练方法和装置,可以通过从预先标注的原始数据集中确定部分标注数据集,通过对部分标注数据集重新进行标注,然后将标注后的增量数据用于训练目标模型,进而可以将没有标注的目标实体进行标注,由于本技术中是将部分标注数据集进行重新标注,因此一部分之前被标注的数据就避免了重新标注,可以减少标注量,进而可以解决重新标注效率过低的问题,通过重新标注的数据增量训练目标模型,进而解决影响目标模型训练效果的问题。
35.当然,实施本技术的任一产品或方法并不一定需要同时达到以上所述的所有优点。
附图说明
36.为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的实施例。
37.图1-1为本技术实施例中提供的一种模型训练方法的流程示意图;
38.图1-2为本技术实施例中提供的一种原始数据集标注的过程示意图;
39.图1-3为本技术实施例中提供的一种数据检索的过程示意图;
40.图2-1为本技术实施例中提供的一种模型训练方法的框架示意图;
41.图2-2为本技术实施例中提供的另一种模型训练方法的流程示意图;
42.图3为本技术实施例中提供的一种模型训练装置的装置示意图;
43.图4为本技术实施例中提供的一种电子设备的结构示意图。
具体实施方式
44.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员基于本技术所获得的所有其他实施例,都属于本技术保护的范围。
45.在算法训练过程中,训练数据的质量非常重要,如果混入了不恰当的训练数据,则会影响到模型的训练效果,例如,在ai开放平台中,用户在使用该平台训练目标模型时,使用的训练数据可能出现数据漏标的情况,示例性地,假设目标模型1为识别人和车的模型,而对于数据集a,只标注了人,并没有标注车,则在模型训练过程中,会将数据集a中存在车但未被标注出的数据筛选出去或者只将该数据用于识别人,进而影响到目标模型1的训练参数以及训练效果。
46.基于此,本技术提出一种模型训练方法,如图1-1所示,该方法可以应用于图像检索过程,例如应用于图像训练模型中,该方法可以在获取样本集时,对样本图像进行检索。该方法包括:
47.s101、从预先标注的原始数据集中确定部分标注数据集。
48.其中,部分标注数据集中的数据的标签类型包括至少一种目标实体类型且不包括所有目标实体类型,标签类型为数据中存在的实体类型;目标实体类型为目标训练模型所能够识别的目标实体的实体类型。
49.s102、对部分标注数据集内各数据中待标注实体类型的实体进行标注,得到增量数据集。
50.其中,待标注实体类型为标签类型中不包括的目标实体类型。
51.s103、通过增量数据集训练目标模型。
52.本实施例中,通过从预先标注的原始数据集中确定部分标注数据集,通过对部分
标注数据集重新进行标注,然后将标注后的增量数据用于训练目标模型,进而可以将没有标注的目标实体进行标注,由于本技术中是将部分标注数据集进行重新标注,因此一部分之前被标注的数据就避免了重新标注,可以减少标注量,进而可以解决重新标注效率过低的问题,通过重新标注的数据增量训练目标模型,进而解决影响目标模型训练效果的问题。下面对上述步骤s101-s103进行详细描述。
53.在s101中,预先标注的原始数据集为数据仓库中提前已经标注实体的数据集,其中,可以按照标注配置类型进行标注。例如,在图片数据中,对图片数据中存在的实体进行标注,在音频数据中,对音频数据中的不同音频特征的数据进行标注等等,为了便于描述,以下均以图片数据进行描述。
54.示例性的,假设数据集a应用于人车识别的训练中,数据集a的标注配置类型为:人和车,则将数据集a中数据内的目标实体,即人、车,进行标注,然后将其入库到数据仓库中,以便于后续应用于人车识别模型的训练过程中。其过程如图1-2所示。
55.部分标注数据集中的数据标签类型包括至少一种目标实体类型且不包括所有目标实体类型,示例性的,假设目标实体类型为:人和车,则部分标注数据集中的数据的标签类型应当包含人或车,但是不应当同时包含人和车。示例性的,部分标注数据集中的数据的标签类型可以为人,也可以为车、还可以为人、狗。
56.标签类型用于表示数据中存在的实体类型,例如,数据集b中存在的实体为人,则可以说明,数据b中将人进行了标注。标签类型只是用于表示数据中存在的实体类型,并不是说该数据中只存在该实体类型,而是只将该实体类型进行了标注,其他实体类型并没有标注,该数据中可能还存在有其他实体类型。例如,数据集b中并没有标注车,该数据集b中的数据可能存在车,但并未标注,是否进行标注,需要根据实际应用场景确定。
57.目标实体类型用于表示目标训练模型所能够识别的目标实体的实体类型,例如,假设目标训练模型1为人车识别模型,则该目标训练模型1中所涉及到的实体类型为:人和车,则目标实体类型则为:人和车。假设目标训练模型2为面部识别模型,则该目标训练模型2中所能够识别的实体类型为:人的面部,则目标实体类型则为:人的面部。由此可知,目标实体类型是根据目标训练模型的不同而不同,具体需要根据实际应用场景确定。
58.在s102中,待标注实体类型为标签类型中不包括的目标实体类型。示例性的,假设实体类型a为:人和车,数据集b中存在的标签为:人,则通过上述s101操作后,得到部分标注数据集c,则该部分标注数据集c中的部分数据中存在实体:车,但是并没有进行标注。在s102中,需要将部分标注数据集c中存在实体车的数据进行标注,得到增量数据集d。其中,数据集c中的数据量大于或等于增量数据集d中的数据量。
59.在s103中,利用增量数据集训练目标模型,具体的训练过程根据目标模型的不同而不同,具体根据实际应用场景确定。例如,针对面部识别模型,可以针对不同的训练精确度,进行不同的训练过程。
60.在另一种可能的实施例中,为了提高模型训练的效率,该方法是可以包括:
61.s104、从原始数据集中确定全量标注数据集。
62.其中,全量标注数据集中包括标注配置类型与目标实体类型相同的数据,标注配置类型为构建原始数据集时被配置需要进行标注的实体类型。
63.在本步骤中,原始数据集中包括多个子数据集,例如,原始数据集1中包括子数据
集:数据集a、数据集b、数据集c等,标注配置类型用于构建原始数据集时被配置需要进行标注的实体类型。例如,假设数据集a的标注配置类型为:人和车,则表示数据集a中需要将实体人和车标注出来;假设数据集b的标注配置类型为:车,则表示数据集b中需要将实体车标注出来。
64.如图1-3所示,搜索实体a、b,将标注配置类型为实体a、b作为检索条件加上图片有实体a、b的标签从数据仓库中进行检索。如果原始数据集中的标注配置类型和目标实体类型相同,则表明该数据集中已经将目标实体类型全部标注出来了。
65.示例性的,假设目标模型1为人车识别模型,则目标实体类型为:人和车。假设数据集a的标注配置类型为:人和车,其中,数据集a的标注配置类型为:人和车,表明在数据集a中需要将实体:人和车进行标注出来。观察发现,原始数据集中的数据集a的标注配置类型和目标训练模型1的目标实体类型相同,进而可以得到全量标注数据集1。
66.s105、通过全量标注数据集训练目标模型。
67.示例性地,仍以前述目标模型1为例,由于全量标注数据集1中属于目标实体类型的实体均已经被标注,则可以直接通过全量标注数据集1训练目标模型1。
68.本实施例中,由于原始数据集中的数据的标注配置类型用于构建原始数据集时被配置需要进行标注的实体类型,则当标注配置类型与目标实体类型相同时,则表明需要被标注的实体均已经被标注出来,进而可以得到全量标注数据集,直接通过该全量标注数据集对目标模型进行训练,由于无需再对全量标注数据集进行标注,直接用于训练目标模型,则可以提高训练目标模型的效率。
69.在一种可能的实施例中,在得到部分标注数据集时,由于部分标注数据集中可能存在已经将目标实体类型的实体标注出来的数据,如果重新进行标注的话,则会进一步地影响到模型训练的效率,为了提高模型训练的效率,可以将已经全部标注出目标实体类型的数据筛选出来,只将没有全部标注出目标实体类型的数据进行标注。具体地,上述步骤s102具体可以包括:
70.s1011、从部分标注数据集中确定待标注数据集,其中,待标注数据集包括标注配置类型与目标实体类型不同的数据。
71.s1012、对待标注数据集内各数据中待标注实体类型的实体进行标注,得到增量数据集。
72.示例性地,如表1,假设数据仓库1中存在以下图片:
73.图片编号标签类型所属数据集标注配置类型1人、车a人、车2人a人、车3车a人、车4/a人、车5狗a人、车6人b人7/b人8车c车9/c车
74.表1
75.其中,目标实体类型为:人、车。
76.则通过上述s1011,得到的待标注数据集中的图片为:1、2、3、6、8;
77.标注配置类型和目标实体类型相同的图片为:1、2、3、4、5;
78.其中,将人、车均进行标注的图片为:1、2、3、4、5;
79.由此可知,没有全部将目标实体类型标注出来的图片为6、8;该图片中可能存在目标实体类型的实体,但是没有进行标注。例如,图片6的标注配置类型为人,则该图片6中只将实体人标注出来,对于图片6是否有车,无法确定,需要进一步进行标注。
80.则将图片6和8作为待标注数据集,对待标注数据集内各数据中待标注实体类型的实体进行标注,得到增量数据集。
81.在一种可能的实施例中,可以通过预设标注模型对部分标注数据集进行标注,上述s102具体可以为:
82.s1021、将部分标注数据集输入预设标注模型中,得到标注后数据,作为增量数据集;预设标注模型用于标注包括目标实体类型的实体。
83.本步骤中,预设标注模型用于标注包括目标实体类型的全部实体,该预设标注模型基于不同的应用场景而不同,例如,目标实体类型为:人和车,则该预设标注模型用于将数据集中图片中的人和车全部标注出来。如前述表1中数据集b,数据集b的标注配置类型为:人。则数据集b中只将人标注出来,并没有标注车。此时,预设标注模型1用于将数据集b中的实体车标注出来。表1中数据集c,数据集c的标注配置类型为:车。则数据集c中只将车标注出来,并没有标注人。此时,预设标注模型1用于将数据集c中的实体人标注出来。
84.为了进一步提高预设标注模型的精准度,上述s102还包括:
85.s1022、通过增量数据集对预设标注模型进行无监督学习。
86.本步骤中,通过增量数据对预设标注模型进行无监督学习,每次只要有增量数据则就可以对预设标注模型进行无监督学习,进而提高预设标注模型的精准度。
87.本技术实施例提供了一种模型训练方法,该方法的框架示意图如图2-1所示,部分一致检索后,将得到的部分标注数据通过预设标注模型标出实体得到增量数据,并且通过增量数据对预设标注模型进行增量学习。其中,完全一致检索和部分一致检索分别为:完全一致检索为通过标注配置类型检索出全量标注数据集,部分一致检索为通过标签类型检索出部分标注数据集。如图2-2所示,该方法具体包括:
88.s201、从预先标注的原始数据集中确定部分标注数据集;从原始数据集中确定全量标注数据集。部分标注数据集中的数据的标签类型包括至少一种目标实体类型且不包括所有目标实体类型,标签类型为数据中存在的实体类型;目标实体类型为目标训练模型所能够识别的目标实体的实体类型;全量标注数据集中包括标注配置类型与目标实体类型相同的数据,标注配置类型为构建原始数据集时被配置需要进行标注的实体类型;
89.本步骤中,得到部分标注数据集和得到全量标注数据集的实施过程中可以是同时进行,也可以按照先后顺序进行,具体可以依据实际应用场景确定。
90.s202a、通过全量标注数据集训练目标模型。
91.s202b、对部分标注数据集内各数据中待标注实体类型的实体进行标注,得到增量数据集。
92.其中,待标注实体类型为标签类型中不包括的目标实体类型。
93.上述步骤s202a和s202b可以同时进行,也可以根据上述s201执行过程中得到部分标注数据集和全量标注数据集的先后顺序进行,具体可以依据实际应用场景确定。
94.s203、通过增量数据集训练目标模型。
95.上述步骤s201与前述步骤s101和s104相同、上述步骤s202a与前述步骤s105相同、上述步骤s202b与前述步骤s102相同、上述步骤s203与前述步骤s103相同,具体实施步骤可以参照前述描述,在此不做过多赘述。
96.本实施例中,可以通过从预先标注的原始数据集中确定部分标注数据集,通过对部分标注数据集重新进行标注,然后将标注后的增量数据用于训练目标模型,进而可以将没有标注的目标实体进行标注,由于本技术中是将部分标注数据集进行重新标注,因此一部分之前被标注的数据就避免了重新标注,可以减少标注量,进而可以解决重新标注效率过低的问题,通过重新标注的数据增量训练目标模型,进而解决影响目标模型训练效果的问题。
97.对应于前述一种模型训练方法,本技术还提供了一种模型训练装置,如图3所示,所述装置包括:
98.待标注模块301,用于从预先标注的原始数据集中确定部分标注数据集,所述部分标注数据集中的数据的标签类型包括至少一种目标实体类型且不包括所有目标实体类型,所述标签类型为数据中存在的实体类型;所述目标实体类型为目标训练模型所能够识别的目标实体的实体类型;
99.标注模块302,用于对所述部分标注数据集内各数据中待标注实体类型的实体进行标注,得到增量数据集,其中,所述待标注实体类型为所述标签类型中不包括的所述目标实体类型;
100.训练模块303,用于通过所述增量数据集训练所述目标模型。
101.在一种可能的实施例中,所述装置还包括:
102.全量标注模块304,用于从所述原始数据集中确定全量标注数据集,其中,所述全量标注数据集中包括标注配置类型与所述目标实体类型相同的数据,所述标注配置类型为构建所述原始数据集时被配置需要进行标注的实体类型;
103.所述训练模块303,还用于通过所述全量标注数据集训练所述目标模型。
104.在一种可能的实施例中,所述标注模块302,具体从所述部分标注数据集中确定待标注数据集,其中,所述待标注数据集包括标注配置类型与所述目标实体类型不同的数据;
105.对所述待标注数据集内各数据中待标注实体类型的实体进行标注,得到增量数据集。在一种可能的实施例中,所述标注模块302,具体用于将所述部分标注数据集输入预设标注模型中,得到标注后数据,作为所述增量数据集;所述预设标注模型用于标注包括目标实体类型的实体;
106.通过所述增量数据集对所述预设标注模型进行无监督学习。
107.本技术实施例还提供了一种电子设备,如图4所示,包括:
108.存储器401,用于存放计算机程序;
109.处理器402,用于执行存储器401上所存放的程序时,实现如下步骤:
110.从预先标注的原始数据集中确定部分标注数据集,所述部分标注数据集中的数据
的标签类型包括至少一种目标实体类型且不包括所有目标实体类型,所述标签类型为数据中存在的实体类型;所述目标实体类型为目标训练模型所能够识别的目标实体的实体类型;
111.对所述部分标注数据集内各数据中待标注实体类型的实体进行标注,得到增量数据集,其中,所述待标注实体类型为所述标签类型中不包括的所述目标实体类型;
112.通过所述增量数据集训练所述目标模型;
113.并且上述电子设备还可以包括通信总线和/或通信接口,处理器402、通信接口、存储器401通过通信总线完成相互间的通信。
114.上述电子设备提到的通信总线可以是外设部件互连标准(peripheral component interconnect,pci)总线或扩展工业标准结构(extended industry standard architecture,eisa)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
115.通信接口用于上述电子设备与其他设备之间的通信。
116.存储器可以包括随机存取存储器(random access memory,ram),也可以包括非易失性存储器(non-volatile memory,nvm),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
117.上述的处理器可以是通用处理器,包括中央处理器(central processing unit,cpu)、网络处理器(network processor,np)等;还可以是数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
118.在本技术提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一模型训练方法的步骤。
119.在本技术提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一模型训练方法。
120.在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本技术实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(dsl))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,dvd)、或者半导体介质(例如固态硬盘solid state disk(ssd))等。
121.需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实
体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
122.本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。
123.对于以上所述仅为本技术的较佳实施例,并非用于限定本技术的保护范围。凡在本技术的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本技术的保护范围内。
技术特征:
1.一种模型训练方法,其特征在于,所述方法包括:从预先标注的原始数据集中确定部分标注数据集,所述部分标注数据集中的数据的标签类型包括至少一种目标实体类型且不包括所有目标实体类型,所述标签类型为数据中存在的实体类型;所述目标实体类型为目标训练模型所能够识别的目标实体的实体类型;对所述部分标注数据集内各数据中待标注实体类型的实体进行标注,得到增量数据集,其中,所述待标注实体类型为所述标签类型中不包括的所述目标实体类型;通过所述增量数据集训练所述目标模型。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:从所述原始数据集中确定全量标注数据集,其中,所述全量标注数据集中包括标注配置类型与所述目标实体类型相同的数据,所述标注配置类型为构建所述原始数据集时被配置需要进行标注的实体类型;通过所述全量标注数据集训练所述目标模型。3.根据权利要求1所述的方法,其特征在于,所述对所述部分标注数据集内各数据中待标注实体类型的实体进行标注,得到增量数据集,包括:从所述部分标注数据集中确定待标注数据集,其中,所述待标注数据集包括标注配置类型与所述目标实体类型不同的数据;对所述待标注数据集内各数据中待标注实体类型的实体进行标注,得到增量数据集。4.根据权利要求1所述的方法,其特征在于,所述对所述部分标注数据集内各数据中待标注实体类型的实体进行标注,得到增量数据集,包括:将所述部分标注数据集输入预设标注模型中,得到标注后数据,作为所述增量数据集;所述预设标注模型用于标注包括目标实体类型的实体;所述方法还包括:通过所述增量数据集对所述预设标注模型进行无监督学习。5.一种模型训练装置,其特征在于,所述装置包括:待标注模块,用于从预先标注的原始数据集中确定部分标注数据集,所述部分标注数据集中的数据的标签类型包括至少一种目标实体类型且不包括所有目标实体类型,所述标签类型为数据中存在的实体类型;所述目标实体类型为目标训练模型所能够识别的目标实体的实体类型;标注模块,用于对所述部分标注数据集内各数据中待标注实体类型的实体进行标注,得到增量数据集,其中,所述待标注实体类型为所述标签类型中不包括的所述目标实体类型;训练模块,用于通过所述增量数据集训练所述目标模型。6.根据权利要求5所述的装置,其特征在于,所述装置还包括:全量标注模块,用于从所述原始数据集中确定全量标注数据集,其中,所述全量标注数据集中包括标注配置类型与所述目标实体类型相同的数据,所述标注配置类型为构建所述原始数据集时被配置需要进行标注的实体类型;所述训练模块,还用于通过所述全量标注数据集训练所述目标模型。7.根据权利要求5所述的装置,其特征在于,所述标注模块,具体从所述部分标注数据集中确定待标注数据集,其中,所述待标注数据集包括标注配置类型与所述目标实体类型
不同的数据;对所述待标注数据集内各数据中待标注实体类型的实体进行标注,得到增量数据集。8.根据权利要求5所述的装置,其特征在于,所述标注模块,具体用于将所述部分标注数据集输入预设标注模型中,得到标注后数据,作为所述增量数据集;所述预设标注模型用于标注包括目标实体类型的实体;通过所述增量数据集对所述预设标注模型进行无监督学习。9.一种电子设备,其特征在于,包括:存储器,用于存放计算机程序;处理器,用于执行存储器上所存放的程序时,实现权利要求1-4任一所述的方法。10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-4任一所述的方法。
技术总结
本申请实施例提供了一种模型训练方法和装置,所述方法包括:从预先标注的原始数据集中确定部分标注数据集,所述部分标注数据集中的数据的标签类型包括至少一种目标实体类型且不包括所有目标实体类型,所述标签类型为数据中存在的实体类型;所述目标实体类型为目标训练模型所能够识别的目标实体的实体类型;对所述部分标注数据集内各数据中待标注实体类型的实体进行标注,得到增量数据集,其中,所述待标注实体类型为所述标签类型中不包括的所述目标实体类型;通过所述增量数据集训练所述目标模型。可以解决影响目标模型训练效果的问题。题。题。
技术研发人员:刘浩哲 吴江 包晓旭 许江浩
受保护的技术使用者:杭州海康威视数字技术股份有限公司
技术研发日:2023.03.31
技术公布日:2023/7/7
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
上一篇:一种耐温型防膨粘土稳定剂及其制备方法与流程 下一篇:一种白酒酿造工艺的制作方法
