一种基于人机协作的中文词语替代数据集的构造方法
未命名
08-25
阅读:91
评论:0
1.本发明涉及中文文本替代技术领域,尤其涉及一种基于人机协作的中文词语替代数据集的构造方法。
背景技术:
2.伴随着21世纪互联网技术和网络通信的高速发展,写作已经成为现代人不可或缺的技能之一。在写作过程中,人们往往会遇到“词穷”现象,即无法想到或找到更合适的词语来表达自己的意思,导致文本表达不够精准、生动或多样化。例如,在描述一个人的外貌时,常常会用到“漂亮”这个词语,但是如果多次使用,就会使文本显得单调乏味。此时,中文词语替代技术可以提供帮助,通过将原文中的某个词语替换为其它具有相似含义的词语,让文本更加丰富多彩、易于理解。
3.在自然语言处理领域中,词语替代是一个非常重要的子领域,其主要研究如何自动地将一个词替换成另一个意义相近的词,同时保持原文意思不变。这种技术在很多应用场景中都非常有用,比如文本增强、文本生成、情感分析、信息检索、机器翻译等场景,词语替代是自然语言处理领域中一个非常重要的研究方向,它能够提高很多自然语言处理任务的性能和效果。
4.然而,目前尚缺乏大规模、高质量的中文词语替代数据集。相比之下,许多其他语言已经有了相应的替代数据集,例如英语的coinco等,这些数据集对于英语文本的词语替代研究和应用具有重要作用。而现有的词语替代方法均采用基于神经网络的方法,数据集的规模和质量直接影响着基于神经网络的方法性能。因此,我们构建了第一个中文词语替代数据集,对于促进中文词语替代的自然语言处理技术的发展和应用具有重要意义。
5.由于考虑到人类写作者经常使用重复的模式来制作例子,这样容易导致文本中出现较为单调和缺乏多样性的表述。作为一种主观性强的行为,人们在看到一个文本及其中选中的待替换的目标词时,难以快速提供丰富的词语替代选项。因此,我们提出了一种基于人机协作的构建方法,利用方法生成大量词语替代选项,从中让人工选择合适的词语,从而科学地构建中文词语替代数据集。通过这种方法,我们能够有效地解决人类写作者在使用词语时的单调性和缺乏多样性的问题,同时保证了数据集的准确性和专业性。
6.我们构建的中文词语替代数据集包含大量的中文词语、中文词语所在语境和语境下对应的替代词,并经过了人工标注和质量检查。我们的目标是构建一个规模庞大、高质量的中文词语替代数据集,为中文自然语言处理技术的发展和应用提供有力的支持。
7.通过我们构建的中文词语替代数据集,可以对中文词语替代模型的质量进行评估,为中文文本处理提供更多的选择和可能性。该数据集的开发将有助于推动中文自然语言处理技术的发展,并促进中文信息处理的应用和普及。
技术实现要素:
8.本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施
例。在本部分以及本技术的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊,而这种简化或省略不能用于限制本发明的范围。
9.鉴于上述现有存在的问题,提出了本发明。
10.因此,本发明提供了一种基于人机协作的中文词语替代数据集的构造方法,能够解决人类写作者经常使用重复的模式来制作例子,这样容易导致文本中出现较为单调和缺乏多样性的表述。
11.为解决上述技术问题,本发明提供如下技术方案,一种基于人机协作的中文词语替代数据集的构造方法,包括:
12.选取原始语料进行人工筛选,利用分句工具构建句子集合;
13.将语句进行分词并按照规则筛选待替换的目标词及位置信息,构建中文拼写纠错的数据集,并将数据集划分;
14.生成所有目标词的替代词并生成向标注者提供的待标注信息,构造数据标注网站。
15.作为本发明所述的一种基于人机协作的中文词语替代数据集的构造方法的一种优选方案,其中所述句子集合包括,通过选取新闻、百科、小说的原始语料,利用分句工具对新闻正文进行分句,构成新闻句集合,
16.sentence_n={s0,s2,
…
,s
p
,
…
,s
n1
}
17.0≤p≤n3
18.其中,s
p
为在初始返回新闻句集合sentence_p中第p个句子,n1为sentence_p中句子的数目;
19.利用分句工具对百科正文进行分句,构成初始百科句集合,
20.sentence_n={s0,s2,
…
,sw,
…
,s
n2
}
21.0≤w≤n3
22.其中,sw为在初始返回百科句集合sentence_w中第w个句句子,n2为sentence_w中句子的数目;
23.利用分句工具对小说正文进行分句,构成初始小说句集合,
24.sentence_n={s0,s2,
…
,si,
…
,s
n3
}
25.0≤i≤n3
26.其中,si为在初始返回百科句集合sentence_n中第i个句句子,n3为sentence_n中句子的数目。
27.作为本发明所述的一种基于人机协作的中文词语替代数据集的构造方法的一种优选方案,其中:所述筛选待替换的目标词及位置信息包括,选择三种语料,得到所有句子合集sentence;
28.sk∈sentence
29.0≤k≤n
sen
30.利用分词和词性标注工具进行划分,
[0031][0032]wk;i
=(word
k;i
;pos
k;i
)
[0033]
其中,nk表示sk中词语的总数目-1,word
k;i
表示sk中第i个词,pos
k;i
表示sk中第i个
词的词性,sk为sentence中的第k个句子,w
k;i
为sk中的第i个词,为sk中的最后一个词,sk所含词的总数位nk,n
sen
为句子合集总数目;
[0034]
对sk中的所有w
k;i
,0≤i≤nk,若pos
k;i
∈{adj,adv,n,v},则word
k;i
被选为目标词;
[0035]
记录sentence中位置j的目标词信息,
[0036]
infoj={sk,wtj,i}
[0037]
j=(k;i)
[0038]
wtj=word
k;i
[0039]
0≤k≤n
sen
[0040]
0≤i≤nk[0041]
0≤k+i≤wtn[0042]
其中,wtj为目标词,wtn为sentence中所有目标词数目,k为句子集合sentence中句子的序号,i为sk分词后所得词中的第i个词,infoj为位置j的目标词所在句子、目标词、目标词索引信息构成的集合,j为目标词位置信息,由句子索引k和目标词索引i构成;
[0043]
将所有的infoj构成一个集合info。
[0044]
作为本发明所述的一种基于人机协作的中文词语替代数据集的构造方法的一种优选方案,其中:所述生成所有目标词的替代词包括,info中所有的infoj∈info,利用词语替代法生成替代词wtj的候选替代词列表,
[0045][0046]
其中,sublistj为sentence中位置为j的目标词的替代词列表,为sentence中位置为j的目标词的替代词集合里的第s个词,为sublistj里的sentence中位置为j的目标词的替代词集合里的最后一个词,sublistj长度为15;
[0047]
当sublistj加入infoj时,
[0048]
new_infoj={sk,wtj,i,sublistj}
[0049]
将所有的new_infoj构成一个集合new_info。
[0050]
作为本发明所述的一种基于人机协作的中文词语替代数据集的构造方法的一种优选方案,其中:所述生成向标注者提供的待标注信息包括,
[0051][0052]
0≤p≤3
[0053]
j=(k;i),0≤k≤n
sen
,0≤i≤nk[0054]
其中,为目标词和目标词的部分替代词列表,p表示目标词提供给第p个标注者进行标注,p同时代表目标词已经被标注的次数,0≤p≤3;
[0055]
当每一个new_infoj∈new_info,生成四条不一样的待标注条目,
[0056][0057]
其中,待标注条目中不一样的部分是系统所提供的目标词候选项
[0058]
作为本发明所述的一种基于人机协作的中文词语替代数据集的构造方法的一种
优选方案,其中:所述构造数据标注网站包括,将在标注网站提供给上选择第p个(0≤p≤3)标注者,第p个标注者对进行选择,选择结果保存为其中j=(k;i),0≤k≤n
sen
,0≤i≤nk。
[0059]
作为本发明所述的一种基于人机协作的中文词语替代数据集的构造方法的一种优选方案,其中:所述数据集包括,将收集的所有0≤p≤3,其中,j=(k;i),0≤k≤n
sen
,0≤i≤nk,提取出原句子、目标词、替代词标注结果,构建出数据集,
[0060]
data={data0,
…
,datad,
…
,datan},
[0061]
0≤d≤n,
[0062][0063]
其中,data为所有目标词及其标注结果构成的集合,datad为data中第d个目标词及其标注结果构成的数据条目,datan为data中最后一个目标词及其标注结果构成的数据条目,d为data集合中的第d个数据条目序号,n为data集合中的最后一个数据条目序号,其值为所有目标词总数-1。
[0064]
作为本发明所述的一种基于人机协作的中文词语替代数据集的构造方法的一种优选方案,其中:所述将数据集划分包括,验证集datad和测试集datat。
[0065]
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如上所述方法的步骤。
[0066]
一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如上所述方法的步骤。
[0067]
本发明的有益效果:本发明方法基于人机协作的构建方法,利用方法生成大量词语替代选项,从中让人工选择合适的词语,从而科学地构建中文词语替代数据集。通过这种方法,我们能够有效地解决人类写作者在使用词语时的单调性和缺乏多样性的问题,同时保证了数据集的准确性和专业性。采用了多个标注者对同一目标词进行标注的方法,以确保数据的准确性和公平性。在标注数据的过程中,我们为标注者提供了丰富的标注规则和标注指南,同时进行了严格的质量控制和审核,从而保证了数据的高质量和准确性。
附图说明
[0068]
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。其中:
[0069]
图1为本发明一个实施例提供的一种基于人机协作的中文词语替代数据集的构造方法流程示意图;
[0070]
图2为本发明一个实施例提供的一种基于人机协作的中文词语替代数据集的构造方法的中文词语润色标注系统首页示意图;
[0071]
图3为本发明一个实施例提供的一种基于人机协作的中文词语替代数据集的构造方法的公开的数据集发布首页示意图。
具体实施方式
[0072]
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合说明书附图对本发明的具体实施方式做详细的说明,显然所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明的保护的范围。
[0073]
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。
[0074]
其次,此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例,也不是单独的或选择性的与其他实施例互相排斥的实施例。
[0075]
本发明结合示意图进行详细描述,在详述本发明实施例时,为便于说明,表示器件结构的剖面图会不依一般比例作局部放大,而且所述示意图只是示例,其在此不应限制本发明保护的范围。此外,在实际制作中应包含长度、宽度及深度的三维空间尺寸。
[0076]
同时在本发明的描述中,需要说明的是,术语中的“上、下、内和外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一、第二或第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
[0077]
本发明中除非另有明确的规定和限定,术语“安装、相连、连接”应做广义理解,例如:可以是固定连接、可拆卸连接或一体式连接;同样可以是机械连接、电连接或直接连接,也可以通过中间媒介间接相连,也可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
[0078]
实施例1
[0079]
参照图1,为本发明的第一个实施例,该实施例提供了一种基于人机协作的中文词语替代数据集的构造方法,包括:
[0080]
s1:选取原始语料进行人工筛选,利用分句工具构建句子集合;
[0081]
更进一步的,所述句子集合包括,通过选取新闻、百科、小说的原始语料,利用分句工具对新闻正文进行分句,构成新闻句集合,
[0082]
sentence_n={s0,s2,
…
,s
p
,
…
,s
n1
}
[0083]
0≤p≤n3
[0084]
其中,s
p
为在初始返回新闻句集合sentence_p中第p个句子,n1为sentence_p中句子的数目;
[0085]
利用分句工具对百科正文进行分句,构成初始百科句集合,
[0086]
sentence_n={s0,s2,
…
,sw,
…
,s
n2
}
[0087]
0≤w≤n3
[0088]
其中,sw为在初始返回百科句集合sentence_w中第w个句句子,n2为sentence_w中句子的数目;
[0089]
利用分句工具对小说正文进行分句,构成初始小说句集合,
[0090]
sentence_n={s0,s2,
…
,si,
…
,s
n3
}
[0091]
0≤i≤n3
[0092]
其中,si为在初始返回百科句集合sentence_n中第i个句句子,n3为sentence_n中句子的数目。
[0093]
应说明的是,对人民日报(新闻)、维基百科(百科)、近代中文出版小说(小说)的内容进行人工筛选,选取新闻、百科、小说三种类型的原始语料。利用分句工具得到新闻语料句子集合sentence_p、百科语料句子集合sentence_w、小说语料句子集合sentence_n。
[0094]
更进一步的,选择多种语料,是为了让这个数据集能够更好地反映中文语言的多样性和复杂性,我们需要选择多种语料进行标注和构建。
[0095]
s2:将语句进行分词并按照规则筛选待替换的目标词及位置信息,构建数据集,并将数据集划分;
[0096]
应说明的是,选择三种语料,得到所有句子合集sentence;由于考虑到需要按语料划分数据集,所以分别选择三种语料进行构建步骤的说明。
[0097]
更进一步的,所述筛选待替换的目标词及位置信息包括,选择三种语料,得到所有句子合集sentence;
[0098]
sk∈sentence
[0099]
0≤k≤n
sen
[0100]
利用分词和词性标注工具进行划分,
[0101][0102]wk;i
=(word
k;i
;pos
k;i
)
[0103]
其中,nk表示sk中词语的总数目-1,word
k;i
表示sk中第i个词,pos
k;i
表示sk中第i个词的词性,sk为sentence中的第k个句子,w
k;i
为sk中的第i个词,为sk中的最后一个词,sk所含词的总数位nk,n
sen
为句子合集总数目;
[0104]
对sk中的所有w
k;i
,0≤i≤nk,若pos
k;i
∈{adj,adv,n,v},则word
k;i
被选为目标词;
[0105]
记录sentence中位置j的目标词信息,
[0106]
infoj={sk,wtj,i}
[0107]
j=(k;i)
[0108]
wtj=word
k;i
[0109]
0≤k≤n
sen
[0110]
0≤i≤nk[0111]
0≤k+i≤wtn[0112]
其中,wtj为目标词,wtn为sentence中所有目标词数目,k为句子集合sentence中句子的序号,即句子索引,i为sk分词后所得词中的第i个词,即目标词索引,infoj为位置j的目标词所在句子、目标词、目标词索引信息构成的集合,j为目标词位置信息,由句子索引k和目标词索引i构成;
[0113]
将所有的infoj构成一个集合info。
[0114]
更进一步的,选择新闻语料,令sentence=sentence_p,n
sen
=n1。
[0115]
更进一步的,选择百科语料,令sentence=sentence_w,n
sen
=n2。
[0116]
应说明的是,选择小说语料,令sentence=sentence_n,n
sen
=n3。
[0117]
更进一步的,当k=0,i=0,j=(k;i),取出info中的infoj={sk,wtj,i},
[0118]
利用4种方法a、b、c、d,生成关于替代词wtj的一个候选替代词列表的一个候选替代词列表方法a是一种由腾讯公司开发的基于词向量的方法。方法b是一种基于bert预处理模型的词语替代方法。方法c是一种基于哈工大信息检索研究室发布的同义词词典的词语替代方法。方法d是一种基于复述模型的词语替代方法。
[0119]
应说明的是,所述生成所有目标词的替代词包括,info中所有的infoj∈info,利用词语替代法生成替代词wtj的候选替代词列表,
[0120][0121]
其中,sublistj为sentence中位置为j的目标词的替代词列表,为sentence中位置为j的目标词的替代词集合里的第s个词,为sublistj里的sentence中位置为j的目标词的替代词集合里的最后一个词,sublistj长度为15;
[0122]
当sublistj加入infoj时,
[0123]
new_infoj={sk,wtj,i,sublistj}
[0124]
将所有的new_infoj构成一个集合new_info。
[0125]
更进一步的,把sublistj加入infoj得到new_infoj={sk,wtj,i,sublistj}。nweinfoj加入集合new_info,令i=i+1,直到0≤i≤nk处理完,令k=k+1,直到0≤k≤n
sen
处理完,得到集合new_info。
[0126]
s3:生成所有目标词的替代词并生成向标注者提供的待标注信息,构造数据标注网站。
[0127]
更进一步的,所述生成向标注者提供的待标注信息包括,
[0128][0129]
0≤p≤3
[0130]
j=(k;i),0≤k≤n
sen
,0≤i≤nk[0131]
其中,为目标词和目标词的部分替代词列表,p表示该目标词提供给第p个标注者进行标注,即标注者索引,p同时代表该目标词已经被标注的次数,0≤p≤3;
[0132]
当每一个new_infoj∈new_info,生成四条不一样的待标注条目
[0133][0134]
其中,待标注条目中不一样的部分是系统所提供的目标词候选项
[0135]
更进一步的,得到4条不一样的待标注条目,
[0136][0137]
令skip={m,m+4,m+8,m+12},0≤m≤3,m表示第j个目标词已经被m个标注者标注过。设p初值为0,m初值为0。对于给定的p,m和j,生成令js初值为0。设置空替代词列表若js不属于skip,则将加入列表是sublistj的第js个元素。令js=js+1返回对js处理步骤,直至0≤js≤15处理完毕。此时得到了列表此时令p=p+1,m=m+1,重新得到4条不一样的待标注条目,直至(0≤p≤3)处理完毕;令i=i+1,,重新初始i为0,直到0≤i≤nk处理完毕。nk是sk里所有目标词数目,令k=k+1返回步骤直到0≤k≤n
sen
,n
sen
是sentence中句子数目,处理完毕。此时得到了所有待标注条目其中0≤p≤3,j=(k;i),0≤k≤n
sen
,0≤i≤nk。
[0138]
应说明的是,所述构造数据标注网站包括,将在标注网站提供给上选择第p个(0≤p≤3)标注者,第p个标注者对进行选择,选择结果保存为其中j=(j;i),0≤k≤n
sen
,0≤i≤nk。
[0139]
更进一步的,所述数据集包括,将收集的所有0≤p≤3,其中,j=(k;i),0≤k≤n
sen
,0≤i≤nk,提取出原句子、目标词、替代词标注结果,构建出数据集,
[0140]
data={data0,
…
,datad,
…
,datan},
[0141]
0≤d≤n,
[0142][0143]
其中,data为所有目标词及其标注结果构成的集合,datad为data中第d个目标词及其标注结果构成的数据条目,datan为data中最后一个目标词及其标注结果构成的数据条目,d为data集合中的第d个数据条目序号,即数据条目索引,n为data集合中的最后一个数据条目序号,其值为所有目标词总数-1。
[0144]
应说明的是,所述将数据集划分包括,验证集datad和测试集datat。
[0145]
应说明的是,为了实现对模型的性能进行评估和验证。通过将数据集划分为训练集和测试集,我们可以使用训练集来训练模型,然后使用测试集来验证模型的性能和泛化能力。
[0146]
更进一步的,利用所述data={data0,
…
,datad,
…
,datan},0≤d≤n,对于其中所有datad进行处理。0≤p≤3,j=(k;i),0≤k≤n
sen
0≤i≤nk。令ennumt=n
sen-n
sen
/2;令p=0,k=0,j=(k;i);将datad加入集合datad,令p=p+1,直到0≤p≤3处理完。
[0147]
令k=k+1,直到0≤k≤sennumd处理完,得到datad,令p=0,k=0,j=(k;i),将datad加入集合datat,令p=p+1,直到0≤p≤3处理完。令k=k+1,直到0≤k≤sennumt处理完,得到datat。
[0148]
实施例2
[0149]
参照图2,为本发明的一个实施例,提供了一种基于人机协作的中文词语替代数据集的构造方法,为了验证本发明的有益效果,通过实验进行科学论证。
[0150]
本发明主要采用构建的中文词语替代数据集包含三种语料,各自具有逾48,000个
标注结果,涵盖近12,000个样例。平均而言,每个样例包含接近5个替代词。此外,数据集中总共涵盖超过3500句话。这些数量级充分体现了数据集的规模和丰富程度,该数据集还具备良好的多样性和代表性,能够满足不同场景下的替代需求,为其在实践中应用提供了坚实的基础。
[0151]
表1为我方发明在模拟仿真试验下,获得的部分有益效果示意图。
[0152][0153]
根据表1可知,我方发明通过构建中文词语替代数据集进行如下优选操作,
[0154]
1.数据集规模较大:共有144,708个标注结果、35,941个样例和3,533个句子。这种大规模的数据集可以提高神经网络模型的准确性和鲁棒性。
[0155]
2.数据集覆盖多种语料:该数据集包括维基百科wiki、小说novel和新闻news等多种语料,能够涵盖不同领域的语言使用特点,有利于提高模型在不同领域中的泛化能力。
[0156]
3.数据集样本质量高:平均每个样例有4.9个替代词,能够为研究者提供充足的数据支持,同时样例平均替代词数量在不同语料中保持一定的稳定性。
[0157]
4.数据集标注准确性高:针对一个目标词,多个标注者进行标注,保证了标注结果的准确公平性。
[0158]
如图3所示,本发明将构建的数据集公开,具体链接为https://github.com/leeying9/cws-dataset。
[0159]
应说明的是,以上实施例仅用于说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。
[0160]
实施例3
[0161]
本发明第三个实施例,其不同于前两个实施例的是:
[0162]
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存
储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0163]
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
[0164]
计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置)、便携式计算机盘盒(磁装置)、随机存取存储器(ram)、只读存储器(rom)、可擦除可编辑只读存储器(eprom或闪速存储器)、光纤装置以及便携式光盘只读存储器(cdrom)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
[0165]
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(pga),现场可编程门阵列(fpga)等。
技术特征:
1.一种基于人机协作的中文词语替代数据集的构造方法,其特征在于:包括,选取原始语料进行人工筛选,利用分句工具构建句子集合;将语句进行分词并按照规则筛选待替换的目标词及位置信息,构建中文拼写纠错的数据集,并将数据集划分;生成所有目标词的替代词并生成向标注者提供的待标注信息,构造数据标注网站。2.如权利要求1所述的一种基于人机协作的中文词语替代数据集的构造方法,其特征在于:所述句子集合包括,通过选取新闻、百科、小说的原始语料,利用分句工具对新闻正文进行分句,构成新闻句集合,sentence_n={s0,s2,
…
,s
p
,
…
,s
n1
}0≤p≤n3其中,s
p
为在初始返回新闻句集合sentence_p中第p个句子,n1为sentence_p中句子的数目;利用分句工具对百科正文进行分句,构成初始百科句集合,sentence_n={s0,s2,
…
,s
w
,
…
,s
n2
}0≤w≤n3其中,s
w
为在初始返回百科句集合sentence_w中第w个句句子,n2为sentence_w中句子的数目;利用分句工具对小说正文进行分句,构成初始小说句集合,sentence_n={s0,s2,
…
,s
i
,
…
,s
n3
}0≤i≤n3其中,s
i
为在初始返回百科句集合sentence_n中第i个句句子,n3为sentence_n中句子的数目。3.如权利要求3所述的一种基于人机协作的中文词语替代数据集的构造方法,其特征在于:所述筛选待替换的目标词及位置信息包括,选择语料,得到所有句子合集sentence;s
k
∈sentence0≤k≤n
sen
利用分词和词性标注工具进行划分,w
k;i
=(word
k;i
;pos
k;i
)其中,n
k
表示s
k
中词语的总数目-1,word
k;i
表示s
k
中第i个词,pos
k;i
表示s
k
中第i个词的词性,s
k
为sentence中的第k个句子,w
k;i
为s
k
中的第i个词,为s
k
中的最后一个词,s
k
所含词的总数位n
k
,n
sen
为句子合集总数目;对s
k
中的所有w
k;i
,0≤i≤n
k
,若pos
k;i
∈{adj,adv,n,v},则word
k;i
被选为目标词;记录sentence中位置j的目标词信息,info
j
={s
k
,wt
j
,i}j=(k;i)wt
j
=word
k;i
0≤k≤n
sen
0≤i≤n
k
0≤k+i≤wt
n
其中,wt
j
为目标词,wt
n
为sentence中所有目标词数目,k为句子集合sentence中句子的序号,i为s
k
分词后所得词中的第i个词,info
j
为位置j的目标词所在句子、目标词、目标词索引信息构成的集合,j为目标词位置信息,由句子索引k和目标词索引i构成;将所有的info
j
构成一个集合unfo。4.如权利要求3所述的一种基于人机协作的中文词语替代数据集的构造方法,其特征在于:所述生成所有目标词的替代词包括,info中所有的info
j
∈info,利用词语替代法生成替代词wt
j
的候选替代词列表,其中,sublist
j
为sentence中位置为j的目标词的替代词列表,为sentence中位置为j的目标词的替代词集合里的第s个词,为sublist
j
里的sentence中位置为j的目标词的替代词集合里的最后一个词,sublist
j
长度为15;当sublist
j
加入info
j
时,new_info
j
={s
k
,wt
j
,i,sublist
j
}将所有的new_info
j
构成一个集合new_info。5.如权利要求4所述的一种基于人机协作的中文词语替代数据集的构造方法,其特征在于:所述生成向标注者提供的待标注信息包括,0≤p≤3j=(k;i),0≤k≤n
sen
,0≤i≤n
k
其中,为目标词和目标词的部分替代词列表,p表示目标词提供给第p个标注者进行标注,p同时代表目标词已经被标注的次数;当每一个new_info
j
∈new_info,生成四条不一样的待标注条目,其中,待标注条目中不一样的部分是系统所提供的目标词候选项6.如权利要求5所述的一种基于人机协作的中文词语替代数据集的构造方法,其特征在于:所述构造数据标注网站包括,将在标注网站提供给上选择第p个标注者,第p个标注者对进行选择,选择结果保存为,其中j=(k;i),0≤k≤n
sen
,0≤i≤n
k
。7.如权利要求6所述的一种基于人机协作的中文词语替代数据集的构造方法,其特征在于:所述中文拼写纠错的数据集包括,将收集的所有在于:所述中文拼写纠错的数据集包括,将收集的所有其中,j=(k;i),0≤k≤n
sen
,0≤i≤n
k
,提取出原句子、目标词、替代词标注结果,构建数据集,data={data0,
…
,data
d
,
…
,data
n
},0≤d≤n,
其中,data为所有目标词及其标注结果构成的集合,data
d
为data中第d个目标词及其标注结果构成的数据条目,data
n
为data中最后一个目标词及其标注结果构成的数据条目,d为data集合中的第d个数据条目序号,n为data集合中的最后一个数据条目序号,其值为所有目标词总数-1。8.如权利要求7所述的一种基于人机协作的中文词语替代数据集的构造方法,其特征在于:所述将数据集划分包括,验证集datad和测试集datat。9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述的方法的步骤。10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。
技术总结
本发明公开了一种基于人机协作的中文词语替代数据集的构造方法包括,选取原始语料进行人工筛选,利用分句工具构建句子集合;将语句进行分词并按照规则筛选待替换的目标词及位置信息,构建中文拼写纠错的数据集,并将数据集划分;生成所有目标词的替代词并生成向标注者提供的待标注信息,构造数据标注网站。基于人机协作的构建方法,利用方法生成大量词语替代选项构建中文词语替代数据集。采用了多个标注者对同一目标词进行标注的方法,以确保数据的准确性和公平性。为标注者提供了丰富的标注规则和标注指南,同时进行了严格的质量控制和审核,保证了数据的高质量和准确性。保证了数据的高质量和准确性。保证了数据的高质量和准确性。
技术研发人员:李滢 强继朋 刘康
受保护的技术使用者:扬州大学
技术研发日:2023.04.24
技术公布日:2023/8/22
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
上一篇:一种多规格集成型充电器的制作方法 下一篇:电池保护芯片和电池管理系统的制作方法
