一种中文文旅类的命名实体识别方法

未命名 08-15 阅读:139 评论:0


1.本发明属于信息提取技术领域,具体涉及一种中文文旅类的命名实体识别方法。


背景技术:

2.命名实体识别(ner)是一项基本的信息提取任务,在自然语言处理(nlp)中能应用于许多下游任务,如信息抽取、社交媒体分析、搜素引擎、机器翻译、知识图谱。ner的目标是从句子中提取一些预定义的特定实体,并识别它们的正确类型,如人、地点、组织。早期的命名实体识别分为两类:基于规则的方法和基于统计的方法。随着深度学习的日渐强大,ner的研究取得了非常大的进步。涉及的领域多种多样:如医疗领域、金融领域、新闻领域等。但文旅类的命名实体识别的研究非常的稀缺,文旅类的命名实体识别的研究却没有受到关注。
3.根据语言之间的差异,关于特定语言的ner方法的研究也很多,如英语、阿拉伯语、印度语和其他语言,许多研究者主要集中于英文ner的研究。但中文身为一个重要的国际通用语言,在与英文相比,中文有它自己本身的特点,但对于中文ner的研究却相对英文ner来说却少很多,而且很多关于中文ner的研究都没有根据中文的特点做出针对性的研究。


技术实现要素:

4.针对现有技术中的上述不足,本发明提供的一种中文文旅类的命名实体识别方法解决了目前的命名实体识别研究对中文文旅类的关注度较少的问题。
5.为了达到上述发明目的,本发明采用的技术方案为:一种中文文旅类的命名实体识别方法,包括以下步骤:
6.s1、获取中文文旅类文本数据,并将其输入至字符嵌入层,得到字符向量表示;
7.s2、将字符向量表示输入至双向长短期记忆网络层,得到上下文表示;
8.s3、将上下文表示输入至cnn层,得到多尺度的局部上下文特征融合表示;
9.s4、将多尺度的局部上下文特征融合表示输入至crf层,通过crf层进行序列标注,完成中文文旅类的命名实体识别。
10.进一步地:所述s1中,字符嵌入层包括并行的chinesebert模块和第一cnn模块;
11.所述s1包括以下分步骤:
12.s11、获取中文文旅类文本数据;
13.s12、将中文文旅类文本数据输入至chinesebert模块,得到中文文旅类文本数据中每个字的字嵌入向量表示;
14.s13、将中文文旅类文本数据输入至第一cnn模块,得到部首级嵌入表示;
15.s14、将字嵌入向量表示与部首级嵌入表示进行拼接,得到字符向量表示。
16.进一步地:所述s12具体为:
17.将中文文旅类文本数据输入至chinesebert模块,通过chinesebert模块对输入的中文文旅类文本数据进行编码表示,得到特征向量,根据特征向量生成中文文旅类文本数
据中每个字的字嵌入向量表示;
18.其中,所述特征向量包括标记嵌入、位置嵌入和分段嵌入。
19.进一步地:所述s13中,得到部首级嵌入表示m2的表达式具体为:
20.m2=a1(b1+c1(x))
21.式中,x为汉字部首级特征,c1(
·
)为第一cnn模块,a1为第一激活函数,b1为第一cnn模块的偏重。
22.进一步地:所述s14中,得到字符向量表示z
concat
的表达式具体为:
23.z
concat
=m1+m224.式中,m1为字嵌入向量表示。
25.上述进一步方案的有益效果为:经过字嵌入向量表示和部首级嵌入表示拼接得到的字符向量表示能够得到更多的语义特征,使得模型更好的识别文本中的中文含义。
26.进一步地:所述s2中,双向长短期记忆网络层包括第一~第十二lstm单元,所述第一~第六lstm单元正向处理输入的字符向量表示,所述第七~第十二lstm单元反向处理输入的字符向量表示;
27.得到上下文表示的方法具体为:
28.根据第一~第十二lstm单元的输出结果进行拼接,得到上下文表示。进一步地:
29.进一步地:所述s2中,得到上下文表示h的表达式具体为:
30.h={h1,...,h
ti
,...,hd}
31.式中,h
ti
为第一~第十二lstm单元的输出结果进行拼接,ti为拼接的序号,且ti=1,

,d,d为字符向量表示的维度;
32.所述第一~第十二lstm单元均包括输入门i
t
、输出门o
t
和遗忘门f
t
,其表达式具体为下式:
33.i
t
=σ(w
xi
x
t
+w
hiht-1
+w
cict-1
+bi)
34.f
t
=σ(w
xf
x
t
+w
hfht-1
+w
cfct-1
+bf)
35.c
t
=f
t
⊙ct-1
+i
t

tanh(w
xc
x
t
+w
hcht-1
+bc)
36.o
t
=σ(w
xo
x
t
+w
hoht-1
+w
coct
+bo)
37.h
t
=o
t

tanh(c
t
)
38.式中,σ(
·
)为逐元的sigmoid函数,tanh(
·
)为双曲切线函数,

为逐元相乘函数,w
xi
、w
hi
、w
ci
、w
xf
、w
hf
、w
cf
、w
xc
、w
hc
、w
xo
、w
ho
和w
co
均为权重参数,bi、bf、bc和bo均为偏重参数,c
t
为记忆细胞,h
t
为输出结果。
39.进一步地:所述s3中,cnn层设置有第二cnn模块,得到多尺度的局部上下文特征融合表示m3的表达式具体为:
40.m3=a2(b2+c2(h))
41.式中,h为下文表示,c2(
·
)为第二cnn模块,a2为第二激活函数,b2为第二cnn模块的偏重。
42.上述进一步方案的有益效果为:将上下文表示输入至第二cnn模块,能够加强语义之间的相关性,生成多尺度的局部上下文特征融合表示。
43.本发明的有益效果为:本发明提供的一种中文文旅类的命名实体识别方法解决了对中文旅游类的命名实体识别研究的关注度较少的问题,针对于中文的文旅类文本数据进
行网络搭建,在字符嵌入层利用第一cnn模块学习基于中文的部首级嵌入表示,得到有利于中文识别的字符向量表示,在cnn层利用第二cnn模块学习多尺度的局部上下文特征融合表示,加强语义之间的相关性,进一步提高有利于中文识别的特征表示。
附图说明
44.图1为本发明的一种中文文旅类的命名实体识别方法流程图。
45.图2为本发明整体的网络结构示意图。
46.图3为本发明的chinesebert模块的结构示意图。
47.图4为本发明的第一cnn模块的结构示意图。
48.图5为本发明的第二cnn模块的结构示意图。
具体实施方式
49.下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
50.如图1所示,在本发明的一个实施例中,一种中文文旅类的命名实体识别方法,包括以下步骤:
51.s1、获取中文文旅类文本数据,并将其输入至字符嵌入层,得到字符向量表示;
52.s2、将字符向量表示输入至双向长短期记忆网络层,得到上下文表示;
53.s3、将上下文表示输入至cnn层,得到多尺度的局部上下文特征融合表示;
54.s4、将多尺度的局部上下文特征融合表示输入至crf层,通过crf层进行序列标注,完成中文文旅类的命名实体识别。
55.在本实施例中,本发明提供一种针对中文汉字特点且适用领域为文旅类数据的基于部首级特征和多尺度的局部上下文特征融合表示的中文文旅的命名实体识别方法,网络的具体结构如图2所示。
56.所述s1中,字符嵌入层包括并行的chinesebert模块和第一cnn模块;
57.所述s1包括以下分步骤:
58.s11、获取中文文旅类文本数据;
59.s12、将中文文旅类文本数据输入至chinesebert模块,得到中文文旅类文本数据中每个字的字嵌入向量表示;
60.s13、将中文文旅类文本数据输入至第一cnn模块,得到部首级嵌入表示;
61.s14、将字嵌入向量表示与部首级嵌入表示进行拼接,得到字符向量表示。
62.在本实施例中,chinesebert模块的结构如图3所示,chinesebert模块是通过中文语料预训练得到的预训练模型,专门针对于中文的文本数据进行处理。
63.所述s12具体为:
64.将中文文旅类文本数据输入至chinesebert模块,通过chinesebert模块对输入的中文文旅类文本数据进行编码表示,得到特征向量,根据特征向量生成中文文旅类文本数据中每个字的字嵌入向量表示;
65.其中,所述特征向量包括标记嵌入、位置嵌入和分段嵌入。
66.所述s13中,得到部首级嵌入表示m2的表达式具体为:
67.m2=a1(b1+c1(x))
68.式中,x为汉字部首级特征,c1(
·
)为第一cnn模块,a1为第一激活函数,b1为第一cnn模块的偏重。
69.在本实施例中,利用cnn对输入的中文文旅类文本数据进行部首级嵌入表示radical-level representation,得到部首级嵌入表示,其中第一cnn模块对输入数据进行radical representaion的结构示意图如图4所示。
70.所述s14中,得到字符向量表示z
concat
的表达式具体为:
71.z
concat
=m1+m272.式中,m1为字嵌入向量表示。
73.经过字嵌入向量表示和部首级嵌入表示拼接得到的字符向量表示能够得到更多的语义特征,使得模型更好的识别文本中的中文含义。
74.所述s2中,双向长短期记忆网络层包括第一~第十二lstm单元,所述第一~第六lstm单元正向处理输入的字符向量表示,所述第七~第十二lstm单元反向处理输入的字符向量表示;
75.得到上下文表示的方法具体为:
76.根据第一~第十二lstm单元的输出结果进行拼接,得到上下文表示。
77.在本实施例中,双向长短期记忆网络层得到上下文表示块能够从正反两个方向提升语义表示,能够更好的识别段落中的语义。
78.所述s2中,得到上下文表示h的表达式具体为:
79.h={h1,...,h
ti
,...,hd}
80.式中,h
ti
为第一~第十二lstm单元的输出结果进行拼接,ti为拼接的序号,且ti=1,

,d,d为字符向量表示的维度;
81.所述第一~第十二lstm单元均包括输入门i
t
、输出门o
t
和遗忘门f
t
,其表达式具体为下式:
82.i
t
=σ(w
xi
x
t
+w
hiht-1
+w
cict-1
+bi)
83.f
t
=σ(w
xf
x
t
+w
hfht-1
+w
cfct-1
+bf)
84.c
t
=f
t
⊙ct-1
+i
t

tanh(w
xc
x
t
+w
hcht-1
+bc)
85.o
t
=σ(w
xo
x
t
+w
hoht-1
+w
coct
+bo)
86.h
t
=o
t

tanh(c
t
)
87.式中,σ(
·
)为逐元的sigmoid函数,tanh(
·
)为双曲切线函数,

为逐元相乘函数,w
xi
、w
hi
、w
ci
、w
xf
、w
hf
、w
cf
、w
xc
、w
hc
、w
xo
、w
ho
和w
co
均为权重参数,bi、bf、bc和bo均为偏重参数,c
t
为记忆细胞,h
t
为输出结果。
88.所述s3中,cnn层设置有第二cnn模块,得到多尺度的局部上下文特征融合表示m3的表达式具体为:
89.m3=a2(b2+c2(h))
90.式中,h为下文表示,c2(
·
)为第二cnn模块,a2为第二激活函数,b2为第二cnn模块的偏重。
91.在本实施例中,第二cnn模块的结构如图5所示,将上下文表示输入至第二cnn模块,能够加强语义之间的相关性,生成多尺度的局部上下文特征融合表示。
92.将多尺度的局部上下文特征融合表示输入至crf层,完成序列标注的任务进而完成中文文旅类的命名实体识别。
93.本发明的有益效果为:本发明提供的一种中文文旅类的命名实体识别方法解决了对中文旅游类的命名实体识别研究的关注度较少的问题,针对于中文的文旅类文本数据进行网络搭建,在字符嵌入层利用第一cnn模块学习基于中文的部首级嵌入表示,得到有利于中文识别的字符向量表示,在cnn层利用第二cnn模块学习多尺度的局部上下文特征融合表示,加强语义之间的相关性,进一步提高有利于中文识别的特征表示。
94.在本发明的描述中,需要理解的是,术语“中心”、“厚度”、“上”、“下”、“水平”、“顶”、“底”、“内”、“外”、“径向”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的设备或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性或隐含指明的技术特征的数量。因此,限定由“第一”、“第二”、“第三”的特征可以明示或隐含地包括一个或者更多个该特征。

技术特征:
1.一种中文文旅类的命名实体识别方法,其特征在于,包括以下步骤:s1、获取中文文旅类文本数据,并将其输入至字符嵌入层,得到字符向量表示;s2、将字符向量表示输入至双向长短期记忆网络层,得到上下文表示;s3、将上下文表示输入至cnn层,得到多尺度的局部上下文特征融合表示;s4、将多尺度的局部上下文特征融合表示输入至crf层,通过crf层进行序列标注,完成中文文旅类的命名实体识别。2.根据权利要求1所述的中文文旅类的命名实体识别方法,其特征在于,所述s1中,字符嵌入层包括并行的chinesebert模块和第一cnn模块;所述s1包括以下分步骤:s11、获取中文文旅类文本数据;s12、将中文文旅类文本数据输入至chinesebert模块,得到中文文旅类文本数据中每个字的字嵌入向量表示;s13、将中文文旅类文本数据输入至第一cnn模块,得到部首级嵌入表示;s14、将字嵌入向量表示与部首级嵌入表示进行拼接,得到字符向量表示。3.根据权利要求2所述的中文文旅类的命名实体识别方法,其特征在于,所述s12具体为:将中文文旅类文本数据输入至chinesebert模块,通过chinesebert模块对输入的中文文旅类文本数据进行编码表示,得到特征向量,根据特征向量生成中文文旅类文本数据中每个字的字嵌入向量表示;其中,所述特征向量包括标记嵌入、位置嵌入和分段嵌入。4.根据权利要求2所述的中文文旅类的命名实体识别方法,其特征在于,所述s13中,得到部首级嵌入表示m2的表达式具体为:m2=a1(b1+c1(x))式中,x为汉字部首级特征,c1(
·
)为第一cnn模块,a1为第一激活函数,b1为第一cnn模块的偏重。5.根据权利要求4所述的中文文旅类的命名实体识别方法,其特征在于,所述s14中,得到字符向量表示z
concat
的表达式具体为:z
concat
=m1+m2式中,m1为字嵌入向量表示。6.根据权利要求1所述的中文文旅类的命名实体识别方法,其特征在于,所述s2中,双向长短期记忆网络层包括第一~第十二lstm单元,所述第一~第六lstm单元正向处理输入的字符向量表示,所述第七~第十二lstm单元反向处理输入的字符向量表示;得到上下文表示的方法具体为:根据第一~第十二lstm单元的输出结果进行拼接,得到上下文表示。7.根据权利要求6所述的中文文旅类的命名实体识别方法,其特征在于,所述s2中,得到上下文表示h的表达式具体为:h={h1,...,h
ti
,...,h
d
}式中,h
ti
为第一~第十二lstm单元的输出结果进行拼接,ti为拼接的序号,且ti=1,

,d,d为字符向量表示的维度;
所述第一~第十二lstm单元均包括输入门i
t
、输出门o
t
和遗忘门f
t
,其表达式具体为下式:i
t
=σ(w
xi
x
t
+w
hi
h
t-1
+w
ci
c
t-1
+b
i
)f
t
=σ(w
xf
x
t
+w
hf
h
t-1
+w
cf
c
t-1
+b
f
)c
t
=f
t

c
t-1
+i
t

tanh(w
xc
x
t
+w
hc
h
t-1
+b
c
)o
t
=σ(w
xo
x
t
+w
ho
h
t-1
+w
co
c
t
+b
o
)h
t
=o
t

tanh(c
t
)式中,σ(
·
)为逐元的sigmoid函数,tanh(
·
)为双曲切线函数,

为逐元相乘函数,w
xi
、w
hi
、w
ci
、w
xf
、w
hf
、w
cf
、w
xc
、w
hc
、w
xo
、w
ho
和w
co
均为权重参数,b
i
、b
f
、b
c
和b
o
均为偏重参数,c
t
为记忆细胞,h
t
为输出结果。8.根据权利要求1所述的中文文旅类的命名实体识别方法,其特征在于,所述s3中,cnn层设置有第二cnn模块,得到多尺度的局部上下文特征融合表示m3的表达式具体为:m3=a2(b2+c2(h))式中,h为下文表示,c2(
·
)为第二cnn模块,a2为第二激活函数,b2为第二cnn模块的偏重。

技术总结
本发明公开了一种中文文旅类的命名实体识别方法,包括以下步骤:S1、获取中文文旅类文本数据,并将其输入至字符嵌入层,得到字符向量表示;S2、将字符向量表示输入至双向长短期记忆网络层,得到上下文表示;S3、将上下文表示输入至CNN层,得到多尺度的局部上下文特征融合表示;S4、将多尺度的局部上下文特征融合表示输入至CRF层,通过CRF层进行序列标注,完成中文文旅类的命名实体识别。本发明考虑到对中文旅游类的命名实体识别研究的关注度较少的问题,针对于中文的文旅类文本数据进行网络搭建,在CNN层利用第二CNN模块学习多尺度的局部上下文特征融合表示,加强语义之间的相关性,提高有利于中文识别的特征表示。提高有利于中文识别的特征表示。提高有利于中文识别的特征表示。


技术研发人员:秦智 杜自豪 刘恩洋 张仕斌 昌燕 胡贵强
受保护的技术使用者:成都信息工程大学
技术研发日:2023.05.17
技术公布日:2023/8/14
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐