基于城市问答系统的领域识别方法及设备与流程

未命名 10-09 阅读:121 评论:0


1.本技术涉及领域识别技术领域,尤其涉及基于城市问答系统的领域识别方法及设备。


背景技术:

2.基于城市问答系统的领域识别是针对问答系统涉及多个领域时,在意图识别和命名实体识别前做的领域划分。对用户输入的语音信息或文本信息进行领域识别、意图识别和命名实体识别后,给出用户最终答案。
3.现有技术在进行领域识别时,一般是将用户输入的语音信息或文本信息输入到已训练的深度学习模型中,基于深度学习模型输出语音信息或文本信息对应的目标领域。现有技术存在的问题是,在实际应用中,常遇到不同领域之间的问题十分相似的情况。这种情况对于依靠理解语义信息的深度学习模型来说,处理起来十分困难,会造成领域识别的准确性较差。


技术实现要素:

4.本技术实施例提供了基于城市问答系统的领域识别方法及设备,用以解决现有技术存在领域识别准确性较差的问题。
5.第一方面,本技术提供了一种基于城市问答系统的领域识别方法,所述方法包括:
6.接收目标用户的问答请求信息,获取所述问答请求信息中携带的目标语言文本信息和所述目标用户的目标身份标识信息;
7.根据所述目标身份标识信息,以及预先保存的不同用户的身份标识信息与领域的对应关系,进行目标领域识别;
8.若根据目标身份标识信息识别目标领域失败,将所述目标语言文本信息和所述目标身份标识信息输入已训练的领域识别模型,基于所述领域识别模型进行目标领域识别。
9.第二方面,本技术提供了一种基于城市问答系统的领域识别装置,所述装置包括:
10.获取模块,用于接收目标用户的问答请求信息,获取所述问答请求信息中携带的目标语言文本信息和所述目标用户的目标身份标识信息;
11.第一识别模块,用于根据所述目标身份标识信息,以及预先保存的不同用户的身份标识信息与领域的对应关系,进行目标领域识别;
12.第二识别模块,用于若根据目标身份标识信息识别目标领域失败,将所述目标语言文本信息和所述目标身份标识信息输入已训练的领域识别模型,基于所述领域识别模型进行目标领域识别。
13.第三方面,本技术提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
14.存储器,用于存放计算机程序;
15.处理器,用于执行存储器上所存放的程序时,实现所述的方法步骤。
16.第四方面,本技术提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现所述的方法步骤。
17.本技术提供了基于城市问答系统的领域识别方法及设备,所述方法包括:接收目标用户的问答请求信息,获取所述问答请求信息中携带的目标语言文本信息和所述目标用户的目标身份标识信息;根据所述目标身份标识信息,以及预先保存的不同用户的身份标识信息与领域的对应关系,进行目标领域识别;若根据目标身份标识信息识别目标领域失败,将所述目标语言文本信息和所述目标身份标识信息输入已训练的领域识别模型,基于所述领域识别模型进行目标领域识别。
18.上述的技术方案具有如下优点或有益效果:
19.本技术中,预先保存不同用户的身份标识信息与领域的对应关系,在接收目标用户的问答请求信息之后,获取其中携带的目标语言文本信息和目标身份标识信息,然后根据上述对应关系确定出目标身份标识信息对应的目标领域。从用户身份的角度实现领域识别,解决了不同领域之间的语言文本信息十分相似,导致深度学习模型识别领域不准确的问题,提高了领域识别的准确性,并且提高了领域识别的效率。当根据目标身份标识信息识别目标领域失败时,将目标语言文本信息和目标身份标识信息输入已训练的领域识别模型,基于领域识别模型进行目标领域识别。相较于仅对目标语言文本信息进行特征提取实现领域识别,本技术增加了对目标身份标识信息的特征提取,通过目标语言文本信息和目标身份标识信息两个维度的信息进行领域识别,提高了领域识别的准确性。本技术所包含的技术方案具有准确率高、推理速度快的特点,符合可信赖性特点。
附图说明
20.为了更清楚地说明本技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
21.图1为本技术提供的第一种基于城市问答系统的领域识别过程示意图;
22.图2为本技术提供的第二种基于城市问答系统的领域识别过程示意图;
23.图3为本技术提供的第三种基于城市问答系统的领域识别过程示意图;
24.图4为本技术提供的第四种基于城市问答系统的领域识别过程示意图;
25.图5为本技术提供的第五种基于城市问答系统的领域识别过程示意图;
26.图6为本技术提供的第六种基于城市问答系统的领域识别过程示意图;
27.图7为本技术提供的第七种基于城市问答系统的领域识别过程示意图;
28.图8为本技术提供的基于城市问答系统的语义理解示意图;
29.图9为本技术提供的基于城市问答系统的领域识别的架构图;
30.图10为本技术提供的用户身份标识信息msgid设计规则示意图;
31.图11为本技术提供的用户身份标识信息msgid结构图;
32.图12为本技术提供的基于领域识别模型进行目标领域识别的结构图;
33.图13为本技术提供的基于城市问答系统的领域识别装置结构示意图;
34.图14为本技术提供的电子设备结构示意图。
具体实施方式
35.为使本技术的目的和实施方式更加清楚,下面将结合本技术示例性实施例中的附图,对本技术示例性实施方式进行清楚、完整地描述,显然,描述的示例性实施例仅是本技术一部分实施例,而不是全部的实施例。
36.需要说明的是,本技术中对于术语的简要说明,仅是为了方便理解接下来描述的实施方式,而不是意图限定本技术的实施方式。除非另有说明,这些术语应当按照其普通和通常的含义理解。
37.本技术中说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”等是用于区别类似或同类的对象或实体,而不必然意味着限定特定的顺序或先后次序,除非另外注明。应该理解这样使用的用语在适当情况下可以互换。
38.术语“包括”和“具有”以及他们的任何变形,意图在于覆盖但不排他的包含,例如,包含了一系列组件的产品或设备不必限于清楚地列出的所有组件,而是可包括没有清楚地列出的或对于这些产品或设备固有的其它组件。
39.术语“模块”是指任何已知或后来开发的硬件、软件、固件、人工智能、模糊逻辑或硬件或/和软件代码的组合,能够执行与该元件相关的功能。
40.最后应说明的是:以上各实施例仅用以说明本技术的技术方案,而非对其限制;尽管参照前述各实施例对本技术进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本技术各实施例技术方案的范围。
41.为了方便解释,已经结合具体的实施方式进行了上述说明。但是,上述示例性的讨论不是意图穷尽或者将实施方式限定到上述公开的具体形式。根据上述的教导,可以得到多种修改和变形。上述实施方式的选择和描述是为了更好的解释原理以及实际的应用,从而使得本领域技术人员更好的使用所述实施方式以及适于具体使用考虑的各种不同的变形的实施方式。
42.图1为本技术提供的基于城市问答系统的领域识别过程示意图,该过程包括以下步骤:
43.s101:接收目标用户的问答请求信息,获取所述问答请求信息中携带的目标语言文本信息和所述目标用户的目标身份标识信息。
44.s102:根据所述目标身份标识信息,以及预先保存的不同用户的身份标识信息与领域的对应关系,进行目标领域识别。
45.s103:若根据目标身份标识信息识别目标领域失败,将所述目标语言文本信息和所述目标身份标识信息输入已训练的领域识别模型,基于所述领域识别模型进行目标领域识别。
46.本技术提供的基于城市问答系统的领域识别方法应用于电子设备,该电子设备可以是pc、平板电脑等设备,也可以是服务器。
47.电子设备接收目标用户输入的问答请求信息,通过解析问答请求信息,获取其中携带的目标语言文本信息和目标用户的目标身份标识信息。其中,各个用户在注册时,会根据各个用户注册的领域标识信息及用户表示信息,为各个用户分配身份标识信息。后续各
个用户在输入的问答请求信息中会携带身份标识信息。
48.电子设备预先保存不同用户的身份标识信息与领域的对应关系的过程,也是各个用户在注册时,根据各个用户注册的领域标识信息及用户表示信息,为各个用户分配身份标识信息。建立各个用户的身份标识信息与注册的领域的对应关系并保存。一个用户对应的领域有可能是一个,也可能是多个。本技术中的领域可以是某些公司或者办事单位等。
49.本技术中,获取到问答请求信息中携带的目标用户的目标身份标识信息之后,根据预先保存的不同用户的身份标识信息与领域的对应关系,确定目标身份标识信息对应的目标领域。需要说明的是,根据预先保存的不同用户的身份标识信息与领域的对应关系,判断所述目标身份标识信息对应的领域是否为一个,如果是,将所述目标身份标识信息对应的领域确定为目标领域。如果目标身份标识信息对应的领域为一个,则可以直接将目标身份标识信息对应的领域确定为目标领域。如果目标身份标识信息对应的领域为多个,则判断多个领域中是否存在与目标语言文本信息匹配的领域,如果存在,则将与目标语言文本信息匹配的领域确定为目标领域,如果不存在,则说明根据目标身份标识信息识别目标领域失败。
50.电子设备保存有已训练的领域识别模型,领域识别模型是基于训练集中的样本身份标识信息、样本语言文本信息和真实领域标签训练得到的。若根据目标身份标识信息识别目标领域失败,将目标语言文本信息和目标身份标识信息输入已训练的领域识别模型,基于领域识别模型进行目标领域识别。
51.本技术中,预先保存不同用户的身份标识信息与领域的对应关系,在接收目标用户的问答请求信息之后,获取其中携带的目标语言文本信息和目标身份标识信息,然后根据上述对应关系确定出目标身份标识信息对应的目标领域。从用户身份的角度实现领域识别,解决了不同领域之间的语言文本信息十分相似,导致深度学习模型识别领域不准确的问题,提高了领域识别的准确性,并且提高了领域识别的效率。当根据目标身份标识信息识别目标领域失败时,将目标语言文本信息和目标身份标识信息输入已训练的领域识别模型,基于领域识别模型进行目标领域识别。相较于仅对目标语言文本信息进行特征提取实现领域识别,本技术增加了对目标身份标识信息的特征提取,通过目标语言文本信息和目标身份标识信息两个维度的信息进行领域识别,提高了领域识别的准确性。本技术所包含的技术方案具有准确率高、推理速度快的特点,符合可信赖性特点。
52.可信赖特性:准确率高。该发明主要用于解决城市语音交互随意图数量增多,意图分类不准确问题。其属于智能问答系统中的语义理解范围。本发明领域识别主要依靠用户身份信息作为额外特征,针对大部分用户只分管单个委办局的情况。本发明在主要识别方法上采用了完全规则匹配的识别方式。完全规则匹配一旦匹配成功,其准确率为100%。因此对于绝大多数的领域匹配问题,其准确率非常高。且针对一个用户分管多个委办局的情况,采用通过意图反向验证领域的方式,在意图准确率保证的前提下,多领的准确率得到的保证。推理速度快。整个系统的设计将推理速度作为一个比较重要的衡量指标。规则分类阶段通过完全规则,针对100个以内委办局,其查询耗时几乎可以忽略不计。在由意图确认领域阶段,意图确认采用工业界普遍使用的elasticsearch数据库进行查询,该数据库能够高效的处理海量数据,通过对数据库字段的优化,最大程度保证整体查询的时效性。领域模型分类阶段是最耗时阶段,本发明采用将预测成功后的相关数据,重新灌入数据库的方式,减
少该阶段的操作。
53.图2为本技术提供的基于城市问答系统的领域识别过程示意图,该过程包括以下步骤:
54.s201:接收目标用户的问答请求信息,获取所述问答请求信息中携带的目标语言文本信息和所述目标用户的目标身份标识信息。
55.s202:根据预先保存的不同用户的身份标识信息与领域的对应关系,若确定所述目标身份标识信息对应的领域为一个,将所述目标身份标识信息对应的领域确定为目标领域。
56.s203:若根据目标身份标识信息识别目标领域失败,将所述目标语言文本信息和所述目标身份标识信息输入已训练的领域识别模型,基于所述领域识别模型进行目标领域识别。
57.本技术中,所述方法还包括:
58.若所述目标身份标识信息对应的领域为多个,将所述目标身份标识信息对应的不同的领域分别作为候选领域;
59.将所述目标语言文本信息,分别与预先保存的不同的候选领域各自对应的语言文本信息进行匹配,将匹配成功的候选领域确定为目标领域;
60.若不存在匹配成功的候选领域,确定根据目标身份标识信息识别目标领域失败。
61.若目标身份标识信息对应的领域为多个,将目标身份标识信息对应的不同的领域分别作为候选领域。电子设备预先保存有各个领域各自对应的语言文本信息。每个领域对应的语言文本信息的数量一般为多个。确定出候选领域之后,可以确定各个候选领域各自对应的语音文本信息。将目标语言文本信息,分别与预先保存的不同的候选领域各自对应的语言文本信息进行匹配。也就是说将目标语言文本信息分别与不同的候选领域各自对应的所有语音文本信息匹配。可选的,采用逐字符匹配的方式,确定目标语言文本信息分别与不同的候选领域各自对应的所有语音文本信息相似度,然后确定最大的相似度。判断最大的相似度是否大于预设的相似度阈值,如果是,确定目标语言文本信息与最大的相似度的语音文本信息匹配成功,将最大的相似度的语音文本信息所对应的候选领域确定为目标领域,如果否,确定匹配失败,说明根据目标身份标识信息识别目标领域失败。预设的相似度阈值例如是0.7、0.8等。
62.图3为本技术提供的基于城市问答系统的领域识别过程示意图,该过程包括以下步骤:
63.s301:接收目标用户的问答请求信息,获取所述问答请求信息中携带的目标语言文本信息和所述目标用户的目标身份标识信息。
64.s302:根据预先保存的不同用户的身份标识信息与领域的对应关系,若确定所述目标身份标识信息对应的领域为一个,将所述目标身份标识信息对应的领域确定为目标领域;若所述目标身份标识信息对应的领域为多个,将所述目标身份标识信息对应的不同的领域分别作为候选领域;将所述目标语言文本信息,分别与预先保存的不同的候选领域各自对应的语言文本信息进行匹配,将匹配成功的候选领域确定为目标领域;若不存在匹配成功的候选领域,确定根据目标身份标识信息识别目标领域失败。
65.s303:若根据目标身份标识信息识别目标领域失败,将所述目标语言文本信息和
所述目标身份标识信息输入已训练的领域识别模型,基于所述领域识别模型进行目标领域识别。
66.本技术中,所述接收目标用户的问答请求信息之前,所述方法还包括:
67.针对不同的用户,接收所述用户的注册信息,获取所述注册信息中携带的领域标识信息和用户标识信息,根据所述领域标识信息和所述用户标识信息,为所述用户分配身份标识信息;
68.其中,所述身份标识信息包括领域标识位和用户标识位,所述领域标识位用于表征领域标识信息和领域数量信息,所述用户标识位用于表征用户标识信息。
69.电子设备在接收目标用户的问答请求信息之前,针对不同的用户,接收用户的注册信息,通过解析注册信息,可以获取其中携带的领域标识信息和用户标识信息,其中,领域标识信息可以是一个或多个。根据领域标识信息和用户标识信息,为用户分配身份标识信息。身份标识信息包括领域标识位和用户标识位,领域标识位表征领域标识信息和领域数量信息,用户标识位用于表征用户标识信息。
70.图4为本技术提供的基于城市问答系统的领域识别过程示意图,该过程包括以下步骤:
71.s401:针对不同的用户,接收所述用户的注册信息,获取所述注册信息中携带的领域标识信息和用户标识信息,根据所述领域标识信息和所述用户标识信息,为所述用户分配身份标识信息;其中,所述身份标识信息包括领域标识位和用户标识位,所述领域标识位用于表征领域标识信息和领域数量信息,所述用户标识位用于表征用户标识信息。
72.s402:接收目标用户的问答请求信息,获取所述问答请求信息中携带的目标语言文本信息和所述目标用户的目标身份标识信息。
73.s403:根据预先保存的不同用户的身份标识信息与领域的对应关系,若确定所述目标身份标识信息对应的领域为一个,将所述目标身份标识信息对应的领域确定为目标领域;若所述目标身份标识信息对应的领域为多个,将所述目标身份标识信息对应的不同的领域分别作为候选领域;将所述目标语言文本信息,分别与预先保存的不同的候选领域各自对应的语言文本信息进行匹配,将匹配成功的候选领域确定为目标领域;若不存在匹配成功的候选领域,确定根据目标身份标识信息识别目标领域失败。
74.s404:若根据目标身份标识信息识别目标领域失败,将所述目标语言文本信息和所述目标身份标识信息输入已训练的领域识别模型,基于所述领域识别模型进行目标领域识别。
75.本技术中,为了使基于所述领域识别模型进行目标领域识别更准确,基于所述领域识别模型进行目标领域识别包括:
76.将所述目标身份标识信息和所述目标语言文本信息进行拼接,得到文本描述信息;基于所述领域识别模型对所述文本描述信息进行特征提取,得到第一特征信息,根据所述第一特征信息,识别所述目标领域。
77.本技术中,将目标身份标识信息和目标语言文本信息进行拼接,这样得到的文本描述信息中包含两个维度的信息,第一个维度是身份标识信息维度,第二个维度是语言文本信息维度。基于领域识别模型对包含两个维度的文本描述信息进行特征提取,得到第一特征信息。然后第一特征信息经过全连接层和分类层,得到目标领域的识别结果。相较于仅
对目标语言文本信息进行特征提取实现领域识别,本技术增加了对目标身份标识信息的特征提取,通过目标语言文本信息和目标身份标识信息两个维度的信息进行领域识别,提高了领域识别的准确性。
78.图5为本技术提供的基于城市问答系统的领域识别过程示意图,该过程包括以下步骤:
79.s501:针对不同的用户,接收所述用户的注册信息,获取所述注册信息中携带的领域标识信息和用户标识信息,根据所述领域标识信息和所述用户标识信息,为所述用户分配身份标识信息;其中,所述身份标识信息包括领域标识位和用户标识位,所述领域标识位用于表征领域标识信息和领域数量信息,所述用户标识位用于表征用户标识信息。
80.s502:接收目标用户的问答请求信息,获取所述问答请求信息中携带的目标语言文本信息和所述目标用户的目标身份标识信息。
81.s503:根据预先保存的不同用户的身份标识信息与领域的对应关系,若确定所述目标身份标识信息对应的领域为一个,将所述目标身份标识信息对应的领域确定为目标领域;若所述目标身份标识信息对应的领域为多个,将所述目标身份标识信息对应的不同的领域分别作为候选领域;将所述目标语言文本信息,分别与预先保存的不同的候选领域各自对应的语言文本信息进行匹配,将匹配成功的候选领域确定为目标领域;若不存在匹配成功的候选领域,确定根据目标身份标识信息识别目标领域失败。
82.s504:若根据目标身份标识信息识别目标领域失败,将所述目标语言文本信息和所述目标身份标识信息输入已训练的领域识别模型,将所述目标身份标识信息和所述目标语言文本信息进行拼接,得到文本描述信息;基于所述领域识别模型对所述文本描述信息进行特征提取,得到第一特征信息,根据所述第一特征信息,识别所述目标领域。
83.为了进一步提高基于所述领域识别模型进行目标领域识别的准确性,本技术中,根据所述第一特征信息,识别所述目标领域包括:
84.对所述目标身份标识信息进行特征提取,得到第二特征信息;
85.将所述第一特征信息和所述第二特征信息进行拼接,得到第三特征信息,对所述第三特征信息进行分类,识别所述目标领域。
86.本技术中,对包含两个维度的文本描述信息进行特征提取,得到第一特征信息,然后对目标身份标识信息进行特征提取,得到第二特征信息,再将第一特征信息和第二特征信息进行拼接,得到第三特征信息。这样得到的第三特征信息中增加了身份标识信息维度的权重,最后第三特征信息经过全连接层和分类层,得到目标领域的识别结果。进一步提高了领域识别的准确性。
87.图6为本技术提供的基于城市问答系统的领域识别过程示意图,该过程包括以下步骤:
88.s601:针对不同的用户,接收所述用户的注册信息,获取所述注册信息中携带的领域标识信息和用户标识信息,根据所述领域标识信息和所述用户标识信息,为所述用户分配身份标识信息;其中,所述身份标识信息包括领域标识位和用户标识位,所述领域标识位用于表征领域标识信息和领域数量信息,所述用户标识位用于表征用户标识信息。
89.s602:接收目标用户的问答请求信息,获取所述问答请求信息中携带的目标语言文本信息和所述目标用户的目标身份标识信息。
90.s603:根据预先保存的不同用户的身份标识信息与领域的对应关系,若确定所述目标身份标识信息对应的领域为一个,将所述目标身份标识信息对应的领域确定为目标领域;若所述目标身份标识信息对应的领域为多个,将所述目标身份标识信息对应的不同的领域分别作为候选领域;将所述目标语言文本信息,分别与预先保存的不同的候选领域各自对应的语言文本信息进行匹配,将匹配成功的候选领域确定为目标领域;若不存在匹配成功的候选领域,确定根据目标身份标识信息识别目标领域失败。
91.s604:若根据目标身份标识信息识别目标领域失败,将所述目标语言文本信息和所述目标身份标识信息输入已训练的领域识别模型,将所述目标身份标识信息和所述目标语言文本信息进行拼接,得到文本描述信息;基于所述领域识别模型对所述文本描述信息进行特征提取,得到第一特征信息,对所述目标身份标识信息进行特征提取,得到第二特征信息;将所述第一特征信息和所述第二特征信息进行拼接,得到第三特征信息,对所述第三特征信息进行分类,识别所述目标领域。
92.本技术中,所述方法还包括:
93.对所述目标语言文本信息进行意图识别和实体识别,得到目标意图和目标实体;根据所述目标领域、目标意图和目标实体,确定所述目标语言文本信息对应的响应信息。
94.电子设备还可以对目标语言文本信息进行意图识别和实体识别,其中,可以通过字符匹配的方式对目标语言文本信息进行意图识别和实体识别。例如,预先保存各个意图各自对应的语言文本信息,通过字符匹配确定出与目标语言文本信息相似度最大的语言文本信息,进而将相似度最大的语言文本信息对应的意图作为识别到的意图。预先保存各个实体各自对应的语言文本信息,通过字符匹配确定出与目标语言文本信息相似度最大的语言文本信息,进而将相似度最大的语言文本信息对应的实体作为识别到的实体。或者,可以预先训练意图识别模型和实体识别模型,分别将目标语言文本信息输入意图识别模型和实体识别模型,得到意图识别结果和实体识别结果。本技术不对意图识别和实体识别的过程进行限定。在识别出目标领域、目标意图和目标实体后,根据目标领域、目标意图和目标实体,确定目标语言文本信息对应的响应信息。并将响应信息发送至目标用户的终端设备。
95.图7为本技术提供的基于城市问答系统的领域识别过程示意图,该过程包括以下步骤:
96.s701:针对不同的用户,接收所述用户的注册信息,获取所述注册信息中携带的领域标识信息和用户标识信息,根据所述领域标识信息和所述用户标识信息,为所述用户分配身份标识信息;其中,所述身份标识信息包括领域标识位和用户标识位,所述领域标识位用于表征领域标识信息和领域数量信息,所述用户标识位用于表征用户标识信息。
97.s702:接收目标用户的问答请求信息,获取所述问答请求信息中携带的目标语言文本信息和所述目标用户的目标身份标识信息。
98.s703:根据预先保存的不同用户的身份标识信息与领域的对应关系,若确定所述目标身份标识信息对应的领域为一个,将所述目标身份标识信息对应的领域确定为目标领域;若所述目标身份标识信息对应的领域为多个,将所述目标身份标识信息对应的不同的领域分别作为候选领域;将所述目标语言文本信息,分别与预先保存的不同的候选领域各自对应的语言文本信息进行匹配,将匹配成功的候选领域确定为目标领域;若不存在匹配成功的候选领域,确定根据目标身份标识信息识别目标领域失败。
99.s704:若根据目标身份标识信息识别目标领域失败,将所述目标语言文本信息和所述目标身份标识信息输入已训练的领域识别模型,将所述目标身份标识信息和所述目标语言文本信息进行拼接,得到文本描述信息;基于所述领域识别模型对所述文本描述信息进行特征提取,得到第一特征信息,对所述目标身份标识信息进行特征提取,得到第二特征信息;将所述第一特征信息和所述第二特征信息进行拼接,得到第三特征信息,对所述第三特征信息进行分类,识别所述目标领域。
100.s705:对所述目标语言文本信息进行意图识别和实体识别,得到目标意图和目标实体;根据所述目标领域、目标意图和目标实体,确定所述目标语言文本信息对应的响应信息。
101.本技术中,所述领域识别模型的训练过程包括:
102.针对训练集中的各组样本身份标识信息和样本语言文本信息,将该组样本身份标识信息和样本语言文本信息,以及该组对应的领域标签信息输入领域识别模型,基于所述领域识别模型将该组样本身份标识信息和样本语言文本信息进行拼接,得到样本文本描述信息;对所述样本文本描述信息进行特征提取,得到第一样本特征信息,根据所述第一样本特征信息,识别样本领域;根据所述样本领域和所述领域标签信息,对所述领域识别模型进行训练。
103.为了使识别样本领域更准确,本技术中,所述根据所述第一样本特征信息,识别样本领域包括:
104.对所述样本身份标识信息进行特征提取,得到第二样本特征信息;
105.将所述第一样本特征信息和所述第二样本特征信息进行拼接,得到第三样本特征信息,对所述第三样本特征信息进行分类,识别所述样本领域。
106.下面结合城市问答系统的架构图对基于城市问答系统的领域识别过程进行详细说明。
107.图8为本技术提供的基于城市问答系统的语义理解示意图。语义理解的主要功能为接收用户输入问题,输出对应的领域、意图和实体信息。其中意图和实体信息是语义理解必须输出的信息。当意图数量过多时,容易造成意图的混乱。这是在意图识别之上,加入领域识别信息,用于对意图进行两级区分。
108.如图8所示,针对具体的落地场景,语义理解系统主要分为两部分实现。第一部分主要基于规则的形式进行领域、意图和实体的判断。第二部分主要通过模型的方式进行领域、意图和实体的分类判断。
109.当用户的问答请求信息进入整个交互系统后,首先进行数据预处理操作。包括数据清洗、文本纠错、实体替换、敏感词过滤等多个模块。经过清洗后的数据,进入第一部分规则判断。该部分主要包含三个模块,领域识别模块、意图识别模块和实体识别模块。这是领域的第一次识别,基于规则的领域识别。
110.当基于规则判断的模块无法识别领域、意图和实体时。即进入第二模块,基于模型的领域、意图和实体识别模块。第二部分基于模型的识别主要分为三个模型,领域识别模型、意图分类模型和实体识别模型。至此,经过两轮模型的判断,即得出最终用户领域信息、意图信息和实体信息。
111.图9为本技术提供的基于城市问答系统的领域识别的架构图。城市问答系统,领域
数量逐渐扩充至38个;意图数量扩充到1000多个。如图9所示,本技术涉及规则识别部分和模型识别部分。规则识别部分包括领域识别模块1、意图识别模块1和实体识别模块1;模型识别部分包括领域识别模块2、领域识别模块3、意图识别模块2和实体识别模块2。
112.领域识别模块1,主要是通过规则的形式进行领域识别。在实际的项目落地中,用户等待时延直接影响用户对一个系统的整体体验。而相对于深度学习模型的推理,基于规则判断的方式,能快速准确的识别出想要的结果。因此,在落地方案设计时,规则匹配方案是首选方案。而规则匹配方案中,如何识别用户所属领域。针对上述问题,本技术结合城市问答系统的整体注册机制,在用户注册时根据用户信息分配指定的身份标识信息msgid。每一个msgid信息和固定的领域映射,领域识别模块1,通过该信息进行领域识别。
113.领域识别模块2,是对规则判断模块中,规则识别是否完成进行一次判断。如果规则识别已经完成,则直接进行意图识别和实体识别。否则进一步通过领域识别模块3进行领域识别。其中,可以通过意图识别模块1和实体识别模块1进行意图识别和实体识别,也可以通过意图识别模块2和实体识别模块2进行意图识别和实体识别。
114.领域识别模块3使用领域识别模型对用户输入数据进行领域判断。通过对用户输入信息进行编码,利用深度学习模型对用户输入进行整体语义编码。该模型是针对前面规则未能识别问题的进一步编码兜底处理。
115.领域识别模块1,利用用户注册时msgid对单领域信息可以快速而准确的进行判断。图10为本技术提供的msgid设计规则示意图。图11为本技术提供的msgid结构图。msgid包括预留位、领域标识位和用户标识位。前两位为预留位,为将来业务发展留存的表示信息。中间三位领域标识位表示该用户的领域信息。如果该用户只负责单个领域,针对目前38个领域业务。则在001-038之间分配,剩余的039-100为后面新增领域做预留。如用户和两个领域都存在关系,则数字分配在101-200之间,同时负责两个领域的情况较少,单考虑到两个组合问题,如同时负责交管局、教育局与同时负责交管局、公安局的情况就要分配两个msgid。因此在同时负责两个局的情况里,也预留了101-200这100个名额。同理,在负责三个以及多个领域的情况里,也分别预留了不同名额。
116.最后三位用户标识位,表示该用户在本领域的职位。结合一般领域最多不超过1000人,因此该标识位预留三位,该标识主要为后面个性化服务提供具体用户的职位及权限信息。例如将教育局排在001位置,那么教育局局长在整个系统中的msgid例如是00001001。
117.领域识别模块1,通过领域标识位能快速判断出单领域用户的具体领域信息。但对于分管多个领域的用户,根据领域标识位信息,只能判断出领域的大致范围。如根据00105010判断出该用户分管教育局和交通管理局的相关业务。具体的领域信息判断需要结合意图识别模块1进行识别。意图识别模块1用于若用户的领域为多个,将多个领域分别作为候选领域;将用户输入的目标语言文本信息,分别与预先保存的不同的候选领域各自对应的语言文本信息进行匹配,将匹配成功的候选领域确定为目标领域;若不存在匹配成功的候选领域,确定根据目标身份标识信息识别目标领域失败。当已经知道用户属于教育局和交通管理局时,意图识别模块1提取出数据库中两个局预置的所有语言文本信息和用户的目标语言文本信息进行匹配。获取匹配度最高的意图,当匹配度最高的意图超过规定阈值时,即认为用户问法属于该局问题。从而反馈给领域识别模块1,做进一步的领域确认。
118.领域识别模块1是基于深度学习的领域识别。当用户分管多个领域且经过领域识别模块1和意图识别模块1的联合决策无法对领域进行识别时。需要通过领域识别模块1进行分类。领域识别的本质是充分理解用户语言信息,根据语义信息进行文本分类。而在多领域问答中,多个领域可能出现相似问法。单单依靠用户问题是无法完成相关领域识别。人类在对用户意图进行判断时,不仅仅考虑用户说话内容本身,还将用户的身份信息考虑在内。因此在模型做领域识别时,通过msgid信息,将用户的身份信息作为额外补充信息,添加到领域分类模型,有助于模型的最终分类。
119.图12为本技术提供的基于领域识别模型进行目标领域识别的结构图。加入一位分管教育局和交通管理局的领导给定的msgid位00105007,他输入“青岛有多少红绿灯”这么一个问题。模型采用深度学习模型进行语义处理。首先,在数据处理上,开头加上cls特殊token;其次,在cls后面加入表示用户身份的信息00105007作为第二个特殊字符使用。其中,cls这个token因为本身没有实际含义,因此在最终输出上,可以作为整句话的一个向量表示。同时,新加入的00105007用户标识信息,在经过多层深度学习注意力机制变化。最终在模型的最后一层隐藏层,也生成了一个512维的密集特征向量。
120.希望模型通过“青岛有多少红绿灯”这句话,区别出这个问题是和交通有关的问题。和红绿灯有关的问题,应该出现在交通管理局、城管局及公安局等和交通相关的委办局问答中,从而将教育局提出。而通过用户的具体msgid可知,用户分管教育局和交通管理局两个领域,从而将城管局、公安局等不在用户分管范围的领域剔除。最终得到用户输入问题输入交通管理局的最终答案。
121.因此,用户的文本语义信息和用户的msgid在最终领域的判断中,起到同样重要的作用。因此,在模型的最后一层输出中,将表示整个语义信息的hcls和表示msgid语义信息的h1提出来进行拼接。两个密集向量在最后一层的输出维度都是512,因此拼接后的整体向量维度位1024。最终希望模型判断其具体属于哪个领域,而目前主要做38个领域的问答,因此将1024维度的密集向量经过一个全连接层,映射到38维。在将38维的向量输入进入分类softmax层,得到最终在每个领域上的概率得分。至此,整个城市问答系统,在领域识别工作上全部完结。本技术参考人类在面对相似问题时的思考方式,引入用户身份先验知识。通过规则判断和领域识别模型的双重判断方式,进行领域识别。并在领域模型分类上,结合实际情况,将表示用户信息的msgid拿出来和整句语义信息拼接决策。以提升了模型的决策准确率。
122.图13为本技术提供的基于城市问答系统的领域识别装置结构示意图,包括:
123.获取模块131,用于接收目标用户的问答请求信息,获取所述问答请求信息中携带的目标语言文本信息和所述目标用户的目标身份标识信息;
124.第一识别模块132,用于根据所述目标身份标识信息,以及预先保存的不同用户的身份标识信息与领域的对应关系,进行目标领域识别;
125.第二识别模块133,用于若根据目标身份标识信息识别目标领域失败,将所述目标语言文本信息和所述目标身份标识信息输入已训练的领域识别模型,基于所述领域识别模型进行目标领域识别。
126.第一识别模块132,具体用于根据预先保存的不同用户的身份标识信息与领域的对应关系,判断所述目标身份标识信息对应的领域是否为一个,如果是,将所述目标身份标
识信息对应的领域确定为目标领域。
127.第一识别模块132,还用于若所述目标身份标识信息对应的领域为多个,将所述目标身份标识信息对应的不同的领域分别作为候选领域;将所述目标语言文本信息,分别与预先保存的不同的候选领域各自对应的语言文本信息进行匹配,将匹配成功的候选领域确定为目标领域;若不存在匹配成功的候选领域,确定根据目标身份标识信息识别目标领域失败。
128.获取模块131,还用于针对不同的用户,接收所述用户的注册信息,获取所述注册信息中携带的领域标识信息和用户标识信息,根据所述领域标识信息和所述用户标识信息,为所述用户分配身份标识信息;其中,所述身份标识信息包括领域标识位和用户标识位,所述领域标识位用于表征领域标识信息和领域数量信息,所述用户标识位用于表征用户标识信息。
129.第二识别模块133,具体用于将所述目标身份标识信息和所述目标语言文本信息进行拼接,得到文本描述信息;基于所述领域识别模型对所述文本描述信息进行特征提取,得到第一特征信息,根据所述第一特征信息,识别所述目标领域。
130.第二识别模块133,具体用于对所述目标身份标识信息进行特征提取,得到第二特征信息;将所述第一特征信息和所述第二特征信息进行拼接,得到第三特征信息,对所述第三特征信息进行分类,识别所述目标领域。
131.第二识别模块133,还用于对所述目标语言文本信息进行意图识别和实体识别,得到目标意图和目标实体;根据所述目标领域、目标意图和目标实体,确定所述目标语言文本信息对应的响应信息。
132.本技术还提供了一种电子设备,如图14所示,包括:处理器141、通信接口142、存储器143和通信总线144,其中,处理器141,通信接口142,存储器143通过通信总线144完成相互间的通信;
133.所述存储器143中存储有计算机程序,当所述程序被所述处理器141执行时,使得所述处理器141执行以上任一方法步骤。
134.上述电子设备提到的通信总线可以是外设部件互连标准(peripheral component interconnect,pci)总线或扩展工业标准结构(extended industry standard architecture,eisa)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
135.通信接口142用于上述电子设备与其他设备之间的通信。
136.存储器可以包括随机存取存储器(random access memory,ram),也可以包括非易失性存储器(non-volatile memory,nvm),例如至少一个磁盘存储器。可选地,存储器还可以是至少一个位于远离前述处理器的存储装置。
137.上述处理器可以是通用处理器,包括中央处理器、网络处理器(network processor,np)等;还可以是数字信号处理器(digital signal processing,dsp)、专用集成电路、现场可编程门陈列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。
138.本技术还提供了一种计算机存储可读存储介质,所述计算机可读存储介质内存储有可由电子设备执行的计算机程序,当所述程序在所述电子设备上运行时,使得所述电子
设备执行时实现以上任一方法步骤。
139.尽管已描述了本技术的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本技术范围的所有变更和修改。
140.显然,本领域的技术人员可以对本技术进行各种改动和变型而不脱离本技术的精神和范围。这样,倘若本技术的这些修改和变型属于本技术权利要求及其等同技术的范围之内,则本技术也意图包含这些改动和变型在内。

技术特征:
1.一种基于城市问答系统的领域识别方法,其特征在于,所述方法包括:接收目标用户的问答请求信息,获取所述问答请求信息中携带的目标语言文本信息和所述目标用户的目标身份标识信息;根据所述目标身份标识信息,以及预先保存的不同用户的身份标识信息与领域的对应关系,进行目标领域识别;若根据目标身份标识信息识别目标领域失败,将所述目标语言文本信息和所述目标身份标识信息输入已训练的领域识别模型,基于所述领域识别模型进行目标领域识别。2.如权利要求1所述的方法,其特征在于,所述根据所述目标身份标识信息,以及预先保存的不同用户的身份标识信息与领域的对应关系,进行目标领域识别包括:根据预先保存的不同用户的身份标识信息与领域的对应关系,判断所述目标身份标识信息对应的领域是否为一个,如果是,将所述目标身份标识信息对应的领域确定为目标领域。3.如权利要求2所述的方法,其特征在于,所述方法还包括:若所述目标身份标识信息对应的领域为多个,将所述目标身份标识信息对应的不同的领域分别作为候选领域;将所述目标语言文本信息,分别与预先保存的不同的候选领域各自对应的语言文本信息进行匹配,将匹配成功的候选领域确定为目标领域;若不存在匹配成功的候选领域,确定根据目标身份标识信息识别目标领域失败。4.如权利要求1所述的方法,其特征在于,所述接收目标用户的问答请求信息之前,所述方法还包括:针对不同的用户,接收所述用户的注册信息,获取所述注册信息中携带的领域标识信息和用户标识信息,根据所述领域标识信息和所述用户标识信息,为所述用户分配身份标识信息;其中,所述身份标识信息包括领域标识位和用户标识位,所述领域标识位用于表征领域标识信息和领域数量信息,所述用户标识位用于表征用户标识信息。5.如权利要求1所述的方法,其特征在于,基于所述领域识别模型进行目标领域识别包括:将所述目标身份标识信息和所述目标语言文本信息进行拼接,得到文本描述信息;基于所述领域识别模型对所述文本描述信息进行特征提取,得到第一特征信息,根据所述第一特征信息,识别所述目标领域。6.如权利要求5所述的方法,其特征在于,根据所述第一特征信息,识别所述目标领域包括:对所述目标身份标识信息进行特征提取,得到第二特征信息;将所述第一特征信息和所述第二特征信息进行拼接,得到第三特征信息,对所述第三特征信息进行分类,识别所述目标领域。7.如权利要求1所述的方法,其特征在于,所述领域识别模型的训练过程包括:针对训练集中的各组样本身份标识信息和样本语言文本信息,将该组样本身份标识信息和样本语言文本信息,以及该组对应的领域标签信息输入领域识别模型,基于所述领域识别模型将该组样本身份标识信息和样本语言文本信息进行拼接,得到样本文本描述信
息;对所述样本文本描述信息进行特征提取,得到第一样本特征信息,根据所述第一样本特征信息,识别样本领域;根据所述样本领域和所述领域标签信息,对所述领域识别模型进行训练。8.如权利要求7所述的方法,其特征在于,所述根据所述第一样本特征信息,识别样本领域包括:对所述样本身份标识信息进行特征提取,得到第二样本特征信息;将所述第一样本特征信息和所述第二样本特征信息进行拼接,得到第三样本特征信息,对所述第三样本特征信息进行分类,识别所述样本领域。9.如权利要求1所述的方法,其特征在于,所述方法还包括:对所述目标语言文本信息进行意图识别和实体识别,得到目标意图和目标实体;根据所述目标领域、目标意图和目标实体,确定所述目标语言文本信息对应的响应信息。10.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;存储器,用于存放计算机程序;处理器,用于执行存储器上所存放的程序时,实现权利要求1-9任一项所述的方法步骤。

技术总结
本申请公开了基于城市问答系统的领域识别方法及设备,预先保存不同用户的身份标识信息与领域的对应关系,在接收目标用户的问答请求信息之后,获取其中携带的目标语言文本信息和目标身份标识信息,然后根据上述对应关系确定出目标身份标识信息对应的目标领域。从用户身份的角度实现领域识别,解决了不同领域之间的语言文本信息十分相似,导致深度学习模型识别领域不准确的问题,提高了领域识别的准确性。当根据目标身份标识信息识别目标领域失败时,基于领域识别模型,通过目标语言文本信息和目标身份标识信息两个维度的信息进行领域识别,提高了领域识别的准确性。本申请所包含的技术方案具有准确率高、推理速度快的特点,符合可信赖性特点。符合可信赖性特点。符合可信赖性特点。


技术研发人员:冯卫森 孟卫明 张淯易 王月岭 张传伟 葛赛赛 张烘玮
受保护的技术使用者:海信集团控股股份有限公司
技术研发日:2023.04.20
技术公布日:2023/10/7
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐