一种结合大模型的对话意图识别方法与流程

未命名 09-22 阅读:196 评论:0


1.本发明涉及一种结合大模型的对话意图识别方法,属于意图识别技术领域。


背景技术:

2.意图识别,对话机器人与用户进行对话时需要识别用户的意图,根据用户意图在设置的多个意图模块中选中用户意图进行回复,该模块也是对话业务的核心。预置意图如天气预报、导航引领、点餐服务等。包含接入的第三方服务或者是为当前机器人设置的专有意图。
3.现有的对话流程设计大多采用直接的意图识别,根据识别结果选择对应的意图模块进行对话回复,或者采用文本相似性进行意图分类文本比较,根据比较得到的结果选择对应的意图模块进行对话回复。该流程的不足之处是预置意图是有限的,有很多用户对话是没有对应的意图的,而当前研究火热的大模型学习海量知识可以回答用户大部分问题,因此可以将大模型应用到对话流程,在匹配现有意图模块失败时选择大模型回答,提高对话的智能性和用户体验度。


技术实现要素:

4.本发明目的是提供了一种结合大模型的对话意图识别方法,利用大模型的海量知识,对匹配失败的用户意图进行更好回答,提升对话系统的智能性以及用户体验感。
5.本发明为实现上述目的,通过以下技术方案实现:
6.步骤1:预置意图文本和对应的意图处理模块,所述预置意图处理模块包括系统意图和用户自定义意图,所述系统意图为通用意图,所述用户意图为用户自定义意图;
7.步骤2:通过语音识别模块识别用户对话内容,形成文本形式;
8.步骤3:通过文本相似性计算模块对用户对话内容形成的文本与预置意图文本进行匹配计算,将匹配结果与设定的匹配阈值(能否给出个具体值)比较;
9.如果匹配结果大于等于匹配阈值,则匹配成功,调用当前预置意图文本对应的意图处理模块对用户对话内容形成的文本进行意图处理,将结果反馈至语音合成与播报模块;
10.如果匹配结果小于匹配阈值,则匹配失败,则将用户对话内容形成的文本形式输入至大模型中进行识别,将结果反馈至语音合成与播报模块,所述大模型为深度学习技术构建的自然语言处理模型;
11.步骤4:所述语音合成与播报模块将接收到的信息通过tts合成为语音信息,并进行播报。
12.优选的,所述语音识别模块识别用户对话内容,形成文本形式的具体方式如下:
13.步骤2-1:语音识别模块接收到语音输入,对语音信号进行预处理,去除语音中的噪声和杂音;
14.步骤2-2:将处理好的语音信号通过语音识别模块进行特征提取,提取出语音相关
特征;
15.步骤2-3:通过语音模型和声学模型对特征向量进行匹配和解码,获取用户对话内容文本。
16.优选的,所述语音识别模块为wenet语音识别工具包。
17.优选的,所述文本相似性计算模块具体计算方式如下:
18.通过词袋模型将文本信息转换为以数值向量表示的文本向量,所述文本向量中包含文档中出现的所有单词的向量,每个维度表示一个单词,数值表示该单词在文档中的出现频率或权重;将文本向量通过相似度度量方法计算两个文本之间的相似性。
19.优选的,所述文本相似性计算模块具体计算方式如下:
20.通过词嵌入方法将文本信息转换为以数值向量表示的文本向量;
21.将文本中的单词映射到低维连续向量空间,通过学习单词的语义信息和上下文关系,使具有相似语义的单词在向量空间中距离较近;将文本中的所有单词的词嵌入向量求和或平均,得到表示整个文本的文本向量;通过比较向量之间的距离或相似度度量得到文本的相似性。
22.优选的,所述大模型为循环神经网络、长短期记忆网络或transformer模型。
23.优选的,所述语音合成与播报模块通过damo/speech_sambert-hifigan_tts_zhiyan_emo_zh-cn_16k模块进行语音合成。
24.一种结合大模型的对话意图识别装置,包括处理器和存储有程序指令的存储器,所述处理器被配置为在运行所述程序指令时,执行所述的结合大模型的对话意图识别方法。
25.一种结合大模型的对话意图识别设备,包括:
26.设备本体;
27.所述的结合大模型的对话意图识别装置,被安装于所述设备本体。
28.一种存储介质,存储有程序指令,所述程序指令在运行时,执行所述的结合大模型的对话意图识别方法。
29.本发明的优点在于:本发明通过在对话流程中添加大模型,利用大模型的海量知识,对匹配失败的用户意图进行更好回答,提升对话系统的智能性以及用户体验感。
附图说明
30.附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。
31.图1为本发明实施例1的主视结构示意图。
具体实施方式
32.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
33.实施例1
34.一种结合大模型的对话意图识别方法,具体实施流程如下
35.步骤1:预置意图文本和对应的意图处理模块,所述预置意图处理模块包括系统意图和用户自定义意图,所述系统意图为通用意图,所述用户意图为用户自定义意图;
36.步骤2:通过语音识别模块识别用户对话内容,形成文本形式;所述语音识别模块为wenet语音识别工具包。使用conformer网络结构和ctc/attention loss联合优化方法,利用帧级别的ctc loss和label级别attention-based auto-regression loss联合训练整个网络,具有较好端到端的流式识别效果。
37.所述语音识别模块识别用户对话内容,形成文本形式的具体方式如下:
38.步骤2-1:语音识别模块接收到语音输入,对语音信号进行预处理,去除语音中的噪声和杂音;
39.步骤2-2:将处理好的语音信号通过语音识别模块进行特征提取,提取出语音相关特征;
40.步骤2-3:通过语音模型和声学模型对特征向量进行匹配和解码,获取用户对话内容文本。
41.步骤3:通过文本相似性计算模块对用户对话内容形成的文本与预置意图文本进行匹配计算,将匹配结果与设定的匹配阈值比较;
42.所述文本相似性计算模块具体计算方式如下:
43.通过词袋模型将文本信息转换为以数值向量表示的文本向量,所述文本向量中包含文档中出现的所有单词的向量,每个维度表示一个单词,数值表示该单词在文档中的出现频率或权重;将文本向量通过相似度度量方法计算两个文本之间的相似性。
44.如果匹配结果大于等于匹配阈值,则匹配成功,调用当前预置意图文本对应的意图处理模块对用户对话内容形成的文本进行意图处理,将结果反馈至语音合成与播报模块;
45.如果匹配结果小于匹配阈值,则匹配失败,则将用户对话内容形成的文本形式输入至大模型中进行识别,将结果反馈至语音合成与播报模块,所述大模型为深度学习技术构建的自然语言处理模型;
46.步骤4:所述语音合成与播报模块将接收到的信息通过tts合成为语音信息,并进行播报。所述大模型为循环神经网络、长短期记忆网络或transformer模型。所述语音合成与播报模块通过damo/speech_sambert-hifigan_tts_zhiyan_emo_zh-cn_16k模块进行语音合成。
47.该模型系统可分为两大模块:前端和后端。前端包含文本正则、分词、多音字预测、文本转音素和韵律预测等模块,它的功能是把输入文本进行解析,获得音素、音调、停顿和位置等语言学特征。后端包含时长模型、声学模型和声码器,它的功能是将语言学特征转换为语音。其中,时长模型的功能是给定语言学特征,获得每一个建模单元(例如:音素)的时长信息;声学模型则基于语言学特征和时长信息预测声学特征;声码器则将声学特征转换为对应的语音波形。
48.实施例2
49.文本相似性计算是通过将文本转换为向量表示,然后使用相似度度量方法来比较这些向量,从而评估文本之间的相似程度,得到用户输入所属的意图。关于意图处理,以天
气查询为例,通过跟对话人进行多轮对话得到该意图查询需要的相关信息,如“地点、时间”,然后调用第三方查询天气的接口,查询到相关信息返回。
50.所述文本相似性计算模块计算方式如下:
51.通过词嵌入方法将文本信息转换为以数值向量表示的文本向量;
52.将文本中的单词映射到低维连续向量空间,通过学习单词的语义信息和上下文关系,使具有相似语义的单词在向量空间中距离较近;将文本中的所有单词的词嵌入向量求和或平均,得到表示整个文本的文本向量;通过比较向量之间的距离或相似度度量得到文本的相似性。
53.除了上述方法外,还有其他一些基于神经网络的模型,如siamese网络和transformer模型,可以用于计算文本相似性。模型"damo/nlp_corom_sentence-embedding_chinese-base"采用dual encoder框架,在dual encoder框架中,query和document文本通过预训练语言模型编码后,通常采用预训练语言模型[cls]位置的向量作为最终的文本向量表示。基于标注数据的标签,通过计算query-document之间的cosine距离度量两者之间的相关性。
[0054]
在得到文本向量后,计算向量之间的相关性时可以采用milvus、faiss等相关技术。milvus是一个为向量搜索和分析而设计的开源向量数据库引擎。它提供了高效的向量存储和相似度搜索功能,使得在大规模向量数据集上进行高效查询成为可能。faiss(facebook ai similarity search)是facebook开发的一个用于相似度搜索和向量聚类的高性能库。它是一个基于cpu的库,专门用于快速搜索大规模向量空间中的相似向量。faiss实现了多种索引结构和搜索算法,包括倒排文件、多索引聚合和哈希等方法,以提供高效的相似度搜索。
[0055]
一种结合大模型的对话意图识别装置,包括处理器和存储有程序指令的存储器,所述处理器被配置为在运行所述程序指令时,执行所述的结合大模型的对话意图识别方法。
[0056]
一种结合大模型的对话意图识别设备,包括:
[0057]
设备本体;
[0058]
所述的结合大模型的对话意图识别装置,被安装于所述设备本体。
[0059]
一种存储介质,存储有程序指令,所述程序指令在运行时,执行所述的结合大模型的对话意图识别方法。
[0060]
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

技术特征:
1.一种结合大模型的对话意图识别方法,其特征在于,包括以下步骤:步骤1:预置意图文本和对应的意图处理模块,所述预置意图处理模块包括系统意图和用户自定义意图,所述系统意图为通用意图,所述用户意图为用户自定义意图;步骤2:通过语音识别模块识别用户对话内容,形成文本形式;步骤3:通过文本相似性计算模块对用户对话内容形成的文本与预置意图文本进行匹配计算,将匹配结果与设定的匹配阈值(能否给出个具体值)比较;如果匹配结果大于等于匹配阈值,则匹配成功,调用当前预置意图文本对应的意图处理模块对用户对话内容形成的文本进行意图处理,将结果反馈至语音合成与播报模块;如果匹配结果小于匹配阈值,则匹配失败,则将用户对话内容形成的文本形式输入至大模型中进行识别,将结果反馈至语音合成与播报模块,所述大模型为深度学习技术构建的自然语言处理模型;步骤4:所述语音合成与播报模块将接收到的信息通过tts合成为语音信息,并进行播报。2.权利要求1所述的结合大模型的对话意图识别方法,其特征在于,所述语音识别模块识别用户对话内容,形成文本形式的具体方式如下:步骤2-1:语音识别模块接收到语音输入,对语音信号进行预处理,去除语音中的噪声和杂音;步骤2-2:将处理好的语音信号通过语音识别模块进行特征提取,提取出语音相关特征;步骤2-3:通过语音模型和声学模型对特征向量进行匹配和解码,获取用户对话内容文本。3.权利要求2所述的结合大模型的对话意图识别方法,其特征在于,所述语音识别模块为wenet语音识别工具包。4.权利要求1所述的结合大模型的对话意图识别方法,其特征在于,所述文本相似性计算模块具体计算方式如下:通过词袋模型将文本信息转换为以数值向量表示的文本向量,所述文本向量中包含文档中出现的所有单词的向量,每个维度表示一个单词,数值表示该单词在文档中的出现频率或权重;将文本向量通过相似度度量方法计算两个文本之间的相似性。5.权利要求1所述的结合大模型的对话意图识别方法,其特征在于,所述文本相似性计算模块具体计算方式如下:通过词嵌入方法将文本信息转换为以数值向量表示的文本向量;将文本中的单词映射到低维连续向量空间,通过学习单词的语义信息和上下文关系,使具有相似语义的单词在向量空间中距离较近;将文本中的所有单词的词嵌入向量求和或平均,得到表示整个文本的文本向量;通过比较向量之间的距离或相似度度量得到文本的相似性。6.权利要求1所述的结合大模型的对话意图识别方法,其特征在于,所述大模型为循环神经网络、长短期记忆网络或transformer模型。7.权利要求1所述的结合大模型的对话意图识别方法,其特征在于,所述语音合成与播报模块通过damo/speech_sambert-hifigan_tts_zhiyan_emo_zh-cn_16k模块进行语音合
成。8.一种结合大模型的对话意图识别装置,包括处理器和存储有程序指令的存储器,其特征在于,所述处理器被配置为在运行所述程序指令时,执行如权利要求1至7任一项所述的结合大模型的对话意图识别方法。9.一种结合大模型的对话意图识别设备,其特征在于,包括:设备本体;如权利要求8所述的结合大模型的对话意图识别装置,被安装于所述设备本体。10.一种存储介质,存储有程序指令,其特征在于,所述程序指令在运行时,执行如权利要求1至7任一项所述的结合大模型的对话意图识别方法。

技术总结
本发明提供了一种结合大模型的对话意图识别方法,通过以下技术方案实现:预置意图文本和对应的意图处理模块,所述预置意图处理模块包括系统意图和用户自定义意图,所述系统意图为通用意图,所述用户意图为用户自定义意图;通过语音识别模块识别用户对话内容,形成文本形式;通过文本相似性计算模块对用户对话内容形成的文本与预置意图文本进行匹配计算,将匹配结果与设定的匹配阈值比较;所述语音合成与播报模块将接收到的信息通过TTS合成为语音信息,并进行播报。利用大模型的海量知识,对匹配失败的用户意图进行更好回答,提升对话系统的智能性以及用户体验感。统的智能性以及用户体验感。统的智能性以及用户体验感。


技术研发人员:李志芸 冯落落 李晓瑜 李沛 张庆功 尹青山
受保护的技术使用者:山东新一代信息产业技术研究院有限公司
技术研发日:2023.06.14
技术公布日:2023/9/20
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐