通话交互多级意图识别方法、装置、电子设备及介质与流程

未命名 09-08 阅读：154 评论：0

1.本公开涉及人工智能技术领域，具体涉及一种通话交互多级意图识别方法、装置、电子设备、介质和程序产品。

背景技术：

2.目前，银行客户服务热线拥有大量客户远程服务数据，据统计，某商业银行每年的语音人工服务量可达8770万通，语音转写数据量每月可达22000万句。
3.通话数据转写、分类的应用价值较高，对于话务文本的分类，现有的技术依赖于人工标志或使用传统的算法，存在识别效果差、易迁移性差的缺点。依赖于人工标注的方法可在一定程度上客服识别效果差的问题，然而，海量的客户通话数据主要依赖坐席手工进行话务分类，仍旧存在效率低、准确率低的问题亟待解决。

技术实现要素：

4.鉴于上述问题，本公开提供了一种可提高话务文本的分类效率和准确率的通话交互多级意图识别方法、装置、电子设备、介质和程序产品。
5.根据本公开的第一个方面，提供了一种通话交互多级意图识别方法，包括：获取待识别的通话语音数据，通话语音数据为用户与客服交互过程中产生的话务语音，将通话语音数据转换为通话文本数据；使用意图识别模型对通话文本数据进行处理，得到通话语音数据对应的多级目标意图，该多级目标意图包括一个父类别目标意图和从属于父类别目标意图的一个子类别目标意图。
6.根据本公开的实施例，意图识别模型通过以下方式训练得到：获取历史话务的语音数据集，将语音数据集转换为文本数据集；筛选文本数据集中的初始答复文本集，对初始答复文本集进行预处理，得到目标答复文本集；根据历史话务的业务内容，为目标答复文本集中的每个目标答复文本标记多级意图标签；使用目标答复文本集和多级意图标签作为训练数据，来训练意图识别模型。
7.根据本公开的实施例，筛选文本数据集中的初始答复文本集包括：筛选文本数据集中通话角色为用户的多个初始答复文本，形成初始答复文本集。
8.根据本公开的实施例，对初始答复文本集进行预处理包括脱敏、去停止词、拼接和长度限制中的至少一种，其中：脱敏包括：使用正则表达式对初始答复文本集中的每个初始答复文本进行字符串匹配，得到预定敏感类型的字符串，预定敏感类型包括身份证号、手机号和地址；基于预先建立的敏感词库，对预定敏感类型的字符串进行脱敏；去停止词包括：去除初始答复文本集中的停止词；拼接包括：将初始答复文本集中的多个初始答复文本按照时间顺序进行拼接；长度限制包括：去除初始答复文本集中超出预设长度范围的初始答复文本。
9.根据本公开的实施例，多级意图标签包括：多个一级意图标签；从属于每个一级意图标签的多个二级意图标签；以及从属于每个二级意图标签的多个三级意图标签。
10.根据本公开的实施例，意图识别模型依次包括bert模型、mean layer层、全连接层和softmax层；使用目标答复文本集和多级意图标签作为训练数据，来训练意图识别模型包括针对目标答复文本集中的每个目标答复文本，执行以下操作：使用bert模型对该目标答复文本进行处理，生成该目标答复文本中的每个词对应的词向量；使用mean layer层降低词向量的特征维度，得到第一中间特征；使用全连接层对第一中间特征进行非线性组合，得到第二中间特征；使用softmax层对第二中间特征进行映射，得到该目标答复文本属于多级意图标签中的每级意图标签的概率；根据多个概率，预测该目标答复文本对应的意图分类结果。
11.根据本公开的实施例，使用目标答复文本集和多级意图标签作为训练数据，来训练意图识别模型还包括：根据该目标答复文本已标记的多级意图标签，结合二分类算法和聚类算法，计算该目标答复文本对应的多个意图类别中心和每个意图类别中心的分类决策边界。
12.根据本公开的实施例，计算该目标答复文本对应的多个意图类别中心和每个意图类别中心的分类决策边界之后，还包括：针对多级意图标签中的每级意图标签，根据损失函数计算意图分类结果与该级意图标签之间的局部意图识别损失；根据损失函数计算意图分类结果与多级意图标签之间的全局意图识别损失；根据全局意图识别损失和多个局部意图识别损失，基于预设的惩罚项函数确定每级意图标签对应的惩罚项值；通过最小化惩罚项值，对多个意图类别中心和每个意图类别中心的分类决策边界进行更新。
13.根据本公开的实施例，惩罚项函数按照以下公式来预设：
14.pui＝λmax{0，loss
i-loss0}215.式中，pui为第i级意图标签对应的惩罚项值；i为意图标签的级数，i为正整数；λ为可调节参数；lossi为第i级意图标签对应的局部意图识别损失；loss0为全局意图识别损失。
16.根据本公开的实施例，该通话交互多级意图识别方法还包括：根据目标意图类别，从预设的答复语料库中匹配目标答复语料；将目标答复语料转换为目标答复语音并推送。
17.本公开的第二方面提供了一种通话交互多级意图识别装置，包括：通话语音获取模块，用于获取待识别的通话语音数据，通话语音数据为用户与客服交互过程中产生的话务语音，将通话语音数据转换为通话文本数据；多级意图识别模块，用于使用意图识别模型对通话文本数据进行处理，得到通话语音数据对应的多级目标意图，多级目标意图包括一个父类别目标意图和从属于父类别目标意图的一个子类别目标意图。
18.本公开的第三方面提供了一种电子设备，包括：一个或多个处理器；存储器，用于存储一个或多个程序，其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得一个或多个处理器执行上述通话交互多级意图识别方法。
19.本公开的第四方面还提供了一种计算机可读存储介质，其上存储有可执行指令，该指令被处理器执行时使处理器执行上述通话交互多级意图识别方法。
20.本公开的第五方面还提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述通话交互多级意图识别方法。
21.根据本公开实施例提供的通话交互多级意图识别方法、装置、电子设备、介质和程序产品，对任一待识别的通话语音数据，经过语音文本转换后，可以由训练好的意图识别模型进行多级意图的自动识别。针对通话交互语音信息实现多级意图识别，完成多级分类或
应包括但不限于单独具有a、单独具有b、单独具有c、具有a和b、具有a和c、具有b和c、和/或具有a、b、c的系统等)。
41.附图中示出了一些方框图和/或流程图。应理解，方框图和/或流程图中的一些方框或其组合可以由计算机程序指令来实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器，从而这些指令在由该处理器执行时可以创建用于实现这些方框图和/或流程图中所说明的功能/操作的装置。本公开的技术可以硬件和/或软件(包括固件、微代码等)的形式来实现。另外，本公开的技术可以采取存储有指令的计算机可读存储介质上的计算机程序产品的形式，该计算机程序产品可供指令执行系统使用或者结合指令执行系统使用。
42.在本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供、公开和应用等处理，均符合相关法律法规的规定，采取了必要保密措施，且不违背公序良俗。
43.在本公开的技术方案中，在获取或采集用户个人信息之前，均获取了用户的授权或同意。
44.本公开的实施例提供一种通话交互多级意图识别方法、装置、电子设备、存储介质和程序产品，涉及人工智能技术领域。该方法包括：获取待识别的通话语音数据，通话语音数据为用户与客服交互过程中产生的话务语音，将通话语音数据转换为通话文本数据；使用意图识别模型对通话文本数据进行处理，得到通话语音数据对应的多级目标意图，该多级目标意图包括一个父类别目标意图和从属于父类别目标意图的一个子类别目标意图。
45.图1示意性示出了根据本公开实施例的适于通话交互多级意图识别方法及装置的系统架构。需要注意的是，图1所示仅为可以应用本公开实施例的系统架构的示例，以帮助本领域技术人员理解本公开的技术内容，但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。
46.如图1所示，根据该实施例的系统架构100可以包括终端设备101、102、103、网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。
47.用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。
48.终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
49.服务器105可以是提供各种服务的服务器，例如对用户利用终端设备101、102、103所浏览的网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的用户请求等数据进行分析等处理，并将处理结果(例如根据用户请求获取或生成的网页、信息、或数据等)反馈给终端设备。
50.需要说明的是，本公开实施例所提供的通话交互多级意图识别方法一般可以由服务器105执行。相应地，本公开实施例所提供的通话交互多级意图识别装置一般可以设置于服务器105中。本公开实施例所提供的通话交互多级意图识别方法也可以由不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群执行。相应
地，本公开实施例所提供的通话交互多级意图识别装置也可以设置于不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群中。
51.应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。
52.以下将基于图1描述的系统架构，通过图2～图9对本公开实施例的通话交互多级意图识别方法进行详细描述。
53.图2示意性示出了根据本公开实施例的通话交互多级意图识别方法的流程图。
54.如图2所示，该实施例的通话交互多级意图识别方法可以包括操作s210～操作s240，该通话交互多级意图识别方法可以由上述服务器105执行。
55.在操作s210，获取待识别的通话语音数据，通话语音数据为用户与客服交互过程中产生的话务语音，将通话语音数据转换为通话文本数据。
56.在本公开实施例中，在获取待识别的通话语音数据之前，可以获得用户的同意或授权。例如，在操作s210之前，可以向用户发出获取用户与客服交互过程中产生的话务语音的请求。在用户同意或授权的情况下，执行所述操作s210。
57.例如，该通话语音数据可以为电话银行的通话交互内容，或者是远程在线客服与用户的通话交互内容，该通话交互内容为话务语音。可以利用语音识别技术(asr)将通话语音数据智能转写为通话文本数据。
58.在操作s220，使用意图识别模型对通话文本数据进行处理，得到通话语音数据对应的多级目标意图，多级目标意图包括一个父类别目标意图和从属于父类别目标意图的一个子类别目标意图。
59.通过本公开的实施例，对任一待识别的通话语音数据，经过语音文本转换后，可以由训练好的意图识别模型进行多级意图的自动识别。针对通话交互语音信息实现多级意图识别，完成多级分类或者层级分类，解决了依赖坐席手工进行话务分类标注存在的效率低、准确率低的问题。
60.针对多级意图识别结果，在分类任务中，一个父类别目标意图可以划分为若干个子类别目标意图，以此类推，一个子类别目标意图又可以划分为若干个小类别目标意图(父类、子类、子类的子类等)。
61.图3示意性示出了根据本公开实施例的意图识别模型的训练过程的流程图。
62.如图3所示，在本公开实施例中，上述操作s220中的意图识别模型通过以下操作s321～操作s324训练得到。
63.在操作s321，获取历史话务的语音数据集，将语音数据集转换为文本数据集。
64.该语音数据集是当前待识别的通话语音数据之前，采集的不同历史时刻下的人工服务的通话语音数据。可以利用语音识别技术(asr)将语音数据集智能转写为文本数据集，将真实的文本数据集作为意图识别模型的基础数据，保证基础数据的可靠性。
65.在操作s322，筛选文本数据集中的初始答复文本集，对初始答复文本集进行预处理，得到目标答复文本集。
66.在本公开实施例中，筛选文本数据集中的初始答复文本集包括：筛选文本数据集中通话角色为用户的多个初始答复文本，形成初始答复文本集。
67.由于历史话务语音数据集的通话角色包括用户(也称客户)和客服，该客服可以是
人工客服，也可以是在线客服，甚至是虚拟客服。本操作从包含多个通话角色的文本数据集之中，筛选通话角色为用户的初始答复文本，形成初始答复文本集。例如，在外呼通话中，只筛选通话角色为客户的通话文本，也即答复文本。接着，对初始答复文本集进行预处理，作用在于进行数据清洗和训练样本的构建，得到目标答复文本集。
68.在操作s323，根据历史话务的业务内容，为目标答复文本集中的每个目标答复文本标记多级意图标签。
69.本操作用于对输入的每个目标答复文件进行意图标签的多级标记。
70.在操作s324，使用目标答复文本集和多级意图标签作为训练数据，来训练意图识别模型。
71.通过本公开的实施例，提供了一种高效的从历史话务的多轮通话交互数据到标注多级意图的全流程的智能处理方式，通过训练好的意图识别模型对通话文本开展智能话务分析，替代原有的坐席手工标注，解决分类效率低、分类不准确等问题。
72.图4示意性示出了根据本公开实施例的对初始答复文本集进行预处理的流程图。
73.如图4所示，在本公开实施例中，上述操作s322对初始答复文本集进行预处理包括脱敏、去停止词、拼接和长度限制中的至少一种。
74.其中，脱敏包括：使用正则表达式对初始答复文本集中的每个初始答复文本进行字符串匹配，得到预定敏感类型的字符串，预定敏感类型包括身份证号、手机号和地址；基于预先建立的敏感词库，对预定敏感类型的字符串进行脱敏。
75.例如，通过正则匹配，将身份证号(如号码长度num_len＝18)、手机号(如号码长度num_len＝11)、地址等预定敏感类型的字符串(也即敏感词)进行脱敏，保证数据的隐私性。在脱敏处理上，可以调用自建的敏感词库对这些敏感词进行去除。
76.去停止词包括：去除初始答复文本集中的停止词。
77.停止词就是自然语言中出现频率非常高，但是对句子的意义没有实质影响的那类词。例如，该停止词可以是过短无意义句子(例如“哎”、“喂，你好”等)。
78.拼接包括：将初始答复文本集中的多个初始答复文本按照时间顺序进行拼接。
79.例如，通话过程中客户角色所说的一句话，在asr转写过程时可能转写为多句，此时可以按照时间顺序进行拼接，得到完整的句子，也即答复文本。
80.长度限制包括：去除初始答复文本集中超出预设长度范围的初始答复文本。
81.例如，为了符合后续意图识别模型中的bert模型编码的预设长度范围(小于512位)，可以去除单句过长句子。过短无意义句子(例如)
82.通过本公开的实施例，对初始答复文本集进行预处理，通过脱敏、去停止词、断句拼接和长度限制等方式，保留了句子的有效信息，且排除了干扰或者无效信息，能够提供高质量的训练数据，以保证意图识别模型的训练效果，提高意图识别效率。并且，采用正则匹配和自有敏感词库脱敏，充分避免了人工标注带来的隐私泄露问题。
83.在本公开实施例中，上述操作s323为目标答复文本集中的每个目标答复文本标记的多级意图标签，包括：多个一级意图标签；从属于每个一级意图标签的多个二级意图标签；以及从属于每个二级意图标签的多个三级意图标签。
84.图5示意性示出了根据本公开实施例的多级意图标签的示例图。
85.如图5所示，例如，根据商业银行历史话务的业务内容，一级意图标签可以设置为
无意图(图中未示出)、对公业务、个人信用卡业务和个人非信用卡业务。
86.在对公业务下，可以设置无意图(图中未示出)、对公账户、票据业务、付款业务、工银信使、银企对账、u盾、企业网银登录等二级意图标签。在个人信用卡业务下，可以设置账户信息查询、分期付款、额度、办卡-换卡、销卡销户、挂失止付、息费争议等二级意图标签。在个人非信用卡业务下，可以设置账户余额、转账汇款、个人手机银行、开户行等二级意图标签。
87.针对二级意图标签之工银信使，可以设置无意图(图中未示出)、业务规则、短信误收、功能使用、操作报错等三级意图标签。针对二级意图标签之办卡-换卡，可以设置无意图(图中未示出)、办卡、换卡、查询办卡进度、卡片启用等三级意图标签。针对二级意图标签之个人手机银行，可以设置无意图(图中未示出)、登录、功能咨询、交易受阻、程序失败等三级意图标签。
88.多级意图标签的标注可以由商业银行的客服人员读取上述操作s322的目标答复文本集，构建多级意图目录树，以每个目标答复文本为单位，完成多级意图的数据标注，保存形式可以为逐级分类结果。也即每个目标答复文本对应逐级中的一类，例如，某一目标答复文本的多级意图标签可以标注为：{label：
‘
个人信用卡业务’}，{label：
‘
账户信息查询’}，{label：
‘
交易受阻’}。其中，{label：
‘
个人信用卡业务’}为一级意图标签，{label：
‘
账户信息查询’}为二级意图标签，{label：
‘
交易受阻’}为三级意图标签。
89.至此，完成语音数据集的获取，转换、清洗、多级意图标签的标记，构建了目标答复文本集，以及该目标答复文本集中的每个目标答复文本已标记的多级意图标签，两者作为训练数据，共同训练已构建的意图识别模型。本方法的历史话务语料库丰富，语义信息丰富，通用能力好，进而提高话务文本意图识别效果。
90.图6a示意性示出了根据本公开实施例的意图识别模型构建过程的流程图。图6b示意性示出了根据本公开实施例的意图识别模型的网络结构图。图6c示意性示出了根据本公开实施例的bert模型的原理图。
91.如图6a和图6b所示，在本公开实施例中，意图识别模型依次包括bert模型、mean layer层、全连接层和softmax层；上述操作s324使用目标答复文本集和多级意图标签作为训练数据，来训练意图识别模型包括针对目标答复文本集中的每个目标答复文本，执行以下操作s641～操作s645。
92.在操作s641，使用bert模型对该目标答复文本进行处理，生成该目标答复文本中的每个词对应的词向量。
93.如图6b和图6c所示，目标答复文本的每一个词(token)输入(input)左侧虚线框内的bert模型，可以生成词向量vector。具体而言，该左侧虚线框内的bert模型可以简单地归纳为由输入层、中间层和输出层三部分构成，这些层是由transformer模型的encoder(编码)层多层堆叠而成的，通过token embedding、segment embedding和position embedding三个向量相加得到输入数据(也即目标答复文本)对应的词向量vector。也即，该词向量vector可以按照以下公式来表示：
94.vector＝token(input sequence)+segment(input sequence)+position(input sequence)
95.式中，token(input sequence)表示目标答复文本(input sequence，也即输入通
话文本句子)的token embedding向量；segment(input sequence)表示目标答复文本的segment embedding向量；position(input sequence)表示目标答复文本的position embedding向量。
96.如图6c所示，token embedding层用于将目标答复文本的每一个词转换成固定维度的向量。segment embedding层则用于区分一个句子对中的两个句子，实现输入句子对的分类任务。position embedding层则用于编码输入句子的每个词的序列的顺序性。
97.基于bert模型的训练方式，可以丰富模型的泛化能力，使得在下游的分类等有着更好地表现，上述操作s641为目标答复文本中的每个词生成对应的词向量vector。
98.在操作s642，使用mean layer层降低词向量的特征维度，得到第一中间特征。
99.请继续参阅图6b，mean layer层可以优化词向量vector特征，减少下一步进入的特征维度。相比于dropout方式，mean layer层能尽可能的保留前期词向量vector所获取到的特征信息，减少下一步进入的数据，得到优化后的新特征，也即第一中间特征。
100.在操作s643，使用全连接层对第一中间特征进行非线性组合，得到第二中间特征。
101.请继续参阅图6b，将第一中间特征通过全连接层(full connection，fc)，全连接层常出现于神经网络结构输出层之前，通常代表着分类器的角色，全连接层将前述提取到的第一中间特征进行组合，对该第一中间特征进行非线性组合得到输出，也即第二中间特征。
102.全连接层通常位于网络隐含层的最后部分，将上一层的矩阵展开为一维向量，然后经过全连接并向其他层传递信号，完成数据输入从隐层特征空间映射到样本标记空间，在网络结构中，其每一个神经元都与上一层所有的神经元之间连接。
103.在操作s644，使用softmax层对第二中间特征进行映射，得到该目标答复文本属于多级意图标签中的每级意图标签的概率。
104.请继续参阅图6b，将第二中间特征通过softmax层进行映射。softmax函数多应用于神经网络模型的最后一层，主要是起到分类的作用，通过将输入的多个数据全部映射为0到1的数据，且使得所有映射后的数据之和为1，通过softmax函数的处理使得输出数据转换成相当于概率的问题，可根据数值的大小完成分类的任务。
105.由此，操作s644将第二中间特征的维度映射到多级意图标签的维度上，使得输出数据形成了该目标答复文本属于多级意图标签中的每级意图标签的概率。
106.在操作s645，根据多个概率，预测该目标答复文本对应的意图分类结果。
107.该意图分类结果包括具体的意图类别和该意图类别的标识id。例如，某一目标答复文本(input sequence)＝{“我们四川省达州市那个工商银行在那个房贷”}，经过图6b所示的意图识别模型，输出对应的意图类别{label：贷款}和该意图类别的标识id＝{label_id＝23}。
108.通过本公开的实施例，基于深度学习的bert预训练模型结合聚类网络结构，构建意图识别模型来实现话务多级意图分类，克服了传统单一深度学习算法存在的语义获取不充分、分类效果差的问题，解决了依赖坐席手工进行话务分类标注存在的效率低、准确率低的问题。
109.图7a示意性示出了根据本公开实施例的意图类别中心和分类决策边界确定过程的流程图。图7b示意性示出了根据本公开实施例的意图类别中心和分类决策边界确定的原
理图。
110.如图7a所示，在本公开实施例中，上述操作s324使用目标答复文本集和多级意图标签作为训练数据，来训练意图识别模型还可以包括操作s741。
111.在操作s741，根据该目标答复文本已标记的多级意图标签，结合二分类算法和聚类算法，计算该目标答复文本对应的多个意图类别中心和每个意图类别中心的分类决策边界。
112.如图7b所示，上述操作s741是参考二分类算法进行每个目标答复文本的多级意图识别。根据任一目标答复文本已标记的多级意图标签(也称groundtruth)，通过聚类计算该目标答复文本对应的多个意图类别中心和每个意图类别中心的分类决策边界δk(或者以distance来表示)。
113.具体而言，如图7b左图，二分类处理是根据该目标答复文本已标记的多级意图标签中的任意一级意图标签，对每个目标答复文本预测到的意图分类结果进行二分类，确定该目标答复文本是否属于该级意图标签，也即二分类结果是明确属于该级意图标签，或者无(也即不属于)该级意图标签。在确定该目标答复文本属于该级意图标签的情况下，继续如图7b中间图，通过聚类计算该级意图标签下具体的多个意图类别中心(以图中的五角星表示)，以及多个意图类别中心各自的分类决策边界(也即图中各个五角星所在的半径)。
114.由此，基于多个意图类别中心和每个意图类别中心的分类决策边界，可以确定该目标答复文本的每个意图类别的聚类边界(也即图中以五角星为圆心，以对应的半径为界限所包围的圆形区域)。
115.针对目标答复文本集中的多个目标答复文本，不断迭代更新分类决策边界，可以得到多个意图类别中心和每个意图类别中心的分类决策边界，由此确定出意图分类的聚类边界，并将各个意图类别中心和对应的分类决策边界保存以供后续使用。
116.通过本公开的实施例，结合二分类算法和聚类算法，基于该目标答复文本已标记的多级意图标签中的任意一级意图标签，逐级计算每个目标答复文本对应的多个意图类别中心和每个意图类别中心的分类决策边界。根据不同的聚类空间，查找对应的初始分类决策边界，滤除无意图的离群点(无意图的目标答复文本)，从而实现针对已知意图类别的目标答复文本，训练出性能良好的多级意图识别网络。
117.并且，通过高质量的训练数据训练意图识别模型，保留模型训练权重，对话务文本进行分类，减少了训练数据的依赖。本方法具备良好的话务文本分类效果，一经微调训练后，反复用于批量任务，降低了传统人工对话务文本分类带来的时间和经济成本。
118.图8示意性示出了根据本公开实施例的局部分类和全局分类的损失关联过程的流程图。
119.如图8所示，在本公开实施例中，上述操作s741计算该目标答复文本对应的多个意图类别中心和每个意图类别中心的分类决策边界之后，还可以包括以下操作s841～操作s844。
120.在操作s841，针对多级意图标签中的每级意图标签，根据损失函数计算意图分类结果与该级意图标签之间的局部意图识别损失。
121.本操作通过局部学习，每级意图标签对应的局部意图识别损失。通过已标记的多级意图标签，对意图分类结果进行训练，学习不同层类目和文本之间的关系。本操作采用自
顶向下的层次分类，可以理解为由多个逐级的局部分类器组成，在每个非叶子节点都有一个局部分类器，基于局部层意图识别损失能够利用更细粒度的层级信息(例如一级意图、二级意图、三级意图等)。在多层的意图识别模型中，训练分别得到第一层的意图识别loss1，第二层的意图识别loss2、第三层的意图识别loss3等。
122.在操作s842，根据损失函数计算意图分类结果与多级意图标签之间的全局意图识别损失。
123.本操作采用全局建模，全局建模时可以理解为只由一个全局分类器构成，直接利用建立的多级意图标签信息(一级意图-二级意图-三级意图等)来建模，基于前述相同的损失函数，训练得到全局意图识别损失loss0。
124.在操作s843，根据全局意图识别损失和多个局部意图识别损失，基于预设的惩罚项函数确定每级意图标签对应的惩罚项值。
125.本操作将全局意图识别损失和多个局部意图识别损失进行结合，构成混合细化方案。其中，每一个局部意图识别损失lossi(i为正整数)能够迫使相应包含相应粒度的监督信息的梯度传递到相应层，同时全局意图识别损失loss0能够按照层次结构更新全局的模型参数。
126.需要说明的是，通过最小化每一个局部意图识别损失lossi(i为正整数)和全局意图识别损失loss0并不能保证层次分类的一致性，因此在本公开实施例中，通过对局部学习和全局学习的方案进行扬长避短，混合来解决层次意图识别问题。
127.在操作s844，通过最小化惩罚项值，对多个意图类别中心和每个意图类别中心的分类决策边界进行更新。
128.在本公开实施例中，惩罚项函数按照以下公式来预设：
129.pui＝λmax{0，loss
i-loss0}2130.式中，pui为第i级意图标签对应的惩罚项值；i为意图标签的级数，i为正整数；λ为可调节参数，用来控制惩罚项的影响程度；lossi为第i级意图标签对应的局部意图识别损失；loss0为全局意图识别损失。
131.通过本公开的实施例，结合由多个局部输出层(对应层次结构每一层)和一个全局的输出层，引入基于层次结构的惩罚项函数pu来约束模型预测，保证了父级识别结果与子级识别结果对应，减少了层级识别结果误差传播。通过不断迭代上述的惩罚项函数，使得惩罚项值最小化，来达到局部逐级识别和全局识别能力相结合。
132.具体而言，本方法在训练意图识别模型时，通过子级分类、父级分类和全局分类的损失关联(罚项纠正)来约束层间识别信息，保证父级和子级的隶属关系对应，从而实现交互文本的多级意图识别。通过这种方式，克服了传统多级分类任务中逐级分类造成的误差传播的弊端，同时通过损失关联，保证了父级和子级文本分类隶属关系对应。另一方面，通过准确挖掘意图信息，完成多级意图识别，充分挖掘其中蕴含的意图信息，发掘意图有益于进一步服务于话务数据统计、客户关怀等应用，本方法充分挖掘客户进线意图，助力提升客户服务先知能力，提升服务效率压降通话时长。
133.由此可见，本方法结合业务实际需求，在已构建的意图识别模型中建立多级识别结果之间的损失函数纠正，通过损失关联完成多级分类，可以保证多级意图识别的效果、准确性以及正确的隶属关系。
134.至此，完成意图识别模型的构建和训练，得到训练好的意图识别模型。
135.接着回到上述操作s220，使用训练好的意图识别模型，对通话文本数据进行处理，得到通话语音数据对应的多级目标意图。由此进行无标注数据的分类，完成多级意图识别。
136.需要说明的是，在上述操作s220之前，还可以参照上述操作s322对通话文本数据进行预处理，然后使用训练好的意图识别模型，对预处理的通话文本数据逐句进行多级意图识别。
137.例如，通话文本数据(input sequence)＝{“我们那个公司的公户转账怎么没有提醒了，你给看看，啥情况啊，怎么最近停止发送了，真烦”}，使用训练好的意图识别模型，输出对应的多级目标意图＝{label：[
‘
对公业务’，
‘
工银信使’，
‘
业务规则’]}。其中，
‘
对公业务’为一级意图(父类别目标意图)；
‘
工银信使’为从属于该父类别目标意图的一个子类别目标意图(也即二级意图)；
‘
业务规则’则是从属于该子类别目标意图的子类别目标意图(也即三级意图)。
[0138]
图9示意性示出了根据本公开实施例的答复语音推送过程的流程图。
[0139]
如图9所示，在本公开实施例中，该通话交互多级意图识别方法还可以包括操作s910～操作s920。
[0140]
在操作s910，根据目标意图类别，从预设的答复语料库中匹配目标答复语料。
[0141]
在操作s920，将目标答复语料转换为目标答复语音并推送。
[0142]
通过本公开的实施例，基于识别出的多级目标意图，可以存储作进一步使用，例如提供多方面应用开发：(1)话务文本意图识别存储商业银行的数据湖之后，可供多种数据分析和应用开发，多维度展示当前话务咨询热点、业务焦点趋势，辅助业务人员及时关注并处置焦点问题；(2)在对客户服务层面，通过意图识别模型的话务分类结果反哺智能机器人，迭代调整智能客服热点问题推送，提升交互的意图识别效率，缩短诉求解决时效。
[0143]
通过本公开的实施例，该通话交互多级意图识别方法可以扩展应用于话务自动分类、机器人自动标注、热点问题监控、意图数据分析、客户进线意图分析、客户关怀、客服关怀话术决策推荐等。
[0144]
基于上述通话交互多级意图识别方法，本公开还提供了一种通话交互多级意图识别装置。以下将结合图10对该装置进行详细描述。
[0145]
图10示意性示出了根据本公开实施例的通话交互多级意图识别装置的框图。
[0146]
如图10所示，该实施例的通话交互多级意图识别装置1000包括通话语音获取模块1010和多级意图识别模块1020。
[0147]
通话语音获取模块1010，用于获取待识别的通话语音数据，通话语音数据为用户与客服交互过程中产生的话务语音，将通话语音数据转换为通话文本数据。在一实施例中，通话语音获取模块1010可以用于执行前文描述的操作s210，在此不再赘述。
[0148]
多级意图识别模块1020，用于使用意图识别模型对通话文本数据进行处理，得到通话语音数据对应的多级目标意图，多级目标意图包括一个父类别目标意图和从属于父类别目标意图的一个子类别目标意图。在一实施例中，多级意图识别模块1020可以用于执行前文描述的操作s220，在此不再赘述。
[0149]
根据本公开的实施例，通话语音获取模块1010和多级意图识别模块1020中的任意多个模块可以合并在一个模块中实现，或者其中的任意一个模块可以被拆分成多个模块。
或者，这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合，并在一个模块中实现。根据本公开的实施例，通话语音获取模块1010和多级意图识别模块1020中的至少一个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(fpga)、可编程逻辑阵列(pla)、片上系统、基板上的系统、封装上的系统、专用集成电路(asic)，或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，通话语音获取模块1010和多级意图识别模块1020中的至少一个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。
[0150]
图11示意性示出了根据本公开实施例的适于实现通话交互多级意图识别方法的电子设备的方框图。
[0151]
如图11所示，根据本公开实施例的电子设备1100包括处理器1101，其可以根据存储在只读存储器(rom)1102中的程序或者从存储部分1108加载到随机访问存储器(ram)1103中的程序而执行各种适当的动作和处理。处理器1101例如可以包括通用微处理器(例如cpu)、指令集处理器和/或相关芯片组和/或专用微处理器(例如，专用集成电路(asic))等等。处理器1101还可以包括用于缓存用途的板载存储器。处理器1101可以包括用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。
[0152]
在ram 1103中，存储有电子设备1100操作所需的各种程序和数据。处理器1101、rom 1102以及ram 1103通过总线1104彼此相连。处理器1101通过执行rom 1102和/或ram 1103中的程序来执行根据本公开实施例的方法流程的各种操作。需要注意，所述程序也可以存储在除rom 1102和ram 1103以外的一个或多个存储器中。处理器1101也可以通过执行存储在所述一个或多个存储器中的程序来执行根据本公开实施例的方法流程的各种操作。
[0153]
根据本公开的实施例，电子设备1100还可以包括输入/输出(i/o)接口1105，输入/输出(i/o)接口1105也连接至总线1104。电子设备1100还可以包括连接至i/o接口1105的以下部件中的一项或多项：包括键盘、鼠标等的输入部分1106；包括诸如阴极射线管(crt)、液晶显示器(lcd)等以及扬声器等的输出部分1107；包括硬盘等的存储部分1108；以及包括诸如lan卡、调制解调器等的网络接口卡的通信部分1109。通信部分1109经由诸如因特网的网络执行通信处理。驱动器1110也根据需要连接至i/o接口1105。可拆卸介质1111，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1110上，以便于从其上读出的计算机程序根据需要被安装入存储部分1108。
[0154]
本公开还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的；也可以是单独存在，而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被执行时，实现根据本公开实施例的通话交互多级意图识别方法。
[0155]
根据本公开的实施例，计算机可读存储介质可以是非易失性的计算机可读存储介质，例如可以包括但不限于：便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。例如，根据本公开的实施例，计算机可读存储介质可以包括上文描述的
rom 1102和/或ram 1103和/或rom 1102和ram 1103以外的一个或多个存储器。
[0156]
本公开的实施例还包括一种计算机程序产品，其包括计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。当计算机程序产品在计算机系统中运行时，该程序代码用于使计算机系统实现本公开实施例所提供的通话交互多级意图识别方法。
[0157]
在该计算机程序被处理器1101执行时执行本公开实施例的系统/装置中限定的上述功能。根据本公开的实施例，上文描述的系统、装置、模块、单元等可以通过计算机程序模块来实现。
[0158]
在一种实施例中，该计算机程序可以依托于光存储器件、磁存储器件等有形存储介质。在另一种实施例中，该计算机程序也可以在网络介质上以信号的形式进行传输、分发，并通过通信部分1109被下载和安装，和/或从可拆卸介质1111被安装。该计算机程序包含的程序代码可以用任何适当的网络介质传输，包括但不限于：无线、有线等等，或者上述的任意合适的组合。
[0159]
在这样的实施例中，该计算机程序可以通过通信部分1109从网络上被下载和安装，和/或从可拆卸介质1111被安装。在该计算机程序被处理器1101执行时，执行本公开实施例的系统中限定的上述功能。根据本公开的实施例，上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。
[0160]
根据本公开的实施例，可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例提供的计算机程序的程序代码，具体地，可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。程序设计语言包括但不限于诸如java，c++，python，“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(lan)或广域网(wan)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
[0161]
附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。
[0162]
本领域技术人员可以理解，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合或/或结合，即使这样的组合或结合没有明确记载于本公开中。特别地，在不脱离本公开精神和教导的情况下，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。
[0163]
以上对本公开的实施例进行了描述。但是，这些实施例仅仅是为了说明的目的，而并非为了限制本公开的范围。尽管在以上分别描述了各实施例，但是这并不意味着各个实
施例中的措施不能有利地结合使用。本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围，本领域技术人员可以做出多种替代和修改，这些替代和修改都应落在本公开的范围之内。

技术特征：
1.一种通话交互多级意图识别方法，包括：获取待识别的通话语音数据，所述通话语音数据为用户与客服交互过程中产生的话务语音，将所述通话语音数据转换为通话文本数据；使用意图识别模型对所述通话文本数据进行处理，得到所述通话语音数据对应的多级目标意图，所述多级目标意图包括一个父类别目标意图和从属于所述父类别目标意图的一个子类别目标意图。2.根据权利要求1所述的方法，其中，所述意图识别模型通过以下方式训练得到：获取历史话务的语音数据集，将所述语音数据集转换为文本数据集；筛选所述文本数据集中的初始答复文本集，对所述初始答复文本集进行预处理，得到目标答复文本集；根据所述历史话务的业务内容，为所述目标答复文本集中的每个目标答复文本标记多级意图标签；使用所述目标答复文本集和所述多级意图标签作为训练数据，来训练所述意图识别模型。3.根据权利要求2所述的方法，其中，所述筛选所述文本数据集中的初始答复文本集包括：筛选所述文本数据集中通话角色为用户的多个初始答复文本，形成所述初始答复文本集。4.根据权利要求2所述的方法，其中，所述对所述初始答复文本集进行预处理包括脱敏、去停止词、拼接和长度限制中的至少一种，其中：所述脱敏包括：使用正则表达式对所述初始答复文本集中的每个初始答复文本进行字符串匹配，得到预定敏感类型的字符串，所述预定敏感类型包括身份证号、手机号和地址；基于预先建立的敏感词库，对所述预定敏感类型的字符串进行脱敏；所述去停止词包括：去除所述初始答复文本集中的停止词；所述拼接包括：将所述初始答复文本集中的多个初始答复文本按照时间顺序进行拼接；所述长度限制包括：去除所述初始答复文本集中超出预设长度范围的初始答复文本。5.根据权利要求2所述的方法，其中，所述多级意图标签包括：多个一级意图标签；从属于每个所述一级意图标签的多个二级意图标签；以及从属于每个所述二级意图标签的多个三级意图标签。6.根据权利要求2所述的方法，其中，所述意图识别模型依次包括bert模型、mean layer层、全连接层和softmax层；所述使用目标答复文本集和所述多级意图标签作为训练数据，来训练所述意图识别模型包括针对所述目标答复文本集中的每个目标答复文本，执行以下操作：使用bert模型对该目标答复文本进行处理，生成该目标答复文本中的每个词对应的词
向量；使用mean layer层降低所述词向量的特征维度，得到第一中间特征；使用全连接层对所述第一中间特征进行非线性组合，得到第二中间特征；使用softmax层对所述第二中间特征进行映射，得到该目标答复文本属于所述多级意图标签中的每级意图标签的概率；根据多个所述概率，预测该目标答复文本对应的意图分类结果。7.根据权利要求6所述的方法，其中，所述使用目标答复文本集和所述多级意图标签作为训练数据，来训练所述意图识别模型还包括：根据该目标答复文本已标记的多级意图标签，结合二分类算法和聚类算法，计算该目标答复文本对应的多个意图类别中心和每个所述意图类别中心的分类决策边界。8.根据权利要求7所述的方法，其中，所述计算该目标答复文本对应的多个意图类别中心和每个所述意图类别中心的分类决策边界之后，还包括：针对所述多级意图标签中的每级意图标签，根据损失函数计算所述意图分类结果与该级意图标签之间的局部意图识别损失；根据所述损失函数计算所述意图分类结果与所述多级意图标签之间的全局意图识别损失；根据所述全局意图识别损失和多个所述局部意图识别损失，基于预设的惩罚项函数确定每级意图标签对应的惩罚项值；通过最小化所述惩罚项值，对所述多个意图类别中心和每个所述意图类别中心的分类决策边界进行更新。9.根据权利要求8所述的方法，其中，所述惩罚项函数按照以下公式来预设：pu
i
＝λmax{0，loss
i-loss0}2式中，pu
i
为第i级意图标签对应的惩罚项值；i为意图标签的级数，i为正整数；λ为可调节参数；loss
i
为第i级意图标签对应的局部意图识别损失；loss0为全局意图识别损失。10.根据权利要求1所述的方法，还包括：根据所述目标意图类别，从预设的答复语料库中匹配目标答复语料；将所述目标答复语料转换为目标答复语音并推送。11.一种通话交互多级意图识别装置，包括：通话语音获取模块，用于获取待识别的通话语音数据，所述通话语音数据为用户与客服交互过程中产生的话务语音，将所述通话语音数据转换为通话文本数据；多级意图识别模块，用于使用意图识别模型对所述通话文本数据进行处理，得到所述通话语音数据对应的多级目标意图，所述多级目标意图包括一个父类别目标意图和从属于所述父类别目标意图的一个子类别目标意图。12.一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器执行根据权利要求1～10中任一项所述的方法。13.一种计算机可读存储介质，其上存储有可执行指令，该指令被处理器执行时使处理
器执行根据权利要求1～10中任一项所述的方法。14.一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现根据权利要求1～10中任一项所述的方法。

技术总结
本公开提供了一种通话交互多级意图识别方法，涉及人工智能技术领域。该方法包括：获取待识别的通话语音数据，通话语音数据为用户与客服交互过程中产生的话务语音，将通话语音数据转换为通话文本数据；使用意图识别模型对通话文本数据进行处理，得到通话语音数据对应的多级目标意图，该多级目标意图包括一个父类别目标意图和从属于父类别目标意图的一个子类别目标意图。本公开还提供了一种通话交互多级意图识别装置、电子设备、存储介质和程序产品。存储介质和程序产品。存储介质和程序产品。

技术研发人员：刘涛白杰张梦鹿
受保护的技术使用者：中国工商银行股份有限公司
技术研发日：2023.05.18
技术公布日：2023/9/5

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

上一篇：一种风险检测方法、装置、设备及存储介质与流程 下一篇：一种双模模块检测方法、装置、电子设备及存储介质与流程

通话交互多级意图识别方法、装置、电子设备及介质与流程

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

通话交互多级意图识别方法、装置、电子设备及介质与流程

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表