文本话术聚类方法、装置、计算机设备及存储介质与流程

未命名 07-28 阅读:101 评论:0


1.本技术涉及人工智能技术领域,特别是涉及一种文本话术聚类方法、装置、计算机设备及存储介质。


背景技术:

2.随着金融科技发展的日趋深化,人们对金融企业的服务的要求越来越高,智慧网点的建设成为了各行网点转型的重点,也成为了各行信息技术数字化转型的某种象征,用以支撑各种金融场景类,如运营、支付、营销等各方面。为了更好地服务于客户,企业都相应的设有客服坐席,客服坐席可以接听客户拨打的人工电话,为客户解决问题。
3.用户意图识别是当下智能坐席所面对的重大考验,由于用户意图复杂多变,为了能够准确识别用户意图,需要利用人工在海量的历史对话数据中挖掘标准问句并制定业务上的意图标签,从而训练意图分类模型。在该场景下,可以通过大规模文本和话术聚类算法挖掘出相似的用户话术,减少人工面对海量数据的标注成本。现有技术中,常用的文本话术聚类算法包括k-means、dbscan等,现有文本话术聚类算法针对大规模文本存在的不足在于:在海量数据场景下,现有文本话术聚类算法的运行耗时较长。另外,受制于聚类算法的参数、数据质量等因素,现有算法的聚类结果不能保证有效性,试错成本巨大。


技术实现要素:

4.本技术提供了一种文本话术聚类方法、装置、计算机设备及存储介质,旨在解决现有的文本话术聚类算法存在的运行耗时较长、聚类结果不能保证有效性等技术问题。
5.为解决上述技术问题,本技术采用的技术方案为:
6.一种文本话术聚类方法,包括:
7.获取待聚类文本数据,将所述待聚类文本数据随机平均分为k组;
8.采用在线贪心算法分别对每组中的文本数据进行组内聚类,得到所述待聚类文本数据的组内聚类结果集,所述组内聚类结果集中包括各个组的聚类簇列表、每个聚类簇中的聚类成员以及每个聚类簇的中心句;
9.采用在线贪心算法对所述组内聚类结果集中的中心句进行跨组聚类,得到中心句聚类结果集;
10.获取所述中心句聚类结果集的同一聚类簇中各个中心句在所述组内聚类结果集中对应的聚类簇,并将所述聚类簇的聚类成员进行合并,得到所述待聚类文本数据的聚类结果。
11.本技术实施例采取的技术方案还包括:所述获取待聚类文本数据具体为:
12.获取坐席与用户的历史对话数据,并根据对话特征对所述历史对话数据进行筛选,得到筛选后的对话数据;所述对话特征包括每通历史对话数据的通话时长、对话轮数、是否成交以及坐席为所述历史对话数据所做的记录;
13.采用asr算法将所述筛选后的对话数据进行语音转换,得到语音转换后的文本数
据;
14.采用bart模型对所述转换后的文本数据进行纠错、加标点以及断句处理,得到待聚类文本数据。
15.本技术实施例采取的技术方案还包括:所述将所述待聚类文本数据随机平均分为k组具体为:
16.利用roberta模型将所述待聚类文本数据编码为固定维数的句子向量,并按照所述待聚类文本数据的条数将所述编码后的句子向量随机平均分为k组。
17.本技术实施例采取的技术方案还包括:所述采用在线贪心算法分别对每组中的文本数据进行组内聚类具体为:
18.设定每组中的簇内最大距离d、最大簇数、簇的最小文本数量m以及回流文本的百分比δ,所述回流文本是指在聚类结束后未被分到任何一个簇的文本,回流文本数量不超过组内文本总数量
×
回流文本的百分比;
19.初始化每个组中的未聚类文本集合s'=s,聚类簇列表clusters=[];
[0020]
判断每个组中的未聚类文本集合s'的文本数量是否大于回流文本数量,如果大于,从所述未聚类文本集合s'中随机选择一条文本,并计算所述文本与组内其他文本之间的距离,找到与所述文本之间的距离小于聚类簇内最大距离d的文本作为聚类成员,得到聚类文本集合c;
[0021]
判断|c|≥m是否成立,如果成立,计算所述聚类文本集合c的簇中心,得到距离簇中心最近的文本text,将所述文本text作为聚类文本集合c的中心句,并在聚类簇列表clusters=[]中新增二元组(c,text);
[0022]
从所述未聚类文本集合s'中剔除掉聚类文本集合c,并重新执行所述判断每个组中的未聚类文本集合s'的文本数量是否大于回流文本数量的步骤。
[0023]
本技术实施例采取的技术方案还包括:所述判断每个组中的未聚类文本集合s'的文本数量是否大于回流文本数量之后,还包括:
[0024]
如果未聚类文本集合s'的文本数量小于回流文本数量,则收集各个组中的所有回流文本,并重新执行所述初始化每个组中的未聚类文本集合s'的步骤。
[0025]
本技术实施例采取的另一技术方案为:一种文本话术聚类装置,包括:
[0026]
数据获取模块:用于获取待聚类文本数据,将所述待聚类文本数据随机平均分为k组;
[0027]
组内聚类模块:用于采用在线贪心算法分别对每组中的文本数据进行组内聚类,得到所述待聚类文本数据的组内聚类结果集,所述组内聚类结果集中包括各个组的聚类簇列表、每个聚类簇中的聚类成员以及每个聚类簇的中心句;
[0028]
跨组聚类模块:用于采用在线贪心算法对所述组内聚类结果集中的中心句进行跨组聚类,得到中心句聚类结果集;
[0029]
数据合并模块:用于获取所述中心句聚类结果集的同一聚类簇中各个中心句在所述组内聚类结果集中对应的聚类簇,并将所述聚类簇的聚类成员进行合并,得到所述待聚类文本数据的聚类结果。
[0030]
本技术实施例采取的技术方案还包括:所述数据获取模块获取待聚类文本数据具体为:
[0031]
获取坐席与用户的历史对话数据,并根据对话特征对所述历史对话数据进行筛选,得到筛选后的对话数据;所述对话特征包括每通历史对话数据的通话时长、对话轮数、是否成交以及坐席为所述历史对话数据所做的记录;采用asr算法将所述筛选后的对话数据进行语音转换,得到语音转换后的文本数据;采用bart模型对所述转换后的文本数据进行纠错、加标点以及断句处理,得到待聚类文本数据。
[0032]
本技术实施例采取的技术方案还包括:所述组内聚类模块采用在线贪心算法分别对每组中的文本数据进行组内聚类具体为:
[0033]
设定每组中的簇内最大距离d、最大簇数、簇的最小文本数量m以及回流文本的百分比δ,所述回流文本是指在聚类结束后未被分到任何一个簇的文本,回流文本数量不超过组内文本总数量
×
回流文本的百分比;
[0034]
初始化每个组中的未聚类文本集合s'=s,聚类簇列表clusters=[];
[0035]
判断每个组中的未聚类文本集合s'的文本数量是否大于回流文本数量,如果大于,从所述未聚类文本集合s'中随机选择一条文本,并计算所述文本与组内其他文本之间的距离,找到与所述文本之间的距离小于聚类簇内最大距离d的文本作为聚类成员,得到聚类文本集合c;
[0036]
判断|c|≥m是否成立,如果成立,计算所述聚类文本集合c的簇中心,得到距离簇中心最近的文本text,将所述文本text作为聚类文本集合c的中心句,并在聚类簇列表clusters=[]中新增二元组(c,text);
[0037]
从所述未聚类文本集合s'中剔除掉聚类文本集合c,并重新执行所述判断每个组中的未聚类文本集合s'的文本数量是否大于回流文本数量的步骤。
[0038]
本技术实施例采取的又一技术方案为:一种计算机设备,所述计算机设备包括:
[0039]
存储有可执行程序指令的存储器;
[0040]
与所述存储器连接的处理器;
[0041]
所述处理器调用所述存储器中存储的所述可执行程序指令,执行如上所述的文本话术聚类方法。
[0042]
本技术实施例采取的又一技术方案为:一种存储介质,存储有处理器可执行的程序指令,所述程序指令用于执行上述的文本话术聚类方法。
[0043]
本技术实施例的文本话术聚类方法、装置、计算机设备及存储介质通过对文本数据进行随机分组,采用在线贪心算法分别对每组中的文本数据进行组内聚类,并计算每个聚类簇的中心句,然后对所有聚类簇的中心句进行跨组聚类,基于跨组聚类结果,将同一聚类簇中的各个中心句在组内聚类结果集中对应的聚类成员进行合并,得到文本数据的最终聚类结果。本技术通过随机分组、组内聚类以及中心句跨组聚类等方案进行文本话术聚类,可以有效提升文本话术的聚类准确度,减少文本话术的聚类耗时,充分利用了海量数据,能在合理时间范围内得到优质的聚类结果,并能更好的赋能众多复杂业务场景。
附图说明
[0044]
图1是本技术第一实施例的文本话术聚类方法的流程示意图;
[0045]
图2是本技术第二实施例的文本话术聚类方法的流程示意图;
[0046]
图3为本技术实施例中采用在线贪心算法对每组中的句子向量进行组内聚类的聚
类过程示意图;
[0047]
图4是本技术实施例文本话术聚类装置的结构示意图;
[0048]
图5是本技术实施例的计算机设备结构示意图;
[0049]
图6是本技术实施例的存储介质结构示意图。
具体实施方式
[0050]
下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本技术的一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
[0051]
本技术中的术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”、“第三”的特征可以明示或者隐含地包括至少一个该特征。本技术的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。本技术实施例中所有方向性指示(诸如上、下、左、右、前、后
……
)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0052]
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本技术的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
[0053]
本技术实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(artificial intelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向,还可以应用于商业、金融、医疗、交易、网银等应用场景。
[0054]
请参阅图1,是本技术第一实施例的文本话术聚类方法的流程示意图。本技术第一实施例的文本话术聚类方法包括以下步骤:
[0055]
s100:获取待聚类文本数据,将所述待聚类文本数据随机平均分为k组;
[0056]
s110:采用在线贪心算法分别对每组中的文本数据进行组内聚类,得到所述待聚类文本数据的组内聚类结果集,所述组内聚类结果集中包括各个组的聚类簇列表、每个聚类簇中的聚类成员以及每个聚类簇的中心句;
[0057]
s120:采用在线贪心算法对所述组内聚类结果集中的中心句进行跨组聚类,得到中心句聚类结果集;
[0058]
s130:获取所述中心句聚类结果集的同一聚类簇中各个中心句在所述组内聚类结果集中对应的聚类簇,并将所述聚类簇的聚类成员进行合并,得到所述待聚类文本数据的聚类结果。
[0059]
基于上述,本技术第一实施例的文本话术聚类方法通过对文本数据进行随机分组,采用在线贪心算法分别对每组中的文本数据进行组内聚类,并计算每个聚类簇的中心句,然后对所有聚类簇的中心句进行跨组聚类,基于跨组聚类结果,将同一聚类簇中的各个中心句在组内聚类结果集中对应的聚类成员进行合并,得到文本数据的最终聚类结果。本技术实施例基于人工智能中的聚类算法,通过随机分组、组内聚类以及中心句跨组聚类等方案进行文本话术聚类,可以有效提升文本话术的聚类准确度,减少文本话术的聚类耗时,充分利用了海量数据,能在合理时间范围内得到优质的聚类结果,并能更好的赋能众多复杂业务场景。
[0060]
本技术实施例可以广泛应用于各类技术领域,例如金融科技或数字医疗领域等技术领域,以应用于金融科技技术领域为例,本技术实施例的文本话术聚类方法可以应用于保险或银行的人机对话场景,以应用于医疗领域为例,本技术实施例的文本话术聚类方法可以应用于医疗机构或医院咨询的人机对话场景。本技术实施例的文本话术聚类方法还能够应用于语音识别、医疗诊断、应用程序的测试等多种不同的领域中,对此本技术不做过多赘述。
[0061]
请参阅图2,是本技术第二实施例的文本话术聚类方法的流程示意图。本技术第二实施例的文本话术聚类方法包括以下步骤:
[0062]
s200:获取坐席与用户的历史对话数据,并根据对话特征对历史对话数据进行筛选,得到筛选后的对话数据;
[0063]
本步骤中,所述历史对话数据包括但不限于保险、银行等业务场景下坐席与用户的人机对话数据、以银行业务场景为例,用户可以通过来电的方式咨询或者申请贷款、信用卡、保险、理财产品等业务,此时获取坐席与用户之间的历史通话音频文本,可以认为获取的上述历史通话音频是在历史来电中客户与客服坐席之间进行通话的音频数据。对话特征包括但不限于每通历史对话数据的通话时长、对话轮数、是否成交以及坐席为该通历史对话数据所做的记录等,通过对话特征对历史对话数据进行筛选,从而得到有意义的对话数据用于后续文本话术聚类,在此对对话特征的具体设置方式不做进一步限制。
[0064]
s210:采用asr(automatic speech recognition,自动语音识别技术)算法将筛选后的对话数据进行语音转换,得到语音转换后的文本数据;
[0065]
s220:采用bart模型对转换后的文本数据进行纠错、加标点以及断句等预处理,得到预处理后的待聚类文本数据;
[0066]
本步骤中,由于asr的功能是忠实地将语音转换为文本,不涉及对对话内容本身的理解,因此asr转换后的第一文本数据质量偏低,存在缺字、缺标点等问题,且asr系统一般以自身的静音检测模块作为语义表达的断点,以这种断点方式进行分割的句子很多时候并不能表达一个完整的语义,最终会影响文本话术聚类的准确度。
[0067]
例如,原始对话数据为:你好,请问有什么可以帮您?经由asr转换后的第一文本数据可能是:你好请问有什可以帮你。例如在某银行的交易场景中,原始对话数据为:你好,请对以下交易信息进行确认。经由asr转换后的第一文本数据可能是:你好以下信息确认。显
然经asr转换后的第一文本数据质量偏低,存在缺字、缺标点等问题,影响了文本话术聚类的准确度。
[0068]
为了解决该不足,本技术实施例在文本话术聚类前采用bart模型对asr转换后的第一文本数据进行纠错、加标点以及断句等预处理,利用标点符号将第一文本数据断开为具有完整意思的独立句子,有利于提高后续文本话术聚类的准确度。具体的,bart模型是一个降噪自动解码器,它被实现为一个序列到序列的模型,具有对损坏文本的双向编码器(transformer encoder)和一个从左到右的自回归解码器(transformer decoder),bart模型的预训练为对原始文本数据破坏再重建,因此损失函数为transformer decoder的输出与原始文本数据的交叉熵。利用双向编码器对的第一文本数据进行编码,并将编码后的第一文本数据输入自回归解码器,自回归解码器根据输入数据计算原始文本数据的可能性,对输入数据进行纠错、加标点以及断句等处理,并输出最终的待聚类文本数据。
[0069]
例如,asr转换后的第一文本数据为:你好请问有什可以帮你,自回归解码器最终输出的待聚类文本数据为:你好,请问有什么可以帮你?例如在某银行的交易场景中,asr转换后的第一文本数据为:你好以下信息确认,自回归解码器最终输出的待聚类文本数据为:你好,请对以下交易信息进行确认。显然通过bart模型对asr转换后的第一文本数据进行纠错、加标点以及断句等处理后,能够有效提高后续文本话术聚类的准确度。
[0070]
s230:利用roberta模型将待聚类文本数据编码为固定维数的句子向量,并按照待聚类文本数据的条数将编码后的句子向量随机平均分为k组
[0071]
本步骤中,roberta模型是bert的改进版,与bert相比,roberta模型使用了更大的模型参数量、更大的bacth size以及更多的训练数据,另外,roberta在训练方法,去掉了下一句预测(nsp)任务,并使用了动态掩码,即每次向模型输入一个序列时都会生成新的掩码模式,从而能够在大量数据不断输入的过程中逐渐适应不同的掩码策略,学习不同的语言表征。可以理解,句子向量的分组数量可根据实际应用场景进行设定。
[0072]
s240:采用在线贪心算法分别对每组中的句子向量进行组内聚类,得到待聚类文本数据的组内聚类结果集,所述组内聚类结果集中包括各个组的聚类簇列表、每个聚类簇中的聚类成员以及每个聚类簇的中心句;
[0073]
本步骤中,请参阅图3,为本技术实施例中采用在线贪心算法对每组中的句子向量进行组内聚类的聚类过程示意图,其具体包括以下步骤:
[0074]
s241:设定每组中的簇内最大距离d、最大簇数、簇的最小文本数量m以及回流文本的百分比δ,其中,回流文本是指在聚类结束后未被分到任何一个簇的文本,假设组内文本总数量|sk|=n,回流文本数量不能超过组内文本总数量
×
回流文本百分比,即回流文本数量不大于n*δ;
[0075]
s242:初始化每个组中的未聚类文本集合s'=s,聚类簇列表clusters=[];
[0076]
s243:分别判断每个组中的未聚类文本集合s'的文本数量是否大于回流文本数量(n*δ),如果大于,执行s244;否则,执行s248;
[0077]
s244:从未聚类文本集合s'中随机选择一条文本,并计算该文本与其他文本之间的距离,找到与该文本之间的距离小于聚类簇内最大距离d的文本作为聚类成员,得到聚类文本集合c;
[0078]
s245:判断|c|≥m是否成立,如果成立,执行s246;
[0079]
s246:计算聚类文本集合c的簇中心,得到距离簇中心最近的文本text,将该文本text作为聚类文本集合c的中心句,并在聚类簇列表clusters中新增二元组(c,text);
[0080]
s247:从未聚类文本集合s'中剔除掉聚类文本集合c,即未聚类文本集合s'=s'-c,并重新执行s243;
[0081]
s248:收集各个组中的所有回流文本,并重新执行s242。
[0082]
s250:采用在线贪心算法对组内聚类结果集中的中心句进行跨组聚类,得到中心句聚类结果集;
[0083]
本步骤中,中心句的跨组聚类方式与s240中的组内聚类方式相同,为避免冗余,此处将不再赘述。
[0084]
s260:分别找到中心句聚类结果集的同一聚类簇中的各个中心句在组内聚类结果集中对应的聚类簇,并将各个聚类簇的聚类成员进行合并,得到待聚类文本数据的聚类结果;
[0085]
本步骤中,假设中心句聚类结果集的每个聚类簇中分别包括两个聚类中心句,则分别找到这两个聚类中心句在组内聚类结果集中对应的两个聚类簇,并将这两个聚类簇的聚类成员进行合并,得到待聚类文本数据的聚类结果。
[0086]
基于上述,本技术第二实施例的文本话术聚类方法提出了一种层次化聚类方案,可应用于金融、商业、保险等领域,基于人工智能中的聚类算法,通过采用bart模型对语音转换后的文本数据进行纠错、加标点以及断句处理,利用roberta中文预训练模型对文本数据进行随机分组,采用在线贪心算法分别对每组中的文本数据进行组内聚类,并计算每个聚类簇的中心句,然后对所有聚类簇的中心句进行跨组聚类,基于跨组聚类结果,将同一聚类簇中的各个中心句在组内聚类结果集中对应的聚类成员进行合并,得到文本数据的最终聚类结果。本技术通过随机分组、组内聚类以及中心句跨组聚类等方案进行文本话术聚类,可以有效提升文本话术的聚类准确度,减少文本话术的聚类耗时,充分利用了海量数据,能在合理时间范围内得到优质的聚类结果,并能更好的赋能众多复杂业务场景。
[0087]
在一个可选的实施方式中,还可以:将所述的文本话术聚类方法的结果上传至区块链中。具体地,基于所述的文本话术聚类方法的结果得到对应的摘要信息,具体来说,摘要信息由所述的文本话术聚类方法的结果进行散列处理得到,比如利用sha256s算法处理得到。将摘要信息上传至区块链可保证其安全性和对用户的公正透明性。用户可以从区块链中下载得该摘要信息,以便查证所述的文本话术聚类方法的结果是否被篡改。本示例所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等,还可以包括银行的业务数据、交易数据以及支付数据。
[0088]
请参阅图4,是本技术实施例文本话术聚类装置的结构示意图。本技术实施例文本话术聚类装置40包括:
[0089]
数据获取模块41:用于获取待聚类文本数据,将所述待聚类文本数据随机平均分为k组;其中,所述数据获取模块41获取待聚类文本数据具体为:获取坐席与用户的历史对话数据,并根据对话特征对所述历史对话数据进行筛选,得到筛选后的对话数据。作为一种
可选的实施方式,上述历史对话数据包括但不限于保险、银行等业务场景下坐席与用户的人机对话数据、以银行业务场景为例,用户可以通过来电的方式咨询或者申请贷款、信用卡、保险、理财产品等业务,此时获取坐席与用户之间的历史通话音频文本,可以认为获取的上述历史通话音频是在历史来电中客户与客服坐席之间进行通话的音频数据。
[0090]
上述对话特征包括每通历史对话数据的通话时长、对话轮数、是否成交以及坐席为所述历史对话数据所做的记录;采用asr算法将所述筛选后的对话数据进行语音转换,得到语音转换后的文本数据;采用bart模型对所述转换后的文本数据进行纠错、加标点以及断句处理,得到待聚类文本数据。
[0091]
例如,原始对话数据为:你好,请问有什么可以帮您?经由asr转换后的第一文本数据可能是:你好请问有什可以帮你。例如在某银行的交易场景中,原始对话数据为:你好,请对以下交易信息进行确认。经由asr转换后的第一文本数据可能是:你好以下信息确认。显然经asr转换后的第一文本数据质量偏低,存在缺字、缺标点等问题,影响了文本话术聚类的准确度。为了解决该不足,本技术实施例在文本话术聚类前采用bart模型对asr转换后的第一文本数据进行纠错、加标点以及断句等预处理,利用标点符号将第一文本数据断开为具有完整意思的独立句子,有利于提高后续文本话术聚类的准确度。
[0092]
组内聚类模块42:用于采用在线贪心算法分别对每组中的文本数据进行组内聚类,得到所述待聚类文本数据的组内聚类结果集,所述组内聚类结果集中包括各个组的聚类簇列表、每个聚类簇中的聚类成员以及每个聚类簇的中心句;其中,所述组内聚类模块42采用在线贪心算法分别对每组中的文本数据进行组内聚类具体为:设定每组中的簇内最大距离d、最大簇数、簇的最小文本数量m以及回流文本的百分比δ,所述回流文本是指在聚类结束后未被分到任何一个簇的文本,回流文本数量不超过组内文本总数量
×
回流文本的百分比;初始化每个组中的未聚类文本集合s'=s,聚类簇列表clusters=[];判断每个组中的未聚类文本集合s'的文本数量是否大于回流文本数量,如果大于,从所述未聚类文本集合s'中随机选择一条文本,并计算所述文本与组内其他文本之间的距离,找到与所述文本之间的距离小于聚类簇内最大距离d的文本作为聚类成员,得到聚类文本集合c;判断|c|≥m是否成立,如果成立,计算所述聚类文本集合c的簇中心,得到距离簇中心最近的文本text,将所述文本text作为聚类文本集合c的中心句,并在聚类簇列表clusters=[]中新增二元组(c,text);从所述未聚类文本集合s'中剔除掉聚类文本集合c,并重新执行所述判断每个组中的未聚类文本集合s'的文本数量是否大于回流文本数量的步骤。
[0093]
跨组聚类模块43:用于采用在线贪心算法对所述组内聚类结果集中的中心句进行跨组聚类,得到中心句聚类结果集;
[0094]
数据合并模块44:用于获取所述中心句聚类结果集的同一聚类簇中各个中心句在所述组内聚类结果集中对应的聚类簇,并将所述聚类簇的聚类成员进行合并,得到所述待聚类文本数据的聚类结果。
[0095]
本技术实施例的文本话术聚类装置,基于人工智能中的聚类算法同时可应用于金融、商业、保险等领域,通过采用bart模型对语音转换后的文本数据进行纠错、加标点以及断句处理,利用roberta中文预训练模型对文本数据进行随机分组,采用在线贪心算法分别对每组中的文本数据进行组内聚类,并计算每个聚类簇的中心句,然后对所有聚类簇的中心句进行跨组聚类,基于跨组聚类结果,将同一聚类簇中的各个中心句在组内聚类结果集
中对应的聚类成员进行合并,得到文本数据的最终聚类结果。本技术通过随机分组、组内聚类以及中心句跨组聚类等方案进行文本话术聚类,可以有效提升文本话术的聚类准确度,减少文本话术的聚类耗时,充分利用了海量数据,能在合理时间范围内得到优质的聚类结果,并能更好的赋能众多复杂业务场景。
[0096]
请参阅图5,为本技术实施例的计算机设备结构示意图。该计算机设备50包括:
[0097]
存储有可执行程序指令的存储器51;
[0098]
与存储器51连接的处理器52;
[0099]
处理器52用于调用存储器51中存储的可执行程序指令并执行以下步骤:获取待聚类文本数据,将所述待聚类文本数据随机平均分为k组;采用在线贪心算法分别对每组中的文本数据进行组内聚类,得到所述待聚类文本数据的组内聚类结果集,所述组内聚类结果集中包括各个组的聚类簇列表、每个聚类簇中的聚类成员以及每个聚类簇的中心句;采用在线贪心算法对所述组内聚类结果集中的中心句进行跨组聚类,得到中心句聚类结果集;获取所述中心句聚类结果集的同一聚类簇中各个中心句在所述组内聚类结果集中对应的聚类簇,并将所述聚类簇的聚类成员进行合并,得到所述待聚类文本数据的聚类结果。
[0100]
其中,处理器52还可以称为cpu(central processing unit,中央处理单元)。处理器52可能是一种集成电路芯片,具有信号的处理能力。处理器52还可以是通用处理器、数字信号处理器(dsp)、专用集成电路(as ic)、现成可编程门阵列(fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
[0101]
本技术实施例的计算机设备基于人工智能中的聚类算法同时可应用于金融、商业、保险等领域,通过对文本数据进行随机分组,采用在线贪心算法分别对每组中的文本数据进行组内聚类,并计算每个聚类簇的中心句,然后对所有聚类簇的中心句进行跨组聚类,基于跨组聚类结果,将同一聚类簇中的各个中心句在组内聚类结果集中对应的聚类成员进行合并,得到文本数据的最终聚类结果。本技术通过随机分组、组内聚类以及中心句跨组聚类等方案进行文本话术聚类,可以有效提升文本话术的聚类准确度,减少文本话术的聚类耗时,充分利用了海量数据,能在合理时间范围内得到优质的聚类结果,并能更好的赋能众多复杂业务场景。
[0102]
请参阅图6,图6为本技术实施例的存储介质的结构示意图。本技术实施例的存储介质存储有能够实现以下步骤的程序指令61:获取待聚类文本数据,将所述待聚类文本数据随机平均分为k组;采用在线贪心算法分别对每组中的文本数据进行组内聚类,得到所述待聚类文本数据的组内聚类结果集,所述组内聚类结果集中包括各个组的聚类簇列表、每个聚类簇中的聚类成员以及每个聚类簇的中心句;采用在线贪心算法对所述组内聚类结果集中的中心句进行跨组聚类,得到中心句聚类结果集;获取所述中心句聚类结果集的同一聚类簇中各个中心句在所述组内聚类结果集中对应的聚类簇,并将所述聚类簇的聚类成员进行合并,得到所述待聚类文本数据的聚类结果。其中,该程序指令61可以以软件产品的形式存储在上述存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本技术各个实施方式方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序指令的介
质,或者是计算机、服务器、手机、平板等终端设备。其中,服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(content delivery network,cdn)、以及大数据和人工智能平台等基础云计算服务的云服务器。
[0103]
本技术实施例的存储介质基于人工智能中的聚类算法同时可应用于金融、商业、保险等领域,通过对文本数据进行随机分组,采用在线贪心算法分别对每组中的文本数据进行组内聚类,并计算每个聚类簇的中心句,然后对所有聚类簇的中心句进行跨组聚类,基于跨组聚类结果,将同一聚类簇中的各个中心句在组内聚类结果集中对应的聚类成员进行合并,得到文本数据的最终聚类结果。本技术通过随机分组、组内聚类以及中心句跨组聚类等方案进行文本话术聚类,可以有效提升文本话术的聚类准确度,减少文本话术的聚类耗时,充分利用了海量数据,能在合理时间范围内得到优质的聚类结果,并能更好的赋能众多复杂业务场景。
[0104]
在本技术所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的系统实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
[0105]
另外,在本技术各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。以上仅为本技术的实施方式,并非因此限制本技术的专利范围,凡是利用本技术说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本技术的专利保护范围内。

技术特征:
1.一种文本话术聚类方法,其特征在于,包括:获取待聚类文本数据,将所述待聚类文本数据随机平均分为k组;采用在线贪心算法分别对每组中的文本数据进行组内聚类,得到所述待聚类文本数据的组内聚类结果集,所述组内聚类结果集中包括各个组的聚类簇列表、每个聚类簇中的聚类成员以及每个聚类簇的中心句;采用在线贪心算法对所述组内聚类结果集中的中心句进行跨组聚类,得到中心句聚类结果集;获取所述中心句聚类结果集的同一聚类簇中各个中心句在所述组内聚类结果集中对应的聚类簇,并将所述聚类簇的聚类成员进行合并,得到所述待聚类文本数据的聚类结果。2.根据权利要求1所述的文本话术聚类方法,其特征在于,所述获取待聚类文本数据具体为:获取坐席与用户的历史对话数据,并根据对话特征对所述历史对话数据进行筛选,得到筛选后的对话数据;所述对话特征包括每通历史对话数据的通话时长、对话轮数、是否成交以及坐席为所述历史对话数据所做的记录;采用asr算法将所述筛选后的对话数据进行语音转换,得到语音转换后的文本数据;采用bart模型对所述转换后的文本数据进行纠错、加标点以及断句处理,得到待聚类文本数据。3.根据权利要求2所述的文本话术聚类方法,其特征在于,所述将所述待聚类文本数据随机平均分为k组具体为:利用roberta模型将所述待聚类文本数据编码为固定维数的句子向量,并按照所述待聚类文本数据的条数将所述编码后的句子向量随机平均分为k组。4.根据权利要求1至3任一项所述的文本话术聚类方法,其特征在于,所述采用在线贪心算法分别对每组中的文本数据进行组内聚类具体为:设定每组中的簇内最大距离d、最大簇数、簇的最小文本数量m以及回流文本的百分比δ,所述回流文本是指在聚类结束后未被分到任何一个簇的文本,回流文本数量不超过组内文本总数量
×
回流文本的百分比;初始化每个组中的未聚类文本集合s'=s,聚类簇列表clusters=[];判断每个组中的未聚类文本集合s'的文本数量是否大于回流文本数量,如果大于,从所述未聚类文本集合s'中随机选择一条文本,并计算所述文本与组内其他文本之间的距离,找到与所述文本之间的距离小于聚类簇内最大距离d的文本作为聚类成员,得到聚类文本集合c;判断c≥m是否成立,如果成立,计算所述聚类文本集合c的簇中心,得到距离簇中心最近的文本text,将所述文本text作为聚类文本集合c的中心句,并在聚类簇列表clusters=[]中新增二元组(c,text);从所述未聚类文本集合s'中剔除掉聚类文本集合c,并重新执行所述判断每个组中的未聚类文本集合s'的文本数量是否大于回流文本数量的步骤。5.根据权利要求4所述的文本话术聚类方法,其特征在于,所述判断每个组中的未聚类文本集合s'的文本数量是否大于回流文本数量之后,还包括:如果未聚类文本集合s'的文本数量小于回流文本数量,则收集各个组中的所有回流文
本,并重新执行所述初始化每个组中的未聚类文本集合s'的步骤。6.一种文本话术聚类装置,其特征在于,包括:数据获取模块:用于获取待聚类文本数据,将所述待聚类文本数据随机平均分为k组;组内聚类模块:用于采用在线贪心算法分别对每组中的文本数据进行组内聚类,得到所述待聚类文本数据的组内聚类结果集,所述组内聚类结果集中包括各个组的聚类簇列表、每个聚类簇中的聚类成员以及每个聚类簇的中心句;跨组聚类模块:用于采用在线贪心算法对所述组内聚类结果集中的中心句进行跨组聚类,得到中心句聚类结果集;数据合并模块:用于获取所述中心句聚类结果集的同一聚类簇中各个中心句在所述组内聚类结果集中对应的聚类簇,并将所述聚类簇的聚类成员进行合并,得到所述待聚类文本数据的聚类结果。7.根据权利要求6所述的文本话术聚类装置,其特征在于,所述数据获取模块获取待聚类文本数据具体为:获取坐席与用户的历史对话数据,并根据对话特征对所述历史对话数据进行筛选,得到筛选后的对话数据;所述对话特征包括每通历史对话数据的通话时长、对话轮数、是否成交以及坐席为所述历史对话数据所做的记录;采用asr算法将所述筛选后的对话数据进行语音转换,得到语音转换后的文本数据;采用bart模型对所述转换后的文本数据进行纠错、加标点以及断句处理,得到待聚类文本数据。8.根据权利要求6或7所述的文本话术聚类装置,其特征在于,所述组内聚类模块采用在线贪心算法分别对每组中的文本数据进行组内聚类具体为:设定每组中的簇内最大距离d、最大簇数、簇的最小文本数量m以及回流文本的百分比δ,所述回流文本是指在聚类结束后未被分到任何一个簇的文本,回流文本数量不超过组内文本总数量
×
回流文本的百分比;初始化每个组中的未聚类文本集合s'=s,聚类簇列表clusters=[];判断每个组中的未聚类文本集合s'的文本数量是否大于回流文本数量,如果大于,从所述未聚类文本集合s'中随机选择一条文本,并计算所述文本与组内其他文本之间的距离,找到与所述文本之间的距离小于聚类簇内最大距离d的文本作为聚类成员,得到聚类文本集合c;判断c≥m是否成立,如果成立,计算所述聚类文本集合c的簇中心,得到距离簇中心最近的文本text,将所述文本text作为聚类文本集合c的中心句,并在聚类簇列表clusters=[]中新增二元组(c,text);从所述未聚类文本集合s'中剔除掉聚类文本集合c,并重新执行所述判断每个组中的未聚类文本集合s'的文本数量是否大于回流文本数量的步骤。9.一种计算机设备,其特征在于,所述计算机设备包括:存储有可执行的程序指令的存储器;与所述存储器连接的处理器;所述处理器调用所述存储器中存储的所述可执行程序指令,执行如权利要求1-5任一项所述的文本话术聚类方法。10.一种存储介质,所述存储介质存储有处理器可执行的程序指令,其特征在于,所述
程序指令用于执行权利要求1至5任一项所述的文本话术聚类方法。

技术总结
本申请涉及人工智能技术领域,公开了一种文本话术聚类方法、装置、计算机设备及存储介质。所述方法包括:获取待聚类文本数据,将所述待聚类文本数据随机平均分为K组;采用在线贪心算法分别对每组中的文本数据进行组内聚类,得到所述待聚类文本数据的组内聚类结果集;采用在线贪心算法对所述组内聚类结果集中的中心句进行跨组聚类,得到中心句聚类结果集;获取所述中心句聚类结果集的同一聚类簇中各个中心句在所述组内聚类结果集中对应的聚类簇,并将所述聚类簇的聚类成员进行合并,得到所述待聚类文本数据的聚类结果。本申请可以有效提升文本话术的聚类准确度,减少文本话术的聚类耗时,能在合理时间范围内得到优质的聚类结果。果。果。


技术研发人员:赖勇铨 陈步闲 龙珊
受保护的技术使用者:平安科技(深圳)有限公司
技术研发日:2023.05.19
技术公布日:2023/7/27
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐