一种交互系统测试方法、装置、电子设备和存储介质与流程

未命名 07-23 阅读:81 评论:0


1.本发明涉及人工智能技术领域,具体涉及一种交互系统测试方法、装置、电子设备和存储介质。


背景技术:

2.随着当前经济和科学技术的快速发展,各种类型的人工智能在人们生活中出现的频率越来越高,应用的场景也越来越广泛。例如可以模仿人类、与人类进行互动的交互系统,等等。
3.目前,在对交互系统进行测试时,只会对交互系统的交互结果的流畅性、连贯性、一致性等技术指标进行测试,以评估交互系统与人类进行交互时的交互质量。但是相关技术中的测试方案,没有关注交互系统的交互结果对交互对象的心理状态的影响,忽略了交互系统应当具有健康的心理倾向和正面情感交流的能力。


技术实现要素:

4.本发明实施例提供一种交互系统测试方法、装置、电子设备和存储介质,可以测试交互系统是否具有健康的心理倾向和正面情感交流的能力,避免交互结果对交互对象的心理状态造成负面影响。
5.本发明实施例提供一种交互系统测试方法,包括:
6.获取至少一个测试问题,所述测试问题对应有至少一个测试选项,其中,所述测试问题为针对交互系统设计的心理测试问题,所述交互系统用于与交互对象通过自然语言进行交互;
7.基于所述测试问题,与所述交互系统进行交互,得到所述交互系统针对所述测试问题的测试回复;
8.根据所述测试回复,从所述测试问题对应的所述测试选项中,确定所述测试问题对应的目标测试选项;
9.基于所述目标测试选项以及预设的结果分析规则,确定所述交互系统的心理测试结果。
10.相应的,本发明实施例还提供一种交互系统测试装置,包括:
11.问题获取单元,用于获取至少一个测试问题,所述测试问题对应有至少一个测试选项,其中,所述测试问题为针对交互系统设计的心理测试问题,所述交互系统用于与交互对象通过自然语言进行交互;
12.交互单元,用于基于所述测试问题,与所述交互系统进行交互,得到所述交互系统针对所述测试问题的测试回复;
13.选项确定单元,用于根据所述测试回复,从所述测试问题对应的所述测试选项中,确定所述测试问题对应的目标测试选项;
14.结果确定单元,用于基于所述目标测试选项以及预设的结果分析规则,确定所述
交互系统的心理测试结果。
15.可选的,所述选项确定单元,用于根据所述测试回复,计算所述测试回复与所述测试问题对应的各所述测试选项之间的选项匹配概率;
16.当各所述选项匹配概率均小于预设的匹配阈值时,将所述测试回复作为失败回复;
17.当存在至少一个所述选项匹配概率不小于所述匹配阈值时,将最大的所述选项匹配概率对应的所述测试选项,作为所述测试问题对应的目标测试选项;
18.所述结果确定单元,用于基于所述目标测试选项、预设的结果分析规则以及所述失败回复,确定所述交互系统的心理测试结果。
19.可选的,所述结果分析规则包括测试选项分析规则和失败回复分析规则,所述结果确定单元,用于基于所述目标测试选项和所述测试选项分析规则,计算所述目标测试选项的选项测试结果;
20.基于所述失败回复和所述失败回复分析规则,计算所述失败回复的失败回复结果;
21.根据所述选项测试结果和所述失败回复结果,确定所述交互系统的心理测试结果。
22.可选的,本发明实施例提供的交互系统测试装置还包括置信度计算单元,用于计算所述失败回复的数量与所述测试回复的数量之间的比值,得到失败回复占比;
23.根据所述失败回复占比,计算所述心理测试结果的结果置信度。
24.可选的,本发明实施例提供的交互系统测试装置还包括循环测试单元,用于返回执行所述基于所述测试问题,与所述交互系统进行交互,得到所述交互系统针对所述测试问题的测试回复的步骤,直到达到预设的测试结束条件;
25.所述结果确定单元,用于基于每次所述测试回复对应的所述目标测试选项以及预设的结果分析规则,确定所述交互系统的心理测试结果。
26.可选的,所述选项确定单元,用于根据所述测试回复,通过语义提取网络进行特征提取,得到所述测试回复对应的回复语义特征;
27.将所述测试问题对应的各所述测试选项,分别通过所述语义提取网络进行特征提取,得到各所述测试选项对应的选项语义特征;
28.针对所述回复语义特征与各所述选项语义特征分别进行文本蕴含识别,确定所述回复语义特征与各所述选项语义特征之间的语义蕴含概率;
29.基于所述语义蕴含概率,从所述测试选项中,确定所述测试问题对应的目标测试选项。
30.可选的,所述问题获取单元,用于获取测试问题集合以及所述测试问题集合对应的测试条件,所述测试问题集合包括至少一个候选测试问题;
31.从所述测试问题集合中未参与当前的交互系统测试的所述候选测试问题中,确定一个测试问题。
32.所述交互单元,用于将所述测试条件作为交互内容,与所述交互系统进行交互,以使得所述交互系统基于所述测试条件进行测试配置;
33.基于所述测试问题,与所述交互系统进行交互,以使得所述交互系统基于所述测
试条件生成测试回复;
34.接收所述交互系统发送的针对所述测试问题的测试回复;
35.返回执行所述从所述测试问题集合中未参与当前的交互系统测试的所述候选测试问题中,确定一个测试问题的步骤,直至所述测试问题集合中的所述候选测试问题均已参与当前的交互系统测试。
36.可选的,本发明实施例提供的交互系统测试装置还包括条件交互单元,用于获取测试问题集合以及所述测试问题集合对应的测试条件,所述测试问题集合包括至少一个候选测试问题;
37.将所述测试条件作为交互内容,与所述交互系统进行交互,以使得所述交互系统基于所述测试条件进行测试配置;
38.所述问题获取单元,用于从所述测试问题集合中未参与当前的交互系统测试的所述候选测试问题中,确定一个测试问题;
39.所述交互单元,用于基于所述测试问题,与所述交互系统进行交互,以使得所述交互系统基于当前的所述测试问题、针对历史测试问题的测试回复以及所述测试条件生成测试回复;
40.接收所述交互系统发送的针对所述测试问题的测试回复,将当前的所述测试问题作为所述历史测试问题;
41.返回执行所述从所述测试问题集合中未参与当前的交互系统测试的所述候选测试问题中,确定一个测试问题的步骤,直至所述测试问题集合中的所述候选测试问题均为所述历史测试问题。
42.可选的,本发明实施例提供的交互系统测试装置还包括问题生成单元,用于获取心理测试问卷,所述心理测试问卷用于对人类进行心理测试,所述心理测试问卷中包括至少一个陈述句型的心理测试问题;
43.对所述心理测试问卷中的心理测试问题进行句型检测,当所述心理测试问题为陈述句型时,对所述心理测试问题进行分词处理,得到所述心理测试问题的陈述分词;
44.基于所述陈述分词的分词语义进行分词替换,得到所述心理测试问题的替换后分词;
45.基于所述替换后分词,生成疑问句型的测试问题。
46.可选的,所述交互单元,用于基于所述测试问题,通过语音形式与所述交互系统进行交互,以使得所述交互系统生成针对所述测试问题的语音测试回复;
47.接收所述交互系统发送的语音测试回复,对所述语音测试回复进行语音识别,得到所述交互系统针对所述测试问题的测试回复。
48.可选的,本发明实施例提供的交互系统测试装置还包括系统调整单元,用于根据所述交互系统的心理测试结果,对所述交互系统的系统参数进行调整,得到调整后的交互系统;
49.返回执行所述基于所述测试问题,与所述交互系统进行交互,得到所述交互系统针对所述测试问题的测试回复的步骤,直到所述调整后的交互系统满足预设的调整结束条件。
50.相应的,本发明实施例还提供一种电子设备,包括存储器和处理器;所述存储器存
储有应用程序,所述处理器用于运行所述存储器内的应用程序,以执行本发明实施例所提供的任一种交互系统测试方法中的步骤。
51.相应的,本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有多条指令,所述指令适于处理器进行加载,以执行本发明实施例所提供的任一种交互系统测试方法中的步骤。
52.此外,本发明实施例还提供一种计算机程序产品,包括计算机程序或指令,所述计算机程序或指令被处理器执行时实现本发明实施例所提供的任一种交互系统测试方法中的步骤。
53.采用本发明实施例的方案,可以获取至少一个测试问题,该测试问题对应有至少一个测试选项,其中,该测试问题为针对交互系统设计的心理测试问题,该交互系统用于与交互对象通过自然语言进行交互,基于该测试问题,与该交互系统进行交互,得到该交互系统针对该测试问题的测试回复,根据该测试回复,从该测试问题对应的该测试选项中,确定该测试问题对应的目标测试选项,基于该目标测试选项以及预设的结果分析规则,确定该交互系统的心理测试结果;由于在本发明实施例中,通过针对交互系统设计的心理测试问题对交互系统进行了心理测试,得到交互系统的心理测试结果,因此,可以测试交互系统是否具有健康的心理倾向和正面情感交流的能力,避免交互结果对交互对象的心理状态造成负面影响。
附图说明
54.为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
55.图1是本发明实施例提供的交互系统测试方法的场景示意图;
56.图2是本发明实施例提供的交互系统测试方法的流程图;
57.图3是本发明实施例提供的单轮询问的流程示意图;
58.图4是本发明实施例提供的多轮询问的流程示意图;
59.图5是本发明实施例提供的交互系统测试方法的另一流程图;
60.图6是本发明实施例提供的交互系统测试装置的结构示意图;
61.图7是本发明实施例提供的交互系统测试装置的另一结构示意图;
62.图8是本发明实施例提供的电子设备的结构示意图。
具体实施方式
63.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
64.本发明实施例提供一种交互系统测试方法、装置、电子设备和计算机可读存储介质。具体地,本发明实施例提供适用于交互系统测试装置的交互系统测试方法,该交互系统
测试装置可以集成在电子设备中。
65.该电子设备可以为终端等设备,包括但不限于移动终端和固定终端,例如移动终端包括但不限于智能手机、智能手表、平板电脑、笔记本电脑、智能车载等,其中,固定终端包括但不限于台式电脑、智能电视等。
66.该电子设备还可以为服务器等设备,该服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、cdn(content delivery network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器,但并不局限于此。
67.本发明实施例的交互系统测试方法,可以由服务器实现,也可以由终端和服务器共同实现。
68.下面以终端和服务器共同实现该交互系统测试方法为例,对该方法进行说明。
69.如图1所示,本发明实施例提供的交互系统测试系统包括终端10和服务器20等;终端10与服务器20之间通过网络连接,比如,通过有线或无线网络连接等,其中,终端10可以作为配置有交互系统的终端存在。
70.其中,服务器20,可以用于获取至少一个测试问题,测试问题对应有至少一个测试选项,其中,测试问题为针对交互系统设计的心理测试问题,交互系统用于与交互对象通过自然语言进行交互;
71.服务器20可以基于测试问题,与终端10中的交互系统进行交互,得到交互系统针对测试问题的测试回复;
72.服务器20可以根据测试回复,从测试问题对应的测试选项中,确定测试问题对应的目标测试选项,基于目标测试选项以及预设的结果分析规则,确定交互系统的心理测试结果。
73.以下分别进行详细说明。需要说明的是,以下实施例的描述顺序不作为对实施例优选顺序的限定。
74.本发明实施例将从交互系统测试装置的角度进行描述,该交互系统测试装置具体可以集成在服务器或终端中。
75.如图2所示,本实施例的交互系统测试方法的具体流程可以如下:
76.201、获取至少一个测试问题,测试问题对应有至少一个测试选项,其中,测试问题为针对交互系统设计的心理测试问题,交互系统用于与交互对象通过自然语言进行交互。
77.在本发明实施例中,交互系统是基于人工智能技术构建的、具有与交互对象进行交互功能的整体。
78.其中,人工智能(artificial intelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
79.人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、
大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
80.本发明实施例中的交互系统可以通过自然语言的形式与交互对象进行语言交互。具体的,自然语言的语种可以为中文、英文等各类语种,本发明实施例对此不做限定。
81.因此,交互系统可以基于人工智能技术中的自然语言处理技术、语音技术等技术构建。其中,自然语言处理(nature language processing,nlp)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
82.可以理解的是,理想状态下交互系统的运行逻辑应当与人的思维逻辑是高度相似的,而本发明实施例中是针对交互系统的心理健康状态进行测试,因此,可以独立地根据交互系统的运行逻辑为交互系统设计测试问题,也可以通过人类的心理测试问卷生成适用于交互系统的测试问题。
83.一般的,交互系统可以通过自然形式的对话与用户展开交互,为了避免采用其它交互形式导致的测试误差,在对交互系统进行测试时,也可以采用对话的形式进行开展。然而,现有的人类的心理测试问卷中大部分的心理测试问题是陈述句,不能直接用于在自然对话中进行提问。
84.因此,可以预先对现有的心理测试问卷进行改写,以便于与交互系统通过对话形式进行交互。步骤“获取至少一个测试问题”之前,本发明实施例提供的交互系统测试方法还包括:
85.获取心理测试问卷,心理测试问卷用于对人类进行心理测试,心理测试问卷中包括至少一个陈述句型的心理测试问题;
86.对心理测试问卷中的心理测试问题进行句型检测,当心理测试问题为陈述句型时,对心理测试问题进行分词处理,得到心理测试问题的陈述分词;
87.基于陈述分词的分词语义进行分词替换,得到心理测试问题的替换后分词;
88.基于替换后分词,生成疑问句型的测试问题。
89.其中,陈述句型为陈述某个事件或者说话人的看法的句型,疑问句型为提出问题、询问情况的句型。一般来说,交互对象不会通过陈述句的形式与交互系统进行互动,因此,需要将陈述句型的内容转换为疑问句型的内容。
90.具体的,在对心理测试问题进行句型检测时,可以对心理测试问题进行特征提取,得到心理测试问题的句法特征;根据句法特征,确定心理测试问题的句法成分以及句法成分的配置格局,再通过针对句型的分类器(如逻辑回归、贝叶斯分类器、softmax等等),对心理测试问题进行分类,得到心理测试问题所属的句型。或者,也可以通过人工的方式,对心理测试问题进行句型检测,等等。
91.在一些实施例中,可以对陈述分词进行语义提取,得到陈述分词的分词语义,例如可以通过词袋算法、word2vec算法等等实现,本发明实施例对语义提取的具体方式不做限定。
92.在对陈述分词进行替换时,可以对部分词语进行替换以将陈述句型转换为疑问句型。例如,某个心理测试问题可以是陈述某件事频率,比如,“you always feel nervous.”,可以根据always这一频率副词的语义,确定改写的测试问题应当是提问频率,因此,可以确定always可以用how often进行替换。
93.进一步的,结合语法、时态、人称代词等,可以将该问题改写为,“how often do you feel nervous?”。
94.在另一些实施例中,如果心理测试问题本身已经是疑问句型,那么无需改写便可直接用来与交互系统进行交互。
95.202、基于测试问题,与交互系统进行交互,得到交互系统针对测试问题的测试回复。
96.具体的,与交互系统进行交互时,可以是通过文字输入、语音输入等方式实现,测试回复也可以是文本、音频等形式,本发明实施例对此不作限定。
97.例如,测试人员可以通过语音的方式与交互系统进行交互,步骤202具体可以包括:
98.基于测试问题,通过语音形式与交互系统进行交互,以使得交互系统生成针对测试问题的语音测试回复;
99.接收交互系统发送的语音测试回复,对语音测试回复进行语音识别,得到交互系统针对测试问题的测试回复。
100.比如,测试人员或者交互系统测试装置可以将测试问题通过声音的方式播放给交互系统,交互系统检测到声音,可以录制环境音频,对环境音频进行语音识别,得到测试问题文本,根据测试问题文本生成相应的语音测试回复。
101.交互系统测试装置可以录制交互系统播放的语音测试回复,语音测试回复进行语音识别,得到交互系统针对测试问题的测试回复。
102.或者,测试人员可以在交互系统所在终端中输入测试问题,交互系统根据文本形式的测试问题生成测试回复,等等。
103.可以理解的是,一般需要通过多道心理测试问题进行心理测试。在本发明实施例中,设置了不同的提问方式。
104.在一些可选的示例中,可以采用单轮询问的方式对交互系统进行测试,步骤“获取至少一个测试问题”,具体可以包括:
105.获取测试问题集合以及测试问题集合对应的测试条件,测试问题集合包括至少一个候选测试问题;
106.从测试问题集合中未参与当前的交互系统测试的候选测试问题中,确定一个测试问题。
107.其中,测试问题集合是由候选测试问题构成的集合。比如,由同一心理测试问卷生成的测试问题均可以作为候选测试问题构成测试问题集合。
108.其中,测试条件是在进行交互系统测试时,交互系统所给出的测试回复应当满足的条件。例如,测试条件可以包括测试问题或测试问题集合的适用时间范围等等。
109.相应的,步骤“基于测试问题,与交互系统进行交互,得到交互系统针对测试问题的测试回复”,具体可以包括:
nervous?”可以对应有测试选项1“总是”、测试选项2“经常”、测试选项3“偶尔”以及测试选项4“从不”。
130.在一些示例中,交互系统的测试回复可以直接是交互系统从测试选项中选择的目标测试选项。例如,交互系统的测试回复可以是“选项3”,则对应的目标测试选项为测试选项3。
131.在另一些示例中,交互系统的测试回复可以是交互系统的自然语言回复。例如,交互系统的测试回复可以是“我在一些重要的时刻的确会感觉紧张”。此时,测试回复与测试选项并不完全匹配。
132.因此,需要将测试回复与测试选项进行匹配,以确定测试回复对应的目标测试选项。具体的,步骤“根据测试回复,从测试问题对应的测试选项中,确定测试问题对应的目标测试选项”,可以包括:
133.根据测试回复,通过语义提取网络进行特征提取,得到测试回复对应的回复语义特征;
134.将测试问题对应的各测试选项,分别通过语义提取网络进行特征提取,得到各测试选项对应的选项语义特征;
135.针对回复语义特征与各选项语义特征分别进行文本蕴含识别,确定回复语义特征与各选项语义特征之间的语义蕴含概率;
136.基于语义蕴含概率,从测试选项中,确定测试问题对应的目标测试选项。
137.具体的,语义提取网络可以对测试回复以及测试选项进行特征提取。为了提升语义提取网络所提取的特征的准确性,可以预先对语义提取网络进行训练。语义提取网络可以通过bert(bidirectional encoder representations from transformer)模型、tf-idf文本特征提取等方法实现,本发明实施例对此不做限定。
138.具体的,文本蕴含识别可以对文本之间的关系进行推断。例如,可以将测试回复作为蕴含前件记作p(premise),即前提,测试选项作为蕴含后件记作h(hypothesis),即假设。蕴含前件与蕴含后件之间有三种语义关系,如果p能推理到h,则是蕴含关系;如果p不能推到h,则是中立关系。如果p能推到h相反的结论,则是矛盾关系。将p和h分别输入语义提取网络中进行语义特征提取后,通过文本蕴含识别最终获得p与h之间语义关系的三种分类结果。
139.其中,语义蕴含概率可以表示蕴含前件与蕴含后件之间为蕴含关系的概率。
140.在一些可选的实施例中,文本蕴含识别可以通过比较回复语义特征与各选项语义特征之间的相似度实现,可以将回复语义特征与各选项语义特征之间的相似度,作为回复语义特征与各选项语义特征之间的语义蕴含概率。
141.在另一些示例中,文本蕴含识别可以通过预先训练得到的文本蕴含模型实现,将回复语义特征与各选项语义特征经过文本蕴含模型中的注意力网络、池化层和分类网络,得到测试回复与各测试选项之间的语义蕴含概率。
142.在本发明实施例中,文本蕴含模型可以是roberta-large模型等。
143.可以理解的是,由于测试选项是有限的,但交互系统给出的测试回复具有多样性,因此,测试回复与各测试选项之间的匹配程度可以是不同的,也可以有测试回复与各测试选项之间的匹配程度都比较低的情况。此时,可以对与各测试选项之间的匹配度较低的测
试回复进行标注。在一些可选的实施例中,步骤“根据测试回复,从测试问题对应的测试选项中,确定测试问题对应的目标测试选项”,具体可以包括:
144.根据测试回复,计算测试回复与测试问题对应的各测试选项之间的选项匹配概率;
145.当各选项匹配概率均小于预设的匹配阈值时,将测试回复作为失败回复;
146.当存在至少一个选项匹配概率不小于匹配阈值时,将最大的选项匹配概率对应的测试选项,作为测试问题对应的目标测试选项。
147.其中,选项匹配概率可以表示测试回复与各测试选项之间的匹配程度。例如,选项匹配概率可以为语义蕴含概率,也可以是通过计算测试回复与测试问题对应的各测试选项之间的相似度得到,等等。
148.比如,交互系统可能生成了失败的回复,比如“我不知道”,此时,无法从交互系统的恢复中推断出对应的目标测试选项,因此,可以将这类测试回复作为失败回复。
149.可以理解的是,失败回复会造成心理测试结果具有一定的误差。本发明实施例提供的交互系统测试方法还可以包括:
150.计算失败回复的数量与测试回复的数量之间的比值,得到失败回复占比;
151.根据失败回复占比,计算心理测试结果的结果置信度。
152.其中,结果置信度可以表示心理测试结果的可信程度。
153.例如,假设整个交互系统测试过程中有f个失败回复,每份问卷包含n个提问,每份问卷被重复实验g次,则测试回复的数量为n*g,那么置信度可以表示为:
[0154][0155]
此时,置信度越高,心理测试结果越可靠。
[0156]
204、基于目标测试选项以及预设的结果分析规则,确定交互系统的心理测试结果。
[0157]
在确定心理测试结果时,可以只根据目标测试选项确定心理测试结果,或者,还可以考虑到失败回复进行心理测试结果的确定,步骤“基于目标测试选项以及预设的结果分析规则,确定交互系统的心理测试结果”,具体可以包括:
[0158]
基于目标测试选项、预设的结果分析规则以及失败回复,确定交互系统的心理测试结果。
[0159]
例如,可以采取不同的结果分析方式,分别计算目标测试选项以及失败回复对应的测试结果,综合两种测试结果,确定交互系统的心理测试结果。
[0160]
在一些可选的实施例中,结果分析规则包括测试选项分析规则和失败回复分析规则,步骤“基于目标测试选项、预设的结果分析规则以及失败回复,确定交互系统的心理测试结果”,具体可以包括:
[0161]
基于目标测试选项和测试选项分析规则,计算目标测试选项的选项测试结果;
[0162]
基于失败回复和失败回复分析规则,计算失败回复的失败回复结果;
[0163]
根据选项测试结果和失败回复结果,确定交互系统的心理测试结果。
[0164]
比如,测试选项分析规则可以是各测试选项与心理健康评估维度之间的对应关
系,如测试选项1对应抑郁维度、测试选项2对应焦虑维度、测试选项3对应成瘾维度、测试选项4对应共情维度等等。失败回复分析规则可以是失败回复与心理健康评估维度之间的对应关系,如失败回复默认对应焦虑维度,等等。
[0165]
在确定心理测试结果时,可以测试回复对应的最多的心理健康评估维度作为心理测试结果。如,交互系统共有5个测试回复,其中有一个失败回复对应焦虑维度,另外4个目标测试选项中,有2个对应焦虑维度,两个对应共情维度。此时,可以将焦虑维度作为交互系统的心理测试结果。
[0166]
再比如,测试选项分析规则可以是各测试选项与心理健康评估分数之间的对应关系,如测试选项1对应10分、测试选项2对应7分、测试选项3对应5分、测试选项4对应2分等等。失败回复分析规则可以是失败回复与心理健康评估分数之间的对应关系,如失败回复对应的心理健康评估分数为缺省值(如2分等),或者,失败回复对应的心理健康评估分数为各目标测试选项对应的心理健康评估分数的平均分等等。
[0167]
此时,选项测试结果可以是各目标测试选项对应的心理健康评估分数之和或者平均分,失败回复结果可以是各失败回复对应的心理健康评估分数之和或者平均分。
[0168]
在确定心理测试结果时,可以将各目标测试选项以及各失败回复对应的心理健康评估分数之和或者平均分作为心理测试结果。或者,可以根据心理健康评估分数之和确定对应的心理健康评估维度作为心理测试结果,等等。
[0169]
可以理解的是,为了减少测试误差,本发明实施例中可以对同一个或者统一些测试问题重复多次提问,也就是说,步骤“基于目标测试选项以及预设的结果分析规则,确定交互系统的心理测试结果”之前,本发明实施例提供的交互系统测试方法还可以包括:
[0170]
返回执行基于测试问题,与交互系统进行交互,得到交互系统针对测试问题的测试回复的步骤,直到达到预设的测试结束条件;
[0171]
相应的,在确定心理测试结果时,可以结合每轮测试的心理测试结果,步骤“基于目标测试选项以及预设的结果分析规则,确定交互系统的心理测试结果”,可以包括:
[0172]
基于每次测试回复对应的目标测试选项以及预设的结果分析规则,确定交互系统的心理测试结果。
[0173]
其中,测试结束条件可以是某个测试问题的测试次数达到预设的测试次数阈值,或者,可以是测试回复中的失败回复的数量稳定在某个数值,等等。
[0174]
在一些可选的实施例中,本发明实施例提供的交互系统测试方法还可以包括:
[0175]
根据交互系统的心理测试结果,对交互系统的系统参数进行调整,得到调整后的交互系统;
[0176]
返回执行基于测试问题,与交互系统进行交互,得到交互系统针对测试问题的测试回复的步骤,直到调整后的交互系统满足预设的调整结束条件。
[0177]
具体的,调整结束条件可以是交互系统的心理测试结果为共情维度,或者,对交互系统的调整次数达到预设的调整次数阈值等等。共情的心理状态表示了交互系统具有理解和感受别人的感受的能力。共情的交互系统可以提高用户体验、改善对话质量。
[0178]
由上可知,本发明实施例可以获取至少一个测试问题,测试问题对应有至少一个测试选项,其中,测试问题为针对交互系统设计的心理测试问题,交互系统用于与交互对象通过自然语言进行交互,基于测试问题,与交互系统进行交互,得到交互系统针对测试问题
的测试回复,根据测试回复,从测试问题对应的测试选项中,确定测试问题对应的目标测试选项,基于目标测试选项以及预设的结果分析规则,确定交互系统的心理测试结果;由于在本发明实施例中,通过针对交互系统设计的心理测试问题对交互系统进行了心理测试,得到交互系统的心理测试结果,因此,可以测试交互系统是否具有健康的心理倾向和正面情感交流的能力,避免交互结果对交互对象的心理状态造成负面影响。
[0179]
根据前面实施例所描述的方法,以下将举例作进一步详细说明。
[0180]
在本实施例中,将以多轮问询为例,结合图1的系统进行说明。
[0181]
如图5所示,本实施例的交互系统测试方法,具体流程可以如下:
[0182]
501、服务器获取心理测试问卷,对此心理测试问卷中的心理测试问题进行句型改写,得到至少一个候选测试问题。
[0183]
其中,心理测试问卷是用于对人类进行心理测试的问题集合,心理测试问卷中包括至少一个陈述句型的心理测试问题。
[0184]
通过句型改写,可以将陈述句型的心理测试问题改写为疑问句型的测试问题。
[0185]
502、服务器获取测试问题集合以及测试问题集合对应的测试条件,测试问题集合包括至少一个候选测试问题,候选测试问题对应有至少一个测试选项。
[0186]
其中,候选测试问题为针对交互系统设计的心理测试问题,交互系统用于与交互对象通过自然语言进行交互。
[0187]
人类在做心理健康评估时,心理学家通常让受试者填写心理测试问卷,一个常见的心理测试问卷通常包括告知受试者测试的心理测试说明,包含提问类型和适用时间范围,然后受试者将用固定的几个选项来作为一系列心理测试问题的答案。
[0188]
可以理解的是,心理测试问卷中的心理测试说明也可能包含一些关键信息,比如适用时间范围和选项,这些内容也需要告知交互系统。所以在对心理测试问卷进行改写时,也需要对心理测试问卷中的心理测试说明进行改写,得到测试条件。
[0189]
503、服务器与终端中的交互系统创建新对话,将测试条件作为交互内容,与交互系统进行交互。
[0190]
如图4所示,多轮询问在一个对话中先告知测试条件,然后依次询问测试问题集合中所有的候选测试问题。
[0191]
具体的,服务器与终端可以通过语音的形式进行交互,也可以通过文本的形式进行交互,等等。
[0192]
504、终端中的交互系统根据交互内容,进行测试配置。
[0193]
505、服务器从测试问题集合中未参与当前的交互系统测试的候选测试问题中,确定一个测试问题,基于测试问题,与交互系统进行交互。
[0194]
506、终端中的交互系统基于当前的测试问题、针对历史测试问题的测试回复以及测试条件生成测试回复。
[0195]
其中,历史测试问题为一个对话中已经与交互系统交互过的候选测试问题。
[0196]
具体的,交互系统在生成测试回复时,可以依赖于之前的历史测试问题的回复生成。
[0197]
在本发明实施例中,多轮指的是在同一个对话中询问问题的对话轮次数。因此,多轮询问指的是在同一个对话中连续问多个问题,而交互系统的每一个测试回复都与对话历
史(历史测试问题和/或历史测试问题的测试回复)有依赖关系。
[0198]
507、服务器接收交互系统发送的针对测试问题的测试回复,将当前的测试问题作为历史测试问题,根据测试回复,计算测试回复与测试问题对应的各测试选项之间的选项匹配概率。
[0199]
在本发明实施例中,可以使用蕴含检测模型来将交互系统的测试回复对齐到测试问题对应的测试选项上。对于每个可能的选项,蕴含检测模型将计算以测试回复为“前提”、推断出这个选项的概率作为选项匹配概率。
[0200]
508、当各选项匹配概率均小于预设的匹配阈值时,将测试回复作为失败回复,当存在至少一个选项匹配概率不小于匹配阈值时,将最大的选项匹配概率对应的测试选项,作为测试问题对应的目标测试选项。
[0201]
可以理解的是,由于测试选项是有限的,但交互系统给出的测试回复具有多样性,因此,测试回复与各测试选项之间的匹配程度可以是不同的,也可以有测试回复与各测试选项之间的匹配程度都比较低的情况。此时,可以对与各测试选项之间的匹配度较低的测试回复标注为失败回复。
[0202]
比如,交互系统可能生成了失败的回复,比如“我不知道”,此时,无法从交互系统的恢复中推断出对应的目标测试选项,因此,可以将这类测试回复作为失败回复。
[0203]
509、返回执行步骤505,直至测试问题集合中的候选测试问题均为历史测试问题。
[0204]
510、服务器基于目标测试选项、预设的结果分析规则以及失败回复,确定交互系统的心理测试结果。
[0205]
在确定心理测试结果时,可以只根据目标测试选项确定心理测试结果,或者,还可以考虑到失败回复进行心理测试结果的确定。
[0206]
例如,可以采取不同的结果分析方式,分别计算目标测试选项以及失败回复对应的测试结果,综合两种测试结果,确定交互系统的心理测试结果。
[0207]
比如,测试选项分析规则可以是各测试选项与心理健康评估分数之间的对应关系,如测试选项1对应10分、测试选项2对应7分、测试选项3对应5分、测试选项4对应2分等等。失败回复分析规则可以是失败回复与心理健康评估分数之间的对应关系,如失败回复对应的心理健康评估分数为缺省值(如2分等),或者,失败回复对应的心理健康评估分数为各目标测试选项对应的心理健康评估分数的平均分等等。
[0208]
此时,选项测试结果可以是各目标测试选项对应的心理健康评估分数之和或者平均分,失败回复结果可以是各失败回复对应的心理健康评估分数之和或者平均分。
[0209]
在确定心理测试结果时,可以将各目标测试选项以及各失败回复对应的心理健康评估分数之和或者平均分作为心理测试结果。或者,可以根据心理健康评估分数之和确定对应的心理健康评估维度作为心理测试结果,等等。
[0210]
511、服务器计算失败回复的数量与测试回复的数量之间的比值,得到失败回复占比,根据失败回复占比,计算心理测试结果的结果置信度。
[0211]
可以理解的是,失败回复会造成心理测试结果具有一定的误差。可以通过结果置信度表示心理测试结果的可信程度。
[0212]
例如,假设整个交互系统测试过程中有f个失败回复,每份问卷包含n个提问,每份问卷被重复实验g次,则测试回复的数量为n*g,那么置信度可以表示为:
[0213][0214]
此时,置信度越高,心理测试结果越可靠。
[0215]
由上可知,本发明实施例可以获取至少一个测试问题,测试问题对应有至少一个测试选项,其中,测试问题为针对交互系统设计的心理测试问题,交互系统用于与交互对象通过自然语言进行交互,基于测试问题,与交互系统进行交互,得到交互系统针对测试问题的测试回复,根据测试回复,从测试问题对应的测试选项中,确定测试问题对应的目标测试选项,基于目标测试选项以及预设的结果分析规则,确定交互系统的心理测试结果;由于在本发明实施例中,通过针对交互系统设计的心理测试问题对交互系统进行了心理测试,得到交互系统的心理测试结果,因此,可以测试交互系统是否具有健康的心理倾向和正面情感交流的能力,避免交互结果对交互对象的心理状态造成负面影响。
[0216]
为了更好地实施以上方法,相应的,本发明实施例还提供一种交互系统测试装置。
[0217]
参考图6,该装置包括:
[0218]
问题获取单元601,可以用于获取至少一个测试问题,测试问题对应有至少一个测试选项,其中,测试问题为针对交互系统设计的心理测试问题,交互系统可以用于与交互对象通过自然语言进行交互;
[0219]
交互单元602,可以用于基于测试问题,与交互系统进行交互,得到交互系统针对测试问题的测试回复;
[0220]
选项确定单元603,可以用于根据测试回复,从测试问题对应的测试选项中,确定测试问题对应的目标测试选项;
[0221]
结果确定单元604,可以用于基于目标测试选项以及预设的结果分析规则,确定交互系统的心理测试结果。
[0222]
在一些可选的实施例中,选项确定单元603,可以用于根据测试回复,计算测试回复与测试问题对应的各测试选项之间的选项匹配概率;
[0223]
当各选项匹配概率均小于预设的匹配阈值时,将测试回复作为失败回复;
[0224]
当存在至少一个选项匹配概率不小于匹配阈值时,将最大的选项匹配概率对应的测试选项,作为测试问题对应的目标测试选项;
[0225]
结果确定单元604,可以用于基于目标测试选项、预设的结果分析规则以及失败回复,确定交互系统的心理测试结果。
[0226]
在一些可选的实施例中,结果分析规则可以包括测试选项分析规则和失败回复分析规则,结果确定单元,可以用于基于目标测试选项和测试选项分析规则,计算目标测试选项的选项测试结果;
[0227]
基于失败回复和失败回复分析规则,计算失败回复的失败回复结果;
[0228]
根据选项测试结果和失败回复结果,确定交互系统的心理测试结果。
[0229]
在一些可选的实施例中,如图7所示,本发明实施例提供的交互系统测试装置还可以包括置信度计算单元605,可以用于计算失败回复的数量与测试回复的数量之间的比值,得到失败回复占比;
[0230]
根据失败回复占比,计算心理测试结果的结果置信度。
[0231]
在一些可选的实施例中,本发明实施例提供的交互系统测试装置还可以包括循环测试单元606,可以用于返回执行基于测试问题,与交互系统进行交互,得到交互系统针对测试问题的测试回复的步骤,直到达到预设的测试结束条件;
[0232]
结果确定单元,可以用于基于每次测试回复对应的目标测试选项以及预设的结果分析规则,确定交互系统的心理测试结果。
[0233]
在一些可选的实施例中,选项确定单元603,可以用于根据测试回复,通过语义提取网络进行特征提取,得到测试回复对应的回复语义特征;
[0234]
将测试问题对应的各测试选项,分别通过语义提取网络进行特征提取,得到各测试选项对应的选项语义特征;
[0235]
针对回复语义特征与各选项语义特征分别进行文本蕴含识别,确定回复语义特征与各选项语义特征之间的语义蕴含概率;
[0236]
基于语义蕴含概率,从测试选项中,确定测试问题对应的目标测试选项。
[0237]
在一些可选的实施例中,问题获取单元601,可以用于获取测试问题集合以及测试问题集合对应的测试条件,测试问题集合可以包括至少一个候选测试问题;
[0238]
从测试问题集合中未参与当前的交互系统测试的候选测试问题中,确定一个测试问题。
[0239]
交互单元602,可以用于将测试条件作为交互内容,与交互系统进行交互,以使得交互系统基于测试条件进行测试配置;
[0240]
基于测试问题,与交互系统进行交互,以使得交互系统基于测试条件生成测试回复;
[0241]
接收交互系统发送的针对测试问题的测试回复;
[0242]
返回执行从测试问题集合中未参与当前的交互系统测试的候选测试问题中,确定一个测试问题的步骤,直至测试问题集合中的候选测试问题均已参与当前的交互系统测试。
[0243]
在一些可选的实施例中,本发明实施例提供的交互系统测试装置还可以包括条件交互单元607,可以用于获取测试问题集合以及测试问题集合对应的测试条件,测试问题集合可以包括至少一个候选测试问题;
[0244]
将测试条件作为交互内容,与交互系统进行交互,以使得交互系统基于测试条件进行测试配置;
[0245]
问题获取单元601,可以用于从测试问题集合中未参与当前的交互系统测试的候选测试问题中,确定一个测试问题;
[0246]
交互单元602,可以用于基于测试问题,与交互系统进行交互,以使得交互系统基于当前的测试问题、针对历史测试问题的测试回复以及测试条件生成测试回复;
[0247]
接收交互系统发送的针对测试问题的测试回复,将当前的测试问题作为历史测试问题;
[0248]
返回执行从测试问题集合中未参与当前的交互系统测试的候选测试问题中,确定一个测试问题的步骤,直至测试问题集合中的候选测试问题均为历史测试问题。
[0249]
在一些可选的实施例中,本发明实施例提供的交互系统测试装置还可以包括问题生成单元608,可以用于获取心理测试问卷,心理测试问卷可以用于对人类进行心理测试,
evolution)、电子邮件、短消息服务(sms,short messaging service)等。
[0261]
存储器802可用于存储软件程序以及模块,处理器808通过运行存储在存储器802的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器802可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据电子设备的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器802可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器802还可以包括存储器控制器,以提供处理器808和输入单元803对存储器802的访问。
[0262]
输入单元803可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地,在一个具体的实施例中,输入单元803可包括触敏表面以及其他输入设备。触敏表面,也称为触摸显示屏或者触控板,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面上或在触敏表面附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触敏表面可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器808,并能接收处理器808发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面。除了触敏表面,输入单元803还可以包括其他输入设备。具体地,其他输入设备可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
[0263]
显示单元804可用于显示由用户输入的信息或提供给用户的信息以及电子设备的各种图形用户接口,这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元804可包括显示面板,可选的,可以采用液晶显示器(lcd,liquid crystal display)、有机发光二极管(oled,organic light-emitting diode)等形式来配置显示面板。进一步的,触敏表面可覆盖显示面板,当触敏表面检测到在其上或附近的触摸操作后,传送给处理器808以确定触摸事件的类型,随后处理器808根据触摸事件的类型在显示面板上提供相应的视觉输出。虽然在图8中,触敏表面与显示面板是作为两个独立的部件来实现输入和输入功能,但是在某些实施例中,可以将触敏表面与显示面板集成而实现输入和输出功能。
[0264]
电子设备还可包括至少一种传感器805,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板的亮度,接近传感器可在电子设备移动到耳边时,关闭显示面板和/或背光。作为运动传感器的一种,重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于电子设备还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
[0265]
音频电路806、扬声器,传声器可提供用户与电子设备之间的音频接口。音频电路
806可将接收到的音频数据转换后的电信号,传输到扬声器,由扬声器转换为声音信号输出;另一方面,传声器将收集的声音信号转换为电信号,由音频电路806接收后转换为音频数据,再将音频数据输出处理器808处理后,经rf电路801以发送给比如另一电子设备,或者将音频数据输出至存储器802以便进一步处理。音频电路806还可能包括耳塞插孔,以提供外设耳机与电子设备的通信。
[0266]
wifi属于短距离无线传输技术,电子设备通过wifi模块807可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图8示出了wifi模块807,但是可以理解的是,其并不属于电子设备的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
[0267]
处理器808是电子设备的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器802内的软件程序和/或模块,以及调用存储在存储器802内的数据,执行电子设备的各种功能和处理数据。可选的,处理器808可包括一个或多个处理核心;优选的,处理器808可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器808中。
[0268]
电子设备还包括给各个部件供电的电源809(比如电池),优选的,电源可以通过电源管理系统与处理器808逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源809还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
[0269]
尽管未示出,电子设备还可以包括摄像头、蓝牙模块等,在此不再赘述。具体在本实施例中,电子设备中的处理器808会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器802中,并由处理器808来运行存储在存储器802中的应用程序,从而实现各种功能,如下:
[0270]
获取至少一个测试问题,测试问题对应有至少一个测试选项,其中,测试问题为针对交互系统设计的心理测试问题,交互系统用于与交互对象通过自然语言进行交互;
[0271]
基于测试问题,与交互系统进行交互,得到交互系统针对测试问题的测试回复;
[0272]
根据测试回复,从测试问题对应的测试选项中,确定测试问题对应的目标测试选项;
[0273]
基于目标测试选项以及预设的结果分析规则,确定交互系统的心理测试结果。
[0274]
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
[0275]
为此,本发明实施例提供一种计算机可读存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本发明实施例所提供的任一种交互系统测试方法中的步骤。例如,该指令可以执行如下步骤:
[0276]
获取至少一个测试问题,测试问题对应有至少一个测试选项,其中,测试问题为针对交互系统设计的心理测试问题,交互系统用于与交互对象通过自然语言进行交互;
[0277]
基于测试问题,与交互系统进行交互,得到交互系统针对测试问题的测试回复;
[0278]
根据测试回复,从测试问题对应的测试选项中,确定测试问题对应的目标测试选
项;
[0279]
基于目标测试选项以及预设的结果分析规则,确定交互系统的心理测试结果。
[0280]
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
[0281]
其中,该计算机可读存储介质可以包括:只读存储器(rom,read only memory)、随机存取记忆体(ram,random access memory)、磁盘或光盘等。
[0282]
由于该计算机可读存储介质中所存储的指令,可以执行本发明实施例所提供的任一种交互系统测试方法中的步骤,因此,可以实现本发明实施例所提供的任一种交互系统测试方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
[0283]
根据本技术的一个方面,还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该电子设备执行上述实施例中的各种可选实现方式中提供的方法。
[0284]
以上对本发明实施例所提供的一种交互系统测试方法、装置、电子设备和存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

技术特征:
1.一种交互系统测试方法,其特征在于,包括:获取至少一个测试问题,所述测试问题对应有至少一个测试选项,其中,所述测试问题为针对交互系统设计的心理测试问题,所述交互系统用于与交互对象通过自然语言进行交互;基于所述测试问题,与所述交互系统进行交互,得到所述交互系统针对所述测试问题的测试回复;根据所述测试回复,从所述测试问题对应的所述测试选项中,确定所述测试问题对应的目标测试选项;基于所述目标测试选项以及预设的结果分析规则,确定所述交互系统的心理测试结果。2.根据权利要求1所述的交互系统测试方法,其特征在于,所述根据所述测试回复,从所述测试问题对应的所述测试选项中,确定所述测试问题对应的目标测试选项,包括:根据所述测试回复,计算所述测试回复与所述测试问题对应的各所述测试选项之间的选项匹配概率;当各所述选项匹配概率均小于预设的匹配阈值时,将所述测试回复作为失败回复;当存在至少一个所述选项匹配概率不小于所述匹配阈值时,将最大的所述选项匹配概率对应的所述测试选项,作为所述测试问题对应的目标测试选项;所述基于所述目标测试选项以及预设的结果分析规则,确定所述交互系统的心理测试结果,包括:基于所述目标测试选项、预设的结果分析规则以及所述失败回复,确定所述交互系统的心理测试结果。3.根据权利要求2所述的交互系统测试方法,其特征在于,所述结果分析规则包括测试选项分析规则和失败回复分析规则;所述基于所述目标测试选项、预设的结果分析规则以及所述失败回复,确定所述交互系统的心理测试结果,包括:基于所述目标测试选项和所述测试选项分析规则,计算所述目标测试选项的选项测试结果;基于所述失败回复和所述失败回复分析规则,计算所述失败回复的失败回复结果;根据所述选项测试结果和所述失败回复结果,确定所述交互系统的心理测试结果。4.根据权利要求2所述的交互系统测试方法,其特征在于,所述方法还包括:计算所述失败回复的数量与所述测试回复的数量之间的比值,得到失败回复占比;根据所述失败回复占比,计算所述心理测试结果的结果置信度。5.根据权利要求1所述的交互系统测试方法,其特征在于,所述基于所述目标测试选项以及预设的结果分析规则,确定所述交互系统的心理测试结果之前,所述方法还包括:返回执行所述基于所述测试问题,与所述交互系统进行交互,得到所述交互系统针对所述测试问题的测试回复的步骤,直到达到预设的测试结束条件;所述基于所述目标测试选项以及预设的结果分析规则,确定所述交互系统的心理测试结果,包括:基于每次所述测试回复对应的所述目标测试选项以及预设的结果分析规则,确定所述
交互系统的心理测试结果。6.根据权利要求1所述的交互系统测试方法,其特征在于,所述根据所述测试回复,从所述测试问题对应的所述测试选项中,确定所述测试问题对应的目标测试选项,包括:根据所述测试回复,通过语义提取网络进行特征提取,得到所述测试回复对应的回复语义特征;将所述测试问题对应的各所述测试选项,分别通过所述语义提取网络进行特征提取,得到各所述测试选项对应的选项语义特征;针对所述回复语义特征与各所述选项语义特征分别进行文本蕴含识别,确定所述回复语义特征与各所述选项语义特征之间的语义蕴含概率;基于所述语义蕴含概率,从所述测试选项中,确定所述测试问题对应的目标测试选项。7.根据权利要求1所述的交互系统测试方法,其特征在于,所述获取至少一个测试问题,包括:获取测试问题集合以及所述测试问题集合对应的测试条件,所述测试问题集合包括至少一个候选测试问题;从所述测试问题集合中未参与当前的交互系统测试的所述候选测试问题中,确定一个测试问题;所述基于所述测试问题,与所述交互系统进行交互,得到所述交互系统针对所述测试问题的测试回复,包括:将所述测试条件作为交互内容,与所述交互系统进行交互,以使得所述交互系统基于所述测试条件进行测试配置;基于所述测试问题,与所述交互系统进行交互,以使得所述交互系统基于所述测试条件生成测试回复;接收所述交互系统发送的针对所述测试问题的测试回复;返回执行所述从所述测试问题集合中未参与当前的交互系统测试的所述候选测试问题中,确定一个测试问题的步骤,直至所述测试问题集合中的所述候选测试问题均已参与当前的交互系统测试。8.根据权利要求1所述的交互系统测试方法,其特征在于,所述获取至少一个测试问题之前,所述方法还包括:获取测试问题集合以及所述测试问题集合对应的测试条件,所述测试问题集合包括至少一个候选测试问题;将所述测试条件作为交互内容,与所述交互系统进行交互,以使得所述交互系统基于所述测试条件进行测试配置;所述获取至少一个测试问题,包括:从所述测试问题集合中未参与当前的交互系统测试的所述候选测试问题中,确定一个测试问题;所述基于所述测试问题,与所述交互系统进行交互,得到所述交互系统针对所述测试问题的测试回复,包括:基于所述测试问题,与所述交互系统进行交互,以使得所述交互系统基于当前的所述测试问题、针对历史测试问题的测试回复以及所述测试条件生成测试回复;
接收所述交互系统发送的针对所述测试问题的测试回复,将当前的所述测试问题作为所述历史测试问题;返回执行所述从所述测试问题集合中未参与当前的交互系统测试的所述候选测试问题中,确定一个测试问题的步骤,直至所述测试问题集合中的所述候选测试问题均为所述历史测试问题。9.根据权利要求1所述的交互系统测试方法,其特征在于,所述获取至少一个测试问题之前,所述方法还包括:获取心理测试问卷,所述心理测试问卷用于对人类进行心理测试,所述心理测试问卷中包括至少一个陈述句型的心理测试问题;对所述心理测试问卷中的心理测试问题进行句型检测,当所述心理测试问题为陈述句型时,对所述心理测试问题进行分词处理,得到所述心理测试问题的陈述分词;基于所述陈述分词的分词语义进行分词替换,得到所述心理测试问题的替换后分词;基于所述替换后分词,生成疑问句型的测试问题。10.根据权利要求1-6任一项所述的交互系统测试方法,其特征在于,所述基于所述测试问题,与所述交互系统进行交互,得到所述交互系统针对所述测试问题的测试回复,包括:基于所述测试问题,通过语音形式与所述交互系统进行交互,以使得所述交互系统生成针对所述测试问题的语音测试回复;接收所述交互系统发送的语音测试回复,对所述语音测试回复进行语音识别,得到所述交互系统针对所述测试问题的测试回复。11.根据权利要求1-10任一项所述的交互系统测试方法,其特征在于,所述方法还包括:根据所述交互系统的心理测试结果,对所述交互系统的系统参数进行调整,得到调整后的交互系统;返回执行所述基于所述测试问题,与所述交互系统进行交互,得到所述交互系统针对所述测试问题的测试回复的步骤,直到所述调整后的交互系统满足预设的调整结束条件。12.一种交互系统测试装置,其特征在于,包括:问题获取单元,用于获取至少一个测试问题,所述测试问题对应有至少一个测试选项,其中,所述测试问题为针对交互系统设计的心理测试问题,所述交互系统用于与交互对象通过自然语言进行交互;交互单元,用于基于所述测试问题,与所述交互系统进行交互,得到所述交互系统针对所述测试问题的测试回复;选项确定单元,用于根据所述测试回复,从所述测试问题对应的所述测试选项中,确定所述测试问题对应的目标测试选项;结果确定单元,用于基于所述目标测试选项以及预设的结果分析规则,确定所述交互系统的心理测试结果。13.一种电子设备,其特征在于,包括存储器和处理器;所述存储器存储有应用程序,所述处理器用于运行所述存储器内的应用程序,以执行权利要求1至11任一项所述的交互系统测试方法中的步骤。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有多条指令,所述指令适于处理器进行加载,以执行权利要求1至11任一项所述的交互系统测试方法中的步骤。15.一种计算机程序产品,包括计算机程序或指令,其特征在于,所述计算机程序或指令被处理器执行时实现如权利要求1至11中任一项所述的交互系统测试方法的步骤。

技术总结
本发明实施例公开了一种交互系统测试方法、装置、电子设备和存储介质;本发明实施例可以获取至少一个测试问题,该测试问题对应有至少一个测试选项,其中,该测试问题为针对交互系统设计的心理测试问题,该交互系统用于与交互对象通过自然语言进行交互,基于该测试问题,与该交互系统进行交互,得到该交互系统针对该测试问题的测试回复,根据该测试回复,从该测试问题对应的该测试选项中,确定该测试问题对应的目标测试选项,基于该目标测试选项以及预设的结果分析规则,确定该交互系统的心理测试结果;通过本发明实施例,可以测试交互系统是否具有健康的心理倾向和正面情感交流的能力,避免交互结果对交互对象的心理状态造成负面影响。负面影响。负面影响。


技术研发人员:单勇 张金超 李泽康
受保护的技术使用者:腾讯科技(深圳)有限公司
技术研发日:2022.01.07
技术公布日:2023/7/21
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐