一种测试方法、装置、设备及计算机可读存储介质与流程

未命名 07-23 阅读:83 评论:0


1.本技术涉及计算机技术领域,具体涉及一种测试方法、一种测试装置、一种计算机设备及一种计算机可读存储介质。


背景技术:

2.随着计算机技术的不断发展,智能机器人被应用在人们的日常生活中。智能机器人包括聊天机器人,聊天机器人可以用于与用户进行对话;例如,聊天机器人可以用于回答用户的问题,又例如,聊天机器人还可以根据对话内容,完成相关指令(如购买商品,播放音乐等)。实践发现,在聊天过程中,随着对话轮次的增加,聊天机器人存在遗忘对话内容的情况,如何对聊天机器人的信息记忆能力进行测试成为目前研究的热门问题。


技术实现要素:

3.本技术实施例提供了一种测试方法、装置、设备及存储介质,能够对测试对象的信息记忆能力进行测试。
4.一方面,本技术实施例提供了一种测试方法,包括:
5.获取实体集合,实体集合中的实体是从测试对象参与的n轮对话中提取的,每个实体关联n轮对话中的一个句子,n为正整数;
6.基于实体集合中的实体生成测试问题集合;
7.采用测试问题集合对测试对象进行提问,并获取测试对象输出的答复结果;
8.对答复结果和实体集合中各个实体关联的句子进行一致性检测,得到测试对象的测试结果,测试对象的测试结果用于指示测试对象的信息记忆能力。
9.一方面,本技术实施例提供了一种测试装置,该测试装置包括:
10.获取单元,用于获取实体集合,实体集合中的实体是从测试对象参与的n轮对话中提取的,每个实体关联n轮对话中的一个句子,n为正整数;
11.处理单元,用于基于实体集合中的实体生成测试问题集合;
12.以及用于采用测试问题集合对测试对象进行提问,并获取测试对象输出的答复结果;
13.以及用于对答复结果和实体集合中各个实体关联的句子进行一致性检测,得到测试对象的测试结果,测试对象的测试结果用于指示测试对象的信息记忆能力。
14.在一种实施方式中,处理单元还用于:
15.根据测试对象的测试结果,对测试对象进行优化处理。
16.在一种实施方式中,测试对象包括用于进行对话的对话系统,对话系统包括至少一个与信息记忆能力相关联的参数,测试对象的测试结果包括记忆力评分;处理单元用于,根据测试对象的测试结果,对测试对象进行优化处理,具体用于:
17.若测试对象的记忆力评分低于评分阈值,则对至少一个与信息记忆能力相关联的参数进行优化调整。
18.在一种实施方式中,获取单元用于,获取实体集合,具体用于:
19.获取测试对象参与的n轮对话的句子集合;
20.采用命名实体识别模型对句子集合中的各个句子进行识别,得到n轮对话对应的实体集合;
21.其中,命名实体识别模型是基于隐马尔科夫算法构造的。
22.在一种实施方式中,处理单元用于,采用命名实体识别模型对句子集合中的各个句子进行识别,得到n轮对话对应的实体集合,具体用于:
23.对第i个句子进行分词处理,得到第i个句子的至少一个分词,第i个句子是句子集合中的任一个句子;
24.对第i个句子的至少一个分词进行特征提取,得到第i个句子中各个分词的分词特征;
25.根据第i个句子中各个分词的分词特征,对第i个句子中各个分词进行分类处理;
26.基于第i个句子中各个分词的分类结果,确定第i个句子的实体。
27.在一种实施方式中,处理单元用于,基于实体集合中的实体生成测试问题集合,具体用于:
28.采用问题生成模型对实体集合中的各个实体,以及该实体关联的句子进行生成处理,得到测试问题集合;
29.其中,测试问题集合中每个测试问题对应一个实体,问题生成模型是基于编码器和解码器构造的。
30.在一种实施方式中,处理单元用于,采用问题生成模型对实体集合中的各个实体,以及该实体关联的句子进行生成处理,得到测试问题集合,具体用于:
31.对第j个实体和第j个实体关联的句子进行拼接处理,得到第一拼接结果,第j个实体是实体集合中的任一个实体;
32.对第一拼接结果进行字节对编码处理,得到第一特征编码;
33.基于第一特征编码,生成第j个实体对应的测试问题。
34.在一种实施方式中,每个测试问题对应一个答复结果;处理单元用于,对答复结果和实体集合中各个实体关联的句子进行一致性检测,得到测试对象的测试结果,具体用于:
35.采用矛盾检测模型对目标答复结果和目标实体关联的句子进行一致性检测,得到目标实体对应的测试子结果;
36.根据实体集合中,各个实体对应的测试子结果,得到测试对象的测试结果;
37.其中,目标实体是实体集合中的任一个实体,目标答复结果与目标测试问题相对应,目标测试问题是基于目标实体生成的。
38.在一种实施方式中,处理单元用于,采用矛盾检测模型对目标答复结果和目标实体关联的句子进行一致性检测,得到目标实体对应的测试子结果,具体用于:
39.对目标答复结果和目标实体关联的句子进行拼接处理,得到第二拼接结果;
40.对第二拼接结果进行字节对编码处理,得到第二特征编码;
41.基于第二特征编码对目标答复结果和目标实体关联的句子进行关系预测,得到目标实体对应的测试子结果。
42.在一种实施方式中,处理单元用于,根据实体集合中,各个实体对应的测试子结
果,得到测试对象的测试结果,具体用于:
43.统计各个实体对应的测试子结果中,目标类型的测试子结果的数量;
44.基于目标类型的测试子结果的数量,以及实体集合中实体的数量,计算测试对象的记忆力评分;
45.其中,目标类型的测试子结果用于指示:测试对象的答复结果,与该测试子结果对应的实体关联的句子匹配。
46.相应地,本技术提供了一种计算机设备,该设备包括:
47.处理器,用于加载并执行计算机程序;
48.计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,该计算机程序被处理器执行时,实现上述测试方法。
49.相应地,本技术提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,该计算机程序适于由处理器加载并执行上述测试方法。
50.相应地,本技术提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述测试方法。
51.本技术实施例中,获取实体集合,实体集合中的实体是从测试对象参与的n轮对话中提取的,每个实体关联n轮对话中的一个句子,基于实体集合中的实体生成测试问题集合;采用测试问题集合对测试对象进行提问,并获取测试对象输出的答复结果;对答复结果和实体集合中各个实体关联的句子进行一致性检测,得到测试对象的测试结果。可见,通过提取对话中的实体生成测试问题,来对测试对象的信息记忆能力进行测试,从而根据测试结果来对测试对象的信息记忆能力进行评估。
附图说明
52.为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
53.图1a为本技术实施例提供的一种测试系统的场景架构图;
54.图1b为本技术实施例提供的一种测试流程示意图;
55.图2为本技术实施例提供的一种测试方法的流程示意图;
56.图3为本技术实施例提供的另一种测试方法的流程示意图;
57.图4a为本技术实施例提供的一种编解码转换示意图;
58.图4b为本技术实施例提供的一种矛盾检测模型的示意图;
59.图4c为本技术实施例提供的一种对话系统的应用界面示意图;
60.图5为本技术实施例提供的一种测试装置的结构示意图;
61.图6为本技术实施例提供的一种计算机设备的结构示意图。
具体实施方式
62.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
63.本技术实施例涉及人工智能,下面对人工智能的相关术语及概念进行简要介绍:
64.所谓人工智能(artificial intelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。
65.ai技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大应用程序的处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
66.自然语言处理(nature language processing,nlp)。nlp是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。本技术实施例主要涉及机器人问答,具体来说,本技术提供的测试方法主要用于评估聊天机器人对于问答内容的记忆能力。其中,聊天机器人:又称多轮对话系统,其核心是能够模拟人类对话的计算机程序。在实际应用中,聊天机器人可用于客户服务或资讯获取。
67.机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是ai的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习/深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。本技术实施例主要涉及对命名实体识别模型、问题生成模型和矛盾检测模型的训练。
68.此外,本技术还涉及开放域聊天机器人,开放域聊天机器人是指:在开放领域下,用户可以和机器人聊任何话题,区别于只能聊机器人设定主题的任务驱动型聊天机器人,如订餐、订票服务等。
69.信息记忆能力:指聊天机器人在对话过程中能否记住对话对象的相关信息,在实际应用中,如果聊天机器人在对话过程中被告知若干对话对象的信息、但是却无法记忆或利用这些信息(如聊天机器人记忆力评分低于评分阈值),则判定该聊天机器人的信息记忆能力不达标。
70.对话轮次:指对话双方(a,b)进行聊天的轮次,假设a、b依次发言,那么“ab”为一个轮次,“abab”为两个轮次,以此类推。
71.基于ai技术中的nlp技术和机器学习技术,本技术实施例提供了一种测试方案,以便于对测试对象(如聊天机器人)的信息记忆能力进行评估。请参阅图1a,图1a为本技术实
施例提供的一种测试系统的场景架构图。如图1a所示,该测试系统可以包括:测试对象101和服务器102。本技术实施例提供的测试方法可由服务器102执行。测试对象101具体可以是终端设备,或者服务器;其中,终端设备包括但不限于:智能手机(如android手机、ios手机等)、平板电脑、便携式个人计算机、移动互联网设备(mobileinternetdevices,简称mid)、车载终端等具有对话功能的智能设备,本技术实施例对此不做限定。服务器102可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、cdn(content delivery network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器,本技术实施例对此不做限定。
72.需要说明的是,图1a中测试对象和服务器之间可以通过有线通信或者无线通信方式进行直接或间接地连接,本技术在此不做限制。测试对象和服务器的数量仅用于举例,并不构成本技术的实际限定;例如,测试系统中还可以包括测试对象103,或者服务器104等。可选的,服务器102也可以是搭载了测试装置的终端设备。
73.图1b为本技术实施例提供的一种测试流程示意图。如图1b所示,在具体实现中,测试方法的大致原理如下:
74.(1)服务器与测试对象进行n轮对话,n为正整数;在n轮对话结束后,服务器获取实体集合,实体集合中的实体是从测试对象参与的n轮对话中提取的,每个实体关联n轮对话中的一个句子,且每个实体关联的句子中包含该实体。在本技术中,实体可以理解为:文本中的人名、地名等专有名称和有意义的时间、日期等数量短语。具体来说,设n轮对话中其中一轮对话内容为:聊天机器人(测试对象):“你在哪里工作?”,服务器:“我在地点a工作”;则服务器对“我在地点a工作”进行命名实体识别(即识别出文本中的人名、地名等专有名称和有意义的时间、日期等数量短语加以归类),得到:“我”(非实体),“在”(非实体),“地点a”(地名实体),“工作”(非实体),并将“地点a”添加至实体集合中;类似地,服务器逐一对n轮对话中的内容进行命名实体识别,得到实体集合。
75.(2)服务器基于实体集合中的实体生成测试问题集合;每个测试问题对应一个实体集合中的一个实体,一个实体可以对应多个测试问题;例如,设实体为“两个小孩”,该实体关联的句子为“我有两个小孩”;则根据该实体生成的测试问题可以包括:“我有小孩吗?”,“我有几个小孩”。在一种实施方式中,服务器将实体集合中的实体,以及该实体关联的句子作为问题生成(question generation,qg)模型的输入,并获取问题生成模型输出的针对该实体的测试问题;例如,实体为:“地点a”,实体关联的句子为:“我在地点a工作”,服务器将“地点a”和“我在地点a工作”输入问题生成模型,并获取问题生成模型输出的测试问题:“我在哪里工作?”。
76.(3)服务器采用测试问题集合对测试对象进行提问,并获取测试对象输出的答复结果;例如,服务器询问测试对象:“我在哪里工作?”,并获取测试对象输出的答复结果:“你在地点b工作”。可以理解的是,一个答复结果对应一个测试问题,实体与答复结果的对应关系可以通过测试问题确定;例如,实体1对应测试问题1,测试问题1对应答复结果1,则实体1与答复结果1相对应。
77.(4)服务器对答复结果和实体集合中各个实体关联的句子进行一致性检测,得到测试对象的测试结果,测试对象的测试结果用于指示测试对象的信息记忆能力。一致性检
测用于检测实体对应的答复结果与实体关联的句子是否匹配,以便于服务器根据一致性检测的检测结果评估测试对象的信息记忆能力;例如,设实体对应的答复结果为“我在学校教语文”,实体关联的句子为“我在学校教数学”,则一致性检测的结果为不匹配;服务器在得到各个实体关联的句子的一致性检测结果后,根据各个实体关联的句子的一致性检测结果,计算匹配率(如匹配率=一致性检测的结果为匹配的数量/实体集合中实体的数量),并根据匹配率得到测试对象的测试结果;其中,匹配率与测试对象的信息记忆能力成正比。
78.结合图1b举例来说,在多轮对话模块中,服务器与聊天机器人完成n轮对话,n为正整数;服务器通过询问模块(携带命名实体识别模型,以及问题生成模型)捕捉聊天机器人1在对话过程中提到的与对话内容相关的实体,比如“teacher”,”two children“,并生成对应问题,比如“what’s my job?”,“how many kids do i have?”;然后服务器将生成的问题用来询问聊天机器人,获取并保存聊天机器人的回复;最后服务器将聊天机器人的回复与服务器在对话中的对话内容作为输入,输入一致性检测模型中,并根据一致性检测结果来判断聊天机器人是否记忆了服务器在对话中提及的对话内容。
79.本技术实施例中,获取实体集合,实体集合中的实体是从测试对象参与的n轮对话中提取的,每个实体关联n轮对话中的一个句子,基于实体集合中的实体生成测试问题集合;采用测试问题集合对测试对象进行提问,并获取测试对象输出的答复结果;对答复结果和实体集合中各个实体关联的句子进行一致性检测,得到测试对象的测试结果。可见,通过提取对话中的实体生成测试问题,来对测试对象的信息记忆能力进行测试,从而根据测试结果来对测试对象的信息记忆能力进行评估。
80.基于上述测试方案,本技术实施例提出更为详细的测试方法,下面将结合附图对本技术实施例提出的测试方法进行详细介绍。
81.图2为本技术实施例提供的一种测试方法的流程示意图。该测试方法可以由计算机设备执行,该计算机设备具体可以是终端设备,或者服务器。如图2所示,该测试方法可包括但不限于步骤s201-s204:
82.s201、获取实体集合。
83.实体集合中包括至少一个实体,实体可以理解为:文本中的人名、地名等专有名称和有意义的时间、日期等数量短语。实体集合中的实体是计算机设备从测试对象参与的n轮对话中提取的,实体集合中的每个实体关联n轮对话中的一个句子,且每个实体关联的句子中包含该实体;例如,假设两轮对话为:(第一轮)计算机设备:“我是一名教师,你呢?”测试对象:“我是一名工人,你有几个小孩?”(第二轮)计算机设备:“我有两个孩子,你呢?”测试对象:“我没有孩子。”;则计算机设备从“我是一名教师,你呢?”中提取实体“教师”,从“我有两个孩子,你呢?”中提取实体“两个孩子”,得到实体集合:“教师”,“两个孩子”。
84.在一种实施方式中,计算机设备采用命名实体识别的方式对n轮对话中的句子进行识别,得到实体集合。其中,命名实体识别(named entity recognition,ner)的主要任务是识别出文本中的人名、地名等专有名称和有意义的时间、日期等数量短语加以归类;例如,设待识别的句子为:“我在地点a工作”,则采用命名实体识别的方式对该待识别的句子进行识别,得到:“我”(非实体),“在”(非实体),“地点a”(地名实体),“工作”(非实体),因此,该待识别句子的命名实体识别的识别结果为“地点a”。
85.s202、基于实体集合中的实体生成测试问题集合。
86.测试问题集合中,每个测试问题对应一个实体集合中的一个实体,一个实体可以对应多个测试问题;例如,设实体为“两个小孩”,该实体关联的句子为“我有两个小孩”;则根据该实体生成的测试问题可以包括:“我有小孩吗?”,“我有几个小孩”。
87.计算机设备可以通过关系表查询,问题生成模型等方式生成与实体集合中各个实体相对应的测试问题。在一种实施方式中,计算机设备将实体集合中的实体,以及该实体关联的句子作为问题生成(question generation,qg)模型的输入,并获取问题生成模型输出的针对该实体的测试问题;例如,实体为:“地点a”,实体关联的句子为:“我在地点a工作”,服务器将“地点a”和“我在地点a工作”输入问题生成模型,并获取问题生成模型输出的测试问题:“我在哪里工作?”。
88.s203、采用测试问题集合对测试对象进行提问,并获取测试对象输出的答复结果。
89.测试对象输出的答复结果是测试对象基于上述n轮对话中的对话内容生成的;例如,设n轮对话包括:计算机设备:“我有两个孩子”,若测试对象记忆了该信息,则在回答测试问题“我有几个孩子?”时,测试对象输出的答复结果是基于“两个孩子”生成的,如“你有两个孩子。”。
90.s204、对答复结果和实体集合中各个实体关联的句子进行一致性检测,得到测试对象的测试结果。
91.测试对象的测试结果用于指示测试对象的信息记忆能力。一致性检测用于检测实体对应的答复结果与实体关联的句子关系,以便于服务器根据一致性检测的检测结果评估测试对象的信息记忆能力。
92.在一种实施方式中,关系包括:矛盾、蕴含和中性;例如,假设实体关联的句子(即前提)为:“我是一个数学老师”,若实体对应的答复结果为“我在学校教语文”,则实体对应的答复结果与实体关联的句子之间的关系为矛盾;若实体对应的答复结果为“我在学校教书”,则实体对应的答复结果与实体关联的句子之间的关系为蕴含;若实体对应的答复结果为“我喜欢教书”,则实体对应的答复结果与实体关联的句子之间的关系为中性(可能喜欢教书,也可能不喜欢教书)。
93.一个答复结果对应一个测试问题,实体与答复结果的对应关系可以通过测试问题确定;例如,实体a对应测试问题1,测试问题1对应答复结果2,则实体a与答复结果2相对应;进一步地,若实体a关联句子b,则计算机设备对答复结果2和句子b进行一致性检测,得到实体a的检测结果。同理,计算机设备可以通过上述方式得到实体集合中各个实体的检测结果,并通过实体集合中各个实体的检测结果;例如,计算机设备计算“蕴含”关系的测试结果与实体集合中实体的比值,得到测试对象的测试结果。
94.本技术实施例中,获取实体集合,实体集合中的实体是从测试对象参与的n轮对话中提取的,每个实体关联n轮对话中的一个句子,基于实体集合中的实体生成测试问题集合;采用测试问题集合对测试对象进行提问,并获取测试对象输出的答复结果;对答复结果和实体集合中各个实体关联的句子进行一致性检测,得到测试对象的测试结果。可见,通过提取对话中的实体生成测试问题,来对测试对象的信息记忆能力进行测试,从而根据测试结果来对测试对象的信息记忆能力进行评估。
95.图3为本技术实施例提供的另一种测试方法的流程示意图。该测试方法可以由计算机设备执行,该计算机设备具体可以是终端设备,或者服务器。如图3所示,该测试方法可
包括但不限于步骤s301-s307:
96.s301、获取测试对象参与的n轮对话的句子集合,n为正整数。
97.对话轮次:指对话双方(a,b)进行聊天的轮次,假设a、b依次发言,那么“ab”为一个轮次,“abab”为两个轮次,以此类推。
98.在一种实施方式中,设计算机设备为a,测试对象为b;则获取测试对象参与的n轮对话的句子集合是指:获取n轮对话中,a(即计算机设备)输出的句子,得到句子集合。计算机设备可以通过开源聊天机器人模型(如dialogpt、blender、plato和dialoflow)来完成上述n轮对话。计算机设备与测试对象在对话过程中采用随机采样的方式生成句子作为输出,并将对方的回复和先前的对话历史作为输入,再次生成输出,如此进行下去,直到达到完成n轮对话。
99.s302、采用命名实体识别模型对句子集合中的各个句子进行识别,得到n轮对话对应的实体集合。
100.命名实体识别模型是基于隐马尔科夫算法构造的序列标注模型,该模型具有双重随机过程(具有一定状态数的隐马尔可夫链和显示随机函数集)。该模型中,每个观测向量都是通过某些概率密度分布表现为各种状态,每一个观测向量是由一个具有相应概率密度分布的状态序列产生。
101.在一种实施方式中,计算机设备首先对句子集合中对第i个句子进行分词处理(将字符序列拆分为单个的字或词,如最大匹配分词算法、最短路径分词算法、判别式模型分词算法等),得到第i个句子的至少一个分词;其中,i为正整数,且i小于等于n,第i个句子可以是句子集合中的任一个句子。例如,假设第i个句子为“我在地点a工作。”,则计算机设备对该句子进行分词处理得到:“我”、“在”、“地点a”、“工作”。计算机设备在对第i个句子进行分词处理后,对第i个句子的各个分词进行特征提取(如对各个分词进行编码处理),得到第i个句子中各个分词的分词特征。然后,计算机设备可以根据第i个句子中各个分词的分词特征,对第i个句子中各个分词进行分类处理(如通过分类器对各个分词进行分类),并基于第i个句子中各个分词的分类结果,确定第i个句子的实体。例如,设待识别的句子为:“我在地点a工作”,则采用命名实体识别模型对该待识别的句子进行识别,得到:“我”(非实体),“在”(非实体),“地点a”(地名实体),“工作”(非实体),因此,该待识别句子的命名实体识别的识别结果为“地点a”。
102.同理,按照上述实施方式,计算机设备调用命名实体识别模型对句子集合中的句子逐一进行识别,得到n轮对话对应的实体集合。其中,命名实体识别模型可以采用训练数据集对初始模型进行训练得到;具体地,将训练数据集输入初始模型,得到实体预测结果,根据实体预测结果与训练数据集对应的标注数据之间的差异对初始模型中的参数进行调整,直至调整后的模型满足要求(如实体的识别准确率大于90%),从而得到命名实体识别模型。
103.s303、采用问题生成模型对实体集合中的各个实体,以及该实体关联的句子进行生成处理,得到测试问题集合。
104.测试问题集合中每个测试问题对应一个实体,实体集合中每个实体可以对应一个或多个测试问题,例如,设实体为“两个小孩”,该实体关联的句子为“我有两个小孩”;则根据该实体生成的测试问题可以包括:“我有小孩吗?”,“我有几个小孩”。生成处理是指基于
每个实体,和该实体关联的句子生成对应的测试问题。
105.在一种实施方式中,问题生成模型是基于编码器和解码器构造的,计算机设备对第j个实体和第j个实体关联的句子进行拼接处理,得到第一拼接结果;其中,j为正整数,且j小于等于n,第j个实体是实体集合中的任一个实体;例如,设实体为“two children”,该实体关联的句子为“i have two children”,则计算机设备对实体和该实体关联的句子进行拼接处理,得到“two children[sep]i have two children”,其中,[sep]为实体和实体关联的句子间的分隔符。可以理解的是,增加分隔符可以便于计算机设备进行识别,提高识别效率。
[0106]
在得到第一拼接结果后,计算机设备对第一拼接结果进行字节对编码处理(byte pair encoding,bpe),得到第一特征编码;其中字节对编码是数据压缩的一种形式,计算机设备将输入数据中出现频率最高的一对连续字节数据被替换为该输入数据中不存在的字节。
[0107]
进一步地,在得到第一特征编码后,计算机设备可以对第一特征编码进行解码处理,得到第j个实体对应的测试问题。同理,计算机设备可以采用问题生成模型对实体集合中的各个实体,以及该实体关联的句子逐一进行生成处理,得到测试问题集合。图4a为本技术实施例提供的一种编解码转换示意图。如图4a所示,x1-x4为输入,y1和y2为输出,通过编码器和解码器,可以提取到输入数据中的隐藏特征。
[0108]
其中,问题生成模型可以采用训练数据集对初始模型进行训练得到;具体地,训练数据集可以是通过人工标注等方式对采集的数据进行标注得到的,问题生成模型的训练过程包括:将训练数据集输入初始模型,得到预测的测试问题,根据预测的测试问题与训练数据集对应的标注数据之间的差异对初始模型中的参数进行调整,直至调整后的模型满足要求(如预测的测试问题与标注数据的匹配度大于90%),从而得到问题生成模型。
[0109]
可选的,在实际应用中,可以根据开发人员的实际需求(如需要开发针对菜品、或者地名等相关的主题机器人),对命名实体识别模型和问题生成模型中的参数进行调整,以便于对测试对象进行针对性测试;例如,开发人员需要开发针对擅长记忆地名的机器人,则可以通过与地名相关的训练数据集对命名实体识别模型和问题生成模型进行针对性训练,并在训练过程中对命名实体识别模型和问题生成模型中的参数进行适应性调整,使得命名实体识别模型可以更好地识别对话中的地名,问题生成模型可以生成地名相关的测试问题,进而对测试对象进行针对性测试,以便于开发人员根据该结果对测试对象进行针对性优化(如调整相关参数)。
[0110]
s304、采用测试问题集合对测试对象进行提问,并获取测试对象输出的答复结果。
[0111]
步骤s304的具体实施方式可参考图2中步骤s203中的实施方式,在此不再赘述。
[0112]
s305、采用矛盾检测模型对目标答复结果和目标实体关联的句子进行一致性检测,得到目标实体对应的测试子结果。
[0113]
目标实体可以是实体集合中的任一个实体,目标答复结果与目标测试问题相对应,目标测试问题是基于目标实体生成的(即目标测试问题与目标实体相对应)。例如,实体a对应测试问题1,测试问题1对应答复结果2,则实体a与答复结果2相对应;进一步地,若实体a关联句子b,则计算机设备采用矛盾检测模型对答复结果2和句子b进行一致性检测,得到实体a对应的测试子结果。
[0114]
在一种实施方式中,实体对应的答复结果和该实体关联的句子之间的关系包括:矛盾、蕴含和中性;例如,假设实体关联的句子(即前提)为:“我是一个数学老师”,若实体对应的答复结果为“我在学校教语文”,则实体对应的答复结果与实体关联的句子之间的关系为矛盾;若实体对应的答复结果为“我在学校教书”,则实体对应的答复结果与实体关联的句子之间的关系为蕴含;若实体对应的答复结果为“我喜欢教书”,则实体对应的答复结果与实体关联的句子之间的关系为中性(可能喜欢教书,也可能不喜欢教书)。
[0115]
在另一种实施方式中,矛盾检测模型是基于堆叠了多层transformer层的神经网络构造的。图4b为本技术实施例提供的一种矛盾检测模型的示意图,如图4b所示,矛盾检测模型包括神经网络,该神经网络中包括多层transformer层。具体地,计算机设备对目标答复结果和目标实体关联的句子进行拼接处理,得到第二拼接结果;具体的拼接方式可参考步骤s303中的拼接方式,在此不再赘述。在得到第二拼接结果后,计算机设备对第二拼接结果进行字节对编码处理,得到第二特征编码(即特征向量);然后通过神经网络对第二特征编码进行关系预测,得到目标答复结果和目标实体关联的句子之间的关系,进而确定目标实体对应的测试子结果。同理,计算机设备按照上述实施方式,采用矛盾检测模型分别对每个实体对应的答复结果和关联的句子进行一致性检测,得到各个实体的测试子结果。
[0116]
其中,矛盾检测模型可以采用训练数据集对初始模型进行训练得到;具体地,训练数据集可以是通过人工对比等方式,对采集的数据进行标注得到的,矛盾检测模型的训练过程包括:将训练数据集输入初始模型,得到一致性检测结果,根据一致性检测结果与训练数据集对应的标注数据之间的差异对初始模型中的参数进行调整,直至调整后的模型满足要求(如一致性检测结果的判别准确率大于90%),从而得到矛盾检测模型。
[0117]
s306、根据实体集合中,各个实体对应的测试子结果,得到测试对象的测试结果。
[0118]
在一种实施方式中,计算机设备统计各个实体对应的测试子结果中,目标类型的测试子结果的数量;目标类型的测试子结果用于指示:测试对象的答复结果,与该测试子结果对应的实体关联的句子匹配(即测试对象的答复结果,与该测试子结果对应的实体关联的句子为蕴含关系)。
[0119]
基于目标类型的测试子结果的数量,以及实体集合中实体的数量,计算测试对象的记忆力评分;例如,计算机设备计算目标类型的测试子结果,与实体集合中实体的数量的比值,得到测试对象的记忆力评分,可以理解的是,测试对象的记忆力评分与测试对象的信息记忆能力成正比。
[0120]
s307、根据测试对象的测试结果,对测试对象进行优化处理。
[0121]
在一种实施方式中,测试对象可以是指用于进行对话的对话系统,该对话系统包括至少一个与信息记忆能力相关联的参数,测试对象的测试结果包括记忆力评分。在一个实施例中,若测试对象的记忆力评分低于评分阈值,则计算机设备对至少一个与信息记忆能力相关联的参数进行优化调整,直至测试对象的记忆力评分高于或等于评分阈值。
[0122]
进一步地,在对话系统通过测试后,可以部署在应用程序,或者搭载在智能设备中。图4c为本技术实施例提供的一种对话系统的应用界面示意图,如图4c所示,页面401包括对话显示区域4011,对话答复区域4012,对话内容输入入口4013;其中,对话显示区域4011,用于显示用户输入的对话内容;对话答复区域4012,用于显示对话显示区域4011中对话内容对应的答复内容;该答复内容可以是基于对话显示区域4011中的历史记录生成的
(即对话系统对对话显示区域4011中的信息进行了记忆);对话内容输入入口4013,用于显示输入对话内容,如通过语音输入,文字输入等方式输入对话内容。此外,页面401还可以包括关联问题显示区域4014,关联问题显示区域4014用于显示与对话显示区域4011中的对话内容相关的问题,以便于用户选择需要进行对话的内容,提高对话效率。
[0123]
本技术实施例中,获取实体集合,实体集合中的实体是从测试对象参与的n轮对话中提取的,每个实体关联n轮对话中的一个句子,基于实体集合中的实体生成测试问题集合;采用测试问题集合对测试对象进行提问,并获取测试对象输出的答复结果;对答复结果和实体集合中各个实体关联的句子进行一致性检测,得到测试对象的测试结果。可见,通过提取对话中的实体生成测试问题,来对测试对象的信息记忆能力进行测试,从而根据测试结果来对测试对象的信息记忆能力进行评估。此外,通过测试结果来对测试对象中的参数进行优化,可以提升测试对象的优化效率。
[0124]
上述详细阐述了本技术实施例的方法,为了便于更好地实施本技术实施例的上述方案,相应地,下面提供了本技术实施例的装置。
[0125]
请参见图5,图5为本技术实施例提供的一种测试装置的结构示意图,该装置可以搭载在计算机设备上,该计算机设备可以是终端设备或者服务器。图5所示的测试装置可以用于执行上述图2和图3所描述的方法实施例中的部分或全部功能。请参见图5,各个单元的详细描述如下:
[0126]
获取单元501,用于获取实体集合,实体集合中的实体是从测试对象参与的n轮对话中提取的,每个实体关联n轮对话中的一个句子,n为正整数;
[0127]
处理单元502,用于基于实体集合中的实体生成测试问题集合;
[0128]
以及用于采用测试问题集合对测试对象进行提问,并获取测试对象输出的答复结果;
[0129]
以及用于对答复结果和实体集合中各个实体关联的句子进行一致性检测,得到测试对象的测试结果,测试对象的测试结果用于指示测试对象的信息记忆能力。
[0130]
在一种实施方式中,处理单元502还用于:
[0131]
根据测试对象的测试结果,对测试对象进行优化处理。
[0132]
在一种实施方式中,测试对象包括用于进行对话的对话系统,对话系统包括至少一个与信息记忆能力相关联的参数,测试对象的测试结果包括记忆力评分;处理单元502用于,根据测试对象的测试结果,对测试对象进行优化处理,具体用于:
[0133]
若测试对象的记忆力评分低于评分阈值,则对至少一个与信息记忆能力相关联的参数进行优化调整。
[0134]
在一种实施方式中,获取单元501用于,获取实体集合,具体用于:
[0135]
获取测试对象参与的n轮对话的句子集合;
[0136]
采用命名实体识别模型对句子集合中的各个句子进行识别,得到n轮对话对应的实体集合;
[0137]
其中,命名实体识别模型是基于隐马尔科夫算法构造的。
[0138]
在一种实施方式中,处理单元502用于,采用命名实体识别模型对句子集合中的各个句子进行识别,得到n轮对话对应的实体集合,具体用于:
[0139]
对第i个句子进行分词处理,得到第i个句子的至少一个分词,第i个句子是句子集
合中的任一个句子;
[0140]
对第i个句子的至少一个分词进行特征提取,得到第i个句子中各个分词的分词特征;
[0141]
根据第i个句子中各个分词的分词特征,对第i个句子中各个分词进行分类处理;
[0142]
基于第i个句子中各个分词的分类结果,确定第i个句子的实体。
[0143]
在一种实施方式中,处理单元502用于,基于实体集合中的实体生成测试问题集合,具体用于:
[0144]
采用问题生成模型对实体集合中的各个实体,以及该实体关联的句子进行生成处理,得到测试问题集合;
[0145]
其中,测试问题集合中每个测试问题对应一个实体,问题生成模型是基于编码器和解码器构造的。
[0146]
在一种实施方式中,处理单元502用于,采用问题生成模型对实体集合中的各个实体,以及该实体关联的句子进行生成处理,得到测试问题集合,具体用于:
[0147]
对第j个实体和第j个实体关联的句子进行拼接处理,得到第一拼接结果,第j个实体是实体集合中的任一个实体;
[0148]
对第一拼接结果进行字节对编码处理,得到第一特征编码;
[0149]
基于第一特征编码,生成第j个实体对应的测试问题。
[0150]
在一种实施方式中,每个测试问题对应一个答复结果;处理单元502用于,对答复结果和实体集合中各个实体关联的句子进行一致性检测,得到测试对象的测试结果,具体用于:
[0151]
采用矛盾检测模型对目标答复结果和目标实体关联的句子进行一致性检测,得到目标实体对应的测试子结果;
[0152]
根据实体集合中,各个实体对应的测试子结果,得到测试对象的测试结果;
[0153]
其中,目标实体是实体集合中的任一个实体,目标答复结果与目标测试问题相对应,目标测试问题是基于目标实体生成的。
[0154]
在一种实施方式中,处理单元502用于,采用矛盾检测模型对目标答复结果和目标实体关联的句子进行一致性检测,得到目标实体对应的测试子结果,具体用于:
[0155]
对目标答复结果和目标实体关联的句子进行拼接处理,得到第二拼接结果;
[0156]
对第二拼接结果进行字节对编码处理,得到第二特征编码;
[0157]
基于第二特征编码对目标答复结果和目标实体关联的句子进行关系预测,得到目标实体对应的测试子结果。
[0158]
在一种实施方式中,处理单元502用于,根据实体集合中,各个实体对应的测试子结果,得到测试对象的测试结果,具体用于:
[0159]
统计各个实体对应的测试子结果中,目标类型的测试子结果的数量;
[0160]
基于目标类型的测试子结果的数量,以及实体集合中实体的数量,计算测试对象的记忆力评分;
[0161]
其中,目标类型的测试子结果用于指示:测试对象的答复结果,与该测试子结果对应的实体关联的句子匹配。
[0162]
根据本技术的一个实施例,图2和图3所示的测试方法所涉及的部分步骤可由图5
所示的测试装置中的各个单元来执行。例如,图2中所示的步骤s201可由图5所示的获取单元501执行,步骤s202-步骤s204可由图5所示的处理单元502执行;图3中所示的步骤s301可由图5所示的获取单元501执行,步骤s302-步骤s307可由图5所示的处理单元502执行。图5所示的测试装置中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成,或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成,这可以实现同样的操作,而不影响本技术的实施例的技术效果的实现。上述单元是基于逻辑功能划分的,在实际应用中,一个单元的功能也可以由多个单元来实现,或者多个单元的功能由一个单元实现。在本技术的其它实施例中,测试装置也可以包括其它单元,在实际应用中,这些功能也可以由其它单元协助实现,并且可以由多个单元协作实现。
[0163]
根据本技术的另一个实施例,可以通过在包括中央处理单元(cpu)、随机存取存储介质(ram)、只读存储介质(rom)等处理元件和存储元件的例如计算机的通用计算装置上运行能够执行如图2和图3中所示的相应方法所涉及的各步骤的计算机程序(包括程序代码),来构造如图5中所示的测试装置,以及来实现本技术实施例的测试方法。计算机程序可以记载于例如计算机可读记录介质上,并通过计算机可读记录介质装载于上述计算装置中,并在其中运行。
[0164]
基于同一发明构思,本技术实施例中提供的测试装置解决问题的原理与有益效果与本技术方法实施例中测试方法解决问题的原理和有益效果相似,可以参见方法的实施的原理和有益效果,为简洁描述,在这里不再赘述。
[0165]
请参阅图6,图6为本技术实施例提供的一种计算机设备的结构示意图,如图6所示,计算机设备至少包括处理器601、通信接口602和存储器603。其中,处理器601、通信接口602和存储器603可通过总线或其他方式连接。其中,处理器601(或称中央处理器(central processing unit,cpu))是终端的计算核心以及控制核心,其可以解析终端内的各类指令以及处理终端的各类数据,例如:cpu可以用于解析用户向终端所发送的开关机指令,并控制终端进行开关机操作;再如:cpu可以在终端内部结构之间传输各类交互数据,等等。通信接口602可选的可以包括标准的有线接口、无线接口(如wi-fi、移动通信接口等),受处理器601的控制可以用于收发数据;通信接口602还可以用于终端内部数据的传输以及交互。存储器603(memory)是终端中的记忆设备,用于存放程序和数据。可以理解的是,此处的存储器603既可以包括终端的内置存储器,当然也可以包括终端所支持的扩展存储器。存储器603提供存储空间,该存储空间存储了终端的操作系统,可包括但不限于:android系统、ios系统、windows phone系统等等,本技术对此并不作限定。
[0166]
本技术实施例还提供了一种计算机可读存储介质(memory),计算机可读存储介质是终端中的记忆设备,用于存放程序和数据。可以理解的是,此处的计算机可读存储介质既可以包括终端中的内置存储介质,当然也可以包括终端所支持的扩展存储介质。计算机可读存储介质提供存储空间,该存储空间存储了终端的处理系统。并且,在该存储空间中还存放了适于被处理器601加载并执行的一条或多条的指令,这些指令可以是一个或多个的计算机程序(包括程序代码)。需要说明的是,此处的计算机可读存储介质可以是高速ram存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器;可选的,还可以是至少一个位于远离前述处理器的计算机可读存储介质。
[0167]
在一个实施例中,处理器601通过运行存储器603中的可执行程序代码,执行如下
操作:
[0168]
获取实体集合,实体集合中的实体是从测试对象参与的n轮对话中提取的,每个实体关联n轮对话中的一个句子,n为正整数;
[0169]
基于实体集合中的实体生成测试问题集合;
[0170]
采用测试问题集合对测试对象进行提问,并获取测试对象输出的答复结果;
[0171]
对答复结果和实体集合中各个实体关联的句子进行一致性检测,得到测试对象的测试结果,测试对象的测试结果用于指示测试对象的信息记忆能力。
[0172]
作为一种可选的实施例,处理器601通过运行存储器603中的可执行程序代码,还执行如下操作:
[0173]
根据测试对象的测试结果,对测试对象进行优化处理。
[0174]
作为一种可选的实施例,测试对象包括用于进行对话的对话系统,对话系统包括至少一个与信息记忆能力相关联的参数,测试对象的测试结果包括记忆力评分;处理器601根据测试对象的测试结果,对测试对象进行优化处理的具体实施例为:
[0175]
若测试对象的记忆力评分低于评分阈值,则对至少一个与信息记忆能力相关联的参数进行优化调整。
[0176]
作为一种可选的实施例,处理器601获取实体集合的具体实施例为:
[0177]
获取测试对象参与的n轮对话的句子集合;
[0178]
采用命名实体识别模型对句子集合中的各个句子进行识别,得到n轮对话对应的实体集合;
[0179]
其中,命名实体识别模型是基于隐马尔科夫算法构造的。
[0180]
作为一种可选的实施例,处理器601采用命名实体识别模型对句子集合中的各个句子进行识别,得到n轮对话对应的实体集合的具体实施例为:
[0181]
对第i个句子进行分词处理,得到第i个句子的至少一个分词,第i个句子是句子集合中的任一个句子;
[0182]
对第i个句子的至少一个分词进行特征提取,得到第i个句子中各个分词的分词特征;
[0183]
根据第i个句子中各个分词的分词特征,对第i个句子中各个分词进行分类处理;
[0184]
基于第i个句子中各个分词的分类结果,确定第i个句子的实体。
[0185]
作为一种可选的实施例,处理器601基于实体集合中的实体生成测试问题集合的具体实施例为:
[0186]
采用问题生成模型对实体集合中的各个实体,以及该实体关联的句子进行生成处理,得到测试问题集合;
[0187]
其中,测试问题集合中每个测试问题对应一个实体,问题生成模型是基于编码器和解码器构造的。
[0188]
作为一种可选的实施例,处理器601采用问题生成模型对实体集合中的各个实体,以及该实体关联的句子进行生成处理,得到测试问题集合的具体实施例为:
[0189]
对第j个实体和第j个实体关联的句子进行拼接处理,得到第一拼接结果,第j个实体是实体集合中的任一个实体;
[0190]
对第一拼接结果进行字节对编码处理,得到第一特征编码;
[0191]
基于第一特征编码,生成第j个实体对应的测试问题。
[0192]
作为一种可选的实施例,每个测试问题对应一个答复结果;处理器601对答复结果和实体集合中各个实体关联的句子进行一致性检测,得到测试对象的测试结果的具体实施例为:
[0193]
采用矛盾检测模型对目标答复结果和目标实体关联的句子进行一致性检测,得到目标实体对应的测试子结果;
[0194]
根据实体集合中,各个实体对应的测试子结果,得到测试对象的测试结果;
[0195]
其中,目标实体是实体集合中的任一个实体,目标答复结果与目标测试问题相对应,目标测试问题是基于目标实体生成的。
[0196]
作为一种可选的实施例,处理器601采用矛盾检测模型对目标答复结果和目标实体关联的句子进行一致性检测,得到目标实体对应的测试子结果的具体实施例为:
[0197]
对目标答复结果和目标实体关联的句子进行拼接处理,得到第二拼接结果;
[0198]
对第二拼接结果进行字节对编码处理,得到第二特征编码;
[0199]
基于第二特征编码对目标答复结果和目标实体关联的句子进行关系预测,得到目标实体对应的测试子结果。
[0200]
作为一种可选的实施例,处理器601根据实体集合中,各个实体对应的测试子结果,得到测试对象的测试结果的具体实施例为:
[0201]
统计各个实体对应的测试子结果中,目标类型的测试子结果的数量;
[0202]
基于目标类型的测试子结果的数量,以及实体集合中实体的数量,计算测试对象的记忆力评分;
[0203]
其中,目标类型的测试子结果用于指示:测试对象的答复结果,与该测试子结果对应的实体关联的句子匹配。
[0204]
基于同一发明构思,本技术实施例中提供的计算机设备解决问题的原理与有益效果与本技术方法实施例中测试方法解决问题的原理和有益效果相似,可以参见方法的实施的原理和有益效果,为简洁描述,在这里不再赘述。
[0205]
本技术实施例还提供一种计算机可读存储介质,计算机可读存储介质中存储有一条或多条指令,一条或多条指令适于由处理器加载并执行上述方法实施例的测试方法。
[0206]
本技术实施例还提供一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述方法实施例的测试方法。
[0207]
本技术实施例还提供一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述的测试方法。
[0208]
本技术实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。
[0209]
本技术实施例装置中的模块可以根据实际需要进行合并、划分和删减。
[0210]
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,可读存储介质可以包括:闪存盘、只读存储器(read-only memory,rom)、随机存取器(random access memory,ram)、磁盘或光盘等。
[0211]
以上所揭露的仅为本技术一种较佳实施例而已,当然不能以此来限定本技术之权利范围,本领域普通技术人员可以理解实现上述实施例的全部或部分流程,并依本技术权利要求所作的等同变化,仍属于申请所涵盖的范围。

技术特征:
1.一种测试方法,其特征在于,所述方法包括:获取实体集合,所述实体集合中的实体是从测试对象参与的n轮对话中提取的,每个实体关联所述n轮对话中的一个句子,n为正整数;基于所述实体集合中的实体生成测试问题集合;采用所述测试问题集合对所述测试对象进行提问,并获取所述测试对象输出的答复结果;对所述答复结果和所述实体集合中各个实体关联的句子进行一致性检测,得到所述测试对象的测试结果,所述测试对象的测试结果用于指示所述测试对象的信息记忆能力。2.如权利要求1所述的方法,其特征在于,所述方法还包括:根据所述测试对象的测试结果,对所述测试对象进行优化处理。3.如权利要求2所述的方法,其特征在于,所述测试对象包括用于进行对话的对话系统,所述对话系统包括至少一个与信息记忆能力相关联的参数,所述测试对象的测试结果包括记忆力评分;所述根据所述测试对象的测试结果,对所述测试对象进行优化处理,包括:若所述测试对象的记忆力评分低于评分阈值,则对所述至少一个与信息记忆能力相关联的参数进行优化调整。4.如权利要求1所述的方法,其特征在于,所述获取实体集合包括:获取测试对象参与的n轮对话的句子集合;采用命名实体识别模型对所述句子集合中的各个句子进行识别,得到所述n轮对话对应的实体集合;其中,所述命名实体识别模型是基于隐马尔科夫算法构造的。5.如权利要求4所述的方法,其特征在于,所述采用命名实体识别模型对所述句子集合中的各个句子进行识别,得到所述n轮对话对应的实体集合,包括:对第i个句子进行分词处理,得到所述第i个句子的至少一个分词,所述第i个句子是所述句子集合中的任一个句子;对所述第i个句子的至少一个分词进行特征提取,得到所述第i个句子中各个分词的分词特征;根据所述第i个句子中各个分词的分词特征,对所述第i个句子中各个分词进行分类处理;基于所述第i个句子中各个分词的分类结果,确定所述第i个句子的实体。6.如权利要求1所述的方法,其特征在于,所述基于所述实体集合中的实体生成测试问题集合,包括:采用问题生成模型对所述实体集合中的各个实体,以及该实体关联的句子进行生成处理,得到测试问题集合;其中,所述测试问题集合中每个测试问题对应一个实体,所述问题生成模型是基于编码器和解码器构造的。7.如权利要求6所述的方法,其特征在于,所述采用问题生成模型对所述实体集合中的各个实体,以及该实体关联的句子进行生成处理,得到测试问题集合,包括:对第j个实体和所述第j个实体关联的句子进行拼接处理,得到第一拼接结果,所述第j
个实体是所述实体集合中的任一个实体;对所述第一拼接结果进行字节对编码处理,得到第一特征编码;基于所述第一特征编码,生成所述第j个实体对应的测试问题。8.如权利要求1所述的方法,其特征在于,每个测试问题对应一个答复结果;所述对所述答复结果和所述实体集合中各个实体关联的句子进行一致性检测,得到所述测试对象的测试结果,包括:采用矛盾检测模型对目标答复结果和目标实体关联的句子进行一致性检测,得到所述目标实体对应的测试子结果;根据所述实体集合中,各个实体对应的测试子结果,得到所述测试对象的测试结果;其中,所述目标实体是所述实体集合中的任一个实体,所述目标答复结果与目标测试问题相对应,所述目标测试问题是基于所述目标实体生成的。9.如权利要求8所述的方法,其特征在于,所述采用矛盾检测模型对目标答复结果和目标实体关联的句子进行一致性检测,得到所述目标实体对应的测试子结果,包括:对目标答复结果和目标实体关联的句子进行拼接处理,得到第二拼接结果;对所述第二拼接结果进行字节对编码处理,得到第二特征编码;基于所述第二特征编码对所述目标答复结果和所述目标实体关联的句子进行关系预测,得到所述目标实体对应的测试子结果。10.如权利要求8所述的方法,其特征在于,所述根据所述实体集合中,各个实体对应的测试子结果,得到所述测试对象的测试结果,包括:统计各个实体对应的测试子结果中,目标类型的测试子结果的数量;基于所述目标类型的测试子结果的数量,以及所述实体集合中实体的数量,计算所述测试对象的记忆力评分;其中,所述目标类型的测试子结果用于指示:所述测试对象的答复结果,与该测试子结果对应的实体关联的句子匹配。11.一种测试装置,其特征在于,包括:获取单元,用于获取实体集合,所述实体集合中的实体是从测试对象参与的n轮对话中提取的,每个实体关联所述n轮对话中的一个句子,n为正整数;处理单元,用于基于所述实体集合中的实体生成测试问题集合;以及用于采用所述测试问题集合对所述测试对象进行提问,并获取所述测试对象输出的答复结果;以及用于对所述答复结果和所述实体集合中各个实体关联的句子进行一致性检测,得到所述测试对象的测试结果,所述测试对象的测试结果用于指示所述测试对象的信息记忆能力。12.一种计算机设备,其特征在于,包括:存储装置和处理器;存储器,所述存储器中存储有计算机程序;处理器,用于加载所述计算机程序实现如权利要求1-10任一项所述的测试方法。13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序适于被处理器加载并执行如权利要求1-10任一项所述的测试方法。14.一种计算机程序产品,其特征在于,所述计算程序产品包括计算机程序,所述计算机程序适于被处理器加载并执行如权利要求1-10任一项所述的测试方法。

技术总结
本申请实施例公开了一种测试方法、装置、设备及计算机可读存储介质。其中方法包括:本申请实施例中,获取实体集合,实体集合中的实体是从测试对象参与的N轮对话中提取的,每个实体关联N轮对话中的一个句子,基于实体集合中的实体生成测试问题集合;采用测试问题集合对测试对象进行提问,并获取测试对象输出的答复结果;对答复结果和实体集合中各个实体关联的句子进行一致性检测,得到测试对象的测试结果。可见,通过提取对话中的实体生成测试问题,来对测试对象的信息记忆能力进行测试,从而根据测试结果来对测试对象的信息记忆能力进行评估。评估。评估。


技术研发人员:单勇 张金超
受保护的技术使用者:腾讯科技(深圳)有限公司
技术研发日:2022.01.05
技术公布日:2023/7/22
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐