语音控制方法、装置、车辆、电子设备和存储介质与流程
未命名
10-19
阅读:93
评论:0
1.本公开涉及人工智能技术领域,尤其涉及语音识别以及文本匹配领域,具体涉及一种语音控制方法、装置、车辆、电子设备和存储介质。
背景技术:
2.语音触控屏技术,是用户向语音触控屏提供触控语音,语音触控屏对触控语音进行识别,得到触控指令,并根据触控指令在语音触控屏的触控界面中的对应的控件进行触控操作。简而言之,语音触控屏技术是指通过语音代替用户的手来触控屏幕,从而实现对设备的控制。
技术实现要素:
3.本公开提供了一种语音控制方法、装置、车辆、电子设备和存储介质。
4.根据本公开的一方面,提供了一种语音控制方法,包括:
5.基于触控语音,得到语音识别文本;
6.基于预设的多个文本匹配策略,以及文本匹配的终止条件,在第一控件文本集中对所述语音识别文本进行文本匹配,得到第二控件文本集;
7.基于所述第二控件文本集,确定目标控件文本;
8.基于所述目标控件文本对应的触控指令,对所述目标控件文本对应的目标控件进行触控操作。
9.根据本公开的另一方面,提供了一种语音控制装置,包括:
10.语音识别模块,用于基于触控语音,得到语音识别文本;
11.文本匹配模块,用于基于预设的多个文本匹配策略,以及文本匹配的终止条件,在第一控件文本集中对所述语音识别文本进行文本匹配,得到第二控件文本集;
12.文本筛选模块,用于基于所述第二控件文本集,确定目标控件文本;
13.触控操作模块,用于基于所述目标控件文本对应的触控指令,对所述目标控件文本对应的目标控件进行触控操作。
14.根据本公开的另一方面,提供了一种电子设备,包括:
15.至少一个处理器;以及
16.与该至少一个处理器通信连接的存储器;其中,
17.该存储器存储有可被该至少一个处理器执行的指令,该指令被该至少一个处理器执行,以使该至少一个处理器能够执行本公开实施例中任一语音控制方法。
18.根据本公开的另一方面,提供了一种车辆,包括本公开实施例中任一电子设备。
19.根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,该计算机指令用于使该计算机执行根据本公开实施例中任一语音控制方法。
20.根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,该计算机程序在被处理器执行时实现根据本公开实施例中任一语音控制方法。
21.根据本公开的技术,采用文本匹配的方式对触控语音进行语音指令的识别,不必经过自然语音理解(natural language understanding,nlu)模块来对触控语音进行语义理解,可以提高识别速度,进而提高语音指令的响应速度。并且,本公开利用多个文本匹配策略对触控语音对应的语音识别文本进行文本匹配,可以提高命中率。通过设置文本匹配的终止条件,避免在采用部分策略得到满意的匹配结果后仍然采用其他的策略来继续匹配,进一步降低语音控制的耗时。
22.应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
23.附图用于更好地理解本方案,不构成对本公开的限定。其中:
24.图1是本公开一实施例的语音控制方法的流程图;
25.图2是本公开一实施例的文本匹配策略的流程图;
26.图3是本公开另一实施例的文本匹配策略的流程图;
27.图4是本公开另一实施例的文本匹配策略的流程图;
28.图5是本公开另一实施例的文本匹配策略的流程图;
29.图6是本公开一实施例的控件文本树的结构图;
30.图7是本公开另一实施例的文本匹配策略的流程图;
31.图8是本公开一实施例的仲裁方法的流程图;
32.图9是本公开一实施例的控件文本注册方法的流程图;
33.图10是本公开一实施例的语音控制装置的结构框图;
34.图11是本公开另一实施例的语音控制装置的结构框图;
35.图12是用来实现本公开实施例的语音控制方法的电子设备的框图。
具体实施方式
36.以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
37.随着智能汽车技术的不断发展,智能座舱为驾驶员提供的功能越来越丰富。为了获得更好的驾驶体验,驾驶员在驾驶过程中操作智能座舱中控系统的情况不断增加,例如:
38.1、操控导航应用,例如对当前导航路线进行变更或选择等。
39.2、操控多媒体应用,例如按照用户喜好对多媒体内容进行点播等。
40.3、操控车载设备,例如提高空调温度、打开车窗、打开遮阳帘等。
41.4、操控蓝牙电话,例如通过蓝牙电话向某个联系人打电话等。
42.大部分的智能汽车都包含有语音助手。通过语音助手输入语音以控制的中控系统。具体为,语音助手对驾驶员的语音进行语义识别,得到语音指令,并基于语音指令,直接操控相应的应用或者车载设备,从而实现上述操控。但是,这些中控系统受控于语音控制的功能是有限的,难以采用语音控制来实现对所有功能的操控。仍然有不少功能是需要驾驶
员通过触控的方式来控制相应的控件来达成的。这大大增加车辆在驾驶过程中的安全风险。
43.因此,一些语音触控屏技术应用随之推广起来。具体而言,语音触控屏技术是指采用语音代替驾驶员的手来触控屏幕上的控件,以实现对中控系统的操作。
44.在一些语音触控屏技术中,其实现方案一般为:对触控界面中的控件进行扫描,得到控件文本,将控件文本注册到语音助手的语义理解模块中。在应用时,通过nlu模块对触控语音进行语义识别,得到语义结果,并利用语义结果来确定命中的控件文本。然后,对控件文本对应的控件执行相应的触控操作。
45.但是,上述方案存在以下问题:
46.1、由于需要经过nlu模块进行语义理解,这通常需要200~300毫秒(ms)的耗时,耗时较长,使得语音指令响应较为缓慢。
47.2、当输入的触控语音较为粗糙或过长时,nlu模块不能识别其语义,进而得不到语义结果,系统无法响应相应的语音指令,因此,这种方案有可能拦截过于粗糙或过长的触控语音。
48.因此,本公开提供一种语音控制方案,能够解决上述问题。
49.图1是本公开一实施例的语音控制方法的流程图。该方法可以应用于终端设备,例如智能手机、智能手表、平板、带有触控屏的计算机、车载设备等。在终端设备中设置一些应用程序或指令,实现本公开的方法。
50.如图1所示,该语音控制方法,可以包括:
51.s110,基于触控语音,得到语音识别文本;
52.s120,基于预设的多个文本匹配策略,以及文本匹配的终止条件,在第一控件文本集中对语音识别文本进行文本匹配,得到第二控件文本集;
53.s130,基于第二控件文本集,确定目标控件文本;
54.s140,基于目标控件文本对应的触控指令,对目标控件文本对应的目标控件进行触控操作。
55.示例性地,触控语音是指利用语音代替手或触控笔对触控界面中的控件进行的触控操作。例如,利用“点击蓝牙”的语音代替用户用手指点击触控界面中的蓝牙控件,从而实现点击蓝牙这一操作。
56.示例性地,利用语音识别(automatic speech recognition,asr)技术,可以将触控语音转换成文字,得到相应的语音识别文本。
57.示例性地,上述多个文本匹配策略,可以包括输入框匹配策略、长文本匹配策略、短文本匹配策略以及拼音匹配策略等。
58.其中,输入框匹配策略用于采用输入框控件对应的控件文本与语音识别文本进行匹配,并且在匹配成功时在对应的输入框控件中显示该语音识别文本中的全部或部分内容。长文本匹配策略用于在语音识别文本较长的情况下,采用预设的控件文本与语音识别文本进行匹配。短文匹配策略用于在语音识别文本较短的情况下,采用预设的控件文本与语音识别文本进行匹配。拼音匹配策略用于在语音识别文本为中文的情况下,采用预设的控件文本的拼音与语音识别文本的拼音进行匹配。
59.示例性地,上述预设的多个文本匹配策略可以设置相应的优先级,每个优先级对
应一个或多个策略。按照优先级从高到低或从低到高,逐个策略地对语音识别文本进行文本匹配。在每个优先级中,利用相应的策略对应语音识别文本进行文本匹配,得到该优先级对应的文本匹配结果。如果该文本匹配结果满足文本匹配的终止条件,则停止后续匹配,并基于该文本匹配结果、或者基于该文本匹配结果和高于该优先级的其他优先级对应的文本匹配结果,确定第二控件文本集;否则继续采用下一个优先级对应的策略来对语音识别文本进行文本匹配,直至得到的文本匹配结果满足文本匹配的终止条件。
60.假设按照优先级从高到低,逐个策略地对语音识别文本进行文本匹配。
61.如果当前执行的策略为上述多个文本匹配策略中优先级最高的策略,其文本匹配结果满足文本匹配的终止条件,则基于该文本匹配结果,确定第二控件文本集。如果当前执行的策略为上述多个文本匹配策略中非优先级最高的策略,其文本匹配结果满足文本匹配的终止条件,则基于该文本匹配结果,以及高于该优先级的其他优先级对应的文本匹配结果,确定第二控件文本集。
62.示例性地,终止条件可以包括当前执行的策略所得到的文本匹配结果为匹配成功,和/或该文本匹配结果中的控件文本的评分达到设定的评分条件。
63.示例性地,第一控件文本集包括预先注册的一个或多个控件文本。第一控件文本集也可以称为注册文本集。
64.示例性地,控件文本是控件描述文本或对控件描述文本进行调整所得到的文本。一个控件文本对应一个触控指令,一个控件文本对应一个控件。不同的控件文本有可能对应于同一个控件。不同的控件文本也有可能对应同一的触控指令。
65.示例性地,触控语音一般是针对当前显示的触控界面中的控件而提供的语音,因此,第一控件文本集可以是与触控界面对应的第一控件文本集。不同的触控界面可以对应不同的第一控件文本集。当然,在一些实施例中,不同的触控界面也可以对应同一个第一控件文本集。
66.示例性地,上述多个文本匹配策略可以对应同一个第一控件文本集。
67.示例性地,对于不同的策略,可以采用不同的第一控件文本集来对语音识别文本进行文本匹配。这可以减少文本匹配的次数,提高文本匹配的速度。其中,语音识别文本与一个控件文本进行匹配,这为一次文本匹配。
68.示例性地,第二控件文本集包括一个或多个控件文本。这是经过筛选后用于确定目标控件文本的候选控件文本集。
69.根据上述实施方式,采用文本匹配的方式对触控语音进行语音指令的识别,不必经过nlu模块来对触控语音进行语义理解,可以提高识别速度,进而提高语音指令的响应速度。并且,上述实施方式利用多个文本匹配策略对触控语音对应的语音识别文本进行文本匹配,可以提高命中率。通过设置文本匹配的终止条件,避免在采用部分策略得到满意的匹配结果后仍然采用其他的策略来继续匹配,进一步降低语音控制识别的耗时。
70.在一种实施方式中,基于预设的多个文本匹配策略,以及文本匹配的终止条件,在第一控件文本集中对语音识别文本进行文本匹配,得到第二控件文本集,可以包括:设置初始的第三控件文本集为空集;基于多个文本匹配策略中的未执行策略中各策略的优先级,在未执行策略中确定第一文本匹配策略;基于第一文本匹配策略,执行以下第一操作:基于第一文本匹配策略,在第一控件文本集中对语音识别文本进行文本匹配,得到第四控件文
本集,并基于第四控件文本集,更新第三控件文本集;在第四控件文本集满足文本匹配的终止条件的情况下,基于更新后的第三控件文本集,确定第二控件文本集。
71.示例性地,第三控件文本集可以为空集,也可以包括一个或多个控件文本。第三控件文本集用于暂时缓存执行各文本匹配策略所得到的控件文本。
72.示例性地,第一文本匹配策略为当前执行的文本匹配策略。如果上述预设的多个文本匹配策略均未执行,则以多个文本匹配策略中优先级最高的策略为第一文本匹配策略。如果多个文本匹配策略中已有执行的策略,并且上一次执行策略得到的第四控件文本集不满足文本匹配的终止条件,则以多个文本匹配策略中的未执行策略中优先级最高的策略为第一文本匹配策略。
73.示例性地,第四控件文本集是基于当前执行的第一文本匹配策略,对语音识别文本进行文本匹配所得到的匹配结果。
74.示例性地,基于第四控件文本集,更新第三控件文本集,包括:基于第一文本匹配策略的类型,确定是否删除第三控件文本集中的所有控件文本。如果确定删除第三控件文本集中的所有控件文本,则删除第三控件文本集中的所有控件文本后,再将第四控件文本集添加在第三控件文本集中。如果确定不删除第三控件文本集中的控件文本,则直接将第四控件文本集添加在第三控件文本集中。
75.在一种实施方式中,第一操作还包括:设置第一文本匹配策略为已执行策略,上述方法还可以包括:
76.在第四控件文本集未满足文本匹配的终止条件的情况下,基于多个文本匹配策略中的未执行策略中各策略的优先级,在未执行策略中重新确定第一文本匹配策略;基于重新确定的第一文本匹配策略,返回继续执行第一操作。
77.根据上述实施方式,在每采用一个策略来对语音识别文本进行文本匹配,得到第四控件文本集时,都基于第四控件文本集来更新第三控件文本集,并且判断第四控件文本集是否满足文本匹配的终止条件,如果满足,则基于更新后的第三控件文本集来确定第二控件文本集,否则采用下一个策略继续对语音识别文本进行文本匹配。
78.因此,上述实施方式在采用多个策略来进行文本匹配以提高命中率的前提下,利用策略执行的优先级以及终止条件来限定文本匹配的过程,一方面可以避免多个策略并行执行时的算力冲突问题,另一方面可以避免在采用部分策略得到满意的匹配结果后仍然采用其他的策略来继续匹配,降低文本匹配的耗时,从而提高触控语音的响应效率。
79.图2是本公开一实施例的文本匹配策略的流程图。
80.如图2所示,该文本匹配策略的执行过程包括以下步骤:
81.s201,对语音识别文本开始匹配。
82.s202,在预设的多个匹配单元中确定是否还有未执行的匹配单元,如果有,则以未执行且优先级最高的匹配单元为目标匹配单元,并执行步骤s203。如果没有,则基于缓存单元中的控件文本确定第二控件文本集,并结束当前的文本匹配流程。其中,每个匹配单元对应一种匹配策略。
83.s203,基于目标匹配单元,对语音识别文本进行文本匹配,如果本次文本匹配结果为有匹配到控件文本,则执行步骤s204,如果本次文本匹配结果为没有匹配到控件文本,则返回步骤s202。其中,本次文本匹配结果为本公开实施例中的第四控件文本集。
84.s204,基于目标匹配单元确定是否清空缓存单元。其中,缓存单元用于存储匹配到的控件文本。如果是,则清空缓存单元后将本次匹配得到的控件文本添加在缓存单元中,如果否,则不清空缓存单元,直接将本次匹配得到的控件文本添加在缓存单元中。
85.s205,判断本次文本匹配结果是否满足文本匹配的终止条件;如果满足,则基于缓存单元中的控件文本确定上述第二控件文本集,结束当前的文本匹配流程。如果不满足,则返回继续执行步骤s202。
86.s206,结束匹配。
87.根据上述实施方式,从优先级高的策略开始,逐个策略地对语音识别文本进行匹配,直至得到的文本匹配结果满足文本匹配的终止条件,则输出第二控件文本集。因此,采用上述实施方式,可以提高文本匹配的命中率,并降低文本匹配的耗时,从而提高触控语音的响应效率。
88.以下将介绍执行第一文本匹配策略得到第四控件文本集的四种方式:
89.第一,执行第一文本匹配策略得到第四控件文本集的方式一,具体如下:
90.在一种实施方式中,基于第一文本匹配策略,在第一控件文本集中对语音识别文本进行文本匹配,得到第四控件文本集,可以包括:基于第一文本匹配策略,确定对应的第一控件文本集;针对第一控件文本集中的第一控件文本,基于第一控件文本对应的控件所受控的触控动作,确定第一文本中的前缀动词,并基于第一控件文本的词义,确定第一文本中的提示词;在语音识别文本中包括第一文本和第二文本、并且第一文本在第二文本之前的情况下,在第四控件文本集中添加第一控件文本,并关联第一控件文本和第二文本,其中,第二文本用于确定第一控件文本对应的触控指令。
91.示例性地,第一控件文本为第一控件文本集中的任一控件文本。
92.示例性地,每个控件能够受控的触控动作一般都预先设定的。例如,针对手机号输入框控件,其所能受控的触控动作为输入或写入,则第一文本中的前缀动词可以是输入或写入。又如,针对蓝牙控件,其受控的触控动作可以为点击、长按或滑动等,则第一文本中的前缀动词可以是点击、长按、向左滑或向右滑等。
93.示例性地,由于控件文本可以反映控件的功能或属性,因此,基于第一控件文本的词义来确定第一文本中的提示词,可以检测语音识别文本的意图是否与第一控件文本的意思相同或相似,从而来确定第一控件文本是否为命中的控件文本。
94.示例性地,基于第一控件文本的相同或相似词义,确定第一文本中的提示词。即第一控件文本的词义与第一文本中提示词的词义相同或相似。
95.示例性地,上述第一控件文本可以是输入框控件,则在上述实施方式中,上述执行第一文本匹配策略的过程可以称为输入框匹配策略。上述第一控件文本集为输入框匹配策略对应的注册控件文本集,其包括一个或多个输入框控件对应的控件文本。
96.示例性地,输入框控件可以包括手机号输入框控件、地址输入框控件、备注输入框控件等。
97.例如,如果输入框控件是用于输入手机号,则对应第一控件文本可以是手机或手机号,第一文本可以是输入手机号或输入手机号。
98.又如,如果输入框控件是用于输入地址信息,则对应的第一控件文本可以是地址,第一文本可以是输入地址。
99.示例性地,上述第一文本匹配策略可以是上述预设的多个文本匹配策略中优先级最高的策略。
100.示例性地,第二文本可以是除第一文本以后的任意文本。
101.示例性地,在语音识别文本中第一文本在第二文本之前,意思是,语音识别文本以第一文本为开头。
102.示例性地,第二文本的文本类别可以与第一文本对应的输入框控件的属性相匹配。例如,如果命中的输入框控件为地址输入框控件,则第二文本应该是一些地址信息。例如,如果命中的输入框控件为手机号输入框控件,则第二文本应该是一些数字。
103.根据上述实施方式,针对第一控件文本集中的任一控件文本,基于该件文本对应的控件所受控的触控动作,确定第一文本中的前缀动作,并基于第一控件文本的词义,确定第一文本中的提示词,从而得到用于匹配语音识别文本的第一文本。如果语音识别文本中包括第一文本和第二文本,以第一文本为开头,则该控件文本为命中的控件文本,将其添加在第四控件文本集中,并关联第一控件文本和第二文本,如此,当命中第一控件文本为目标控件文本时,可以基于第一控件文本和第二文本来确定第一控件对应的触控指令,提高确定触控件指令的准确程度,从而提高语音触控的响应准确率。
104.在实际应用中,上述策略可以针对输入框控件的控件文本对语音识别文本进行匹配,以在命中输入框控件,对输入框控件进行相应的操作。因此,采用上述实施方式,能够针对特定的控件例如输入框控件进行文本匹配,满足针对特定控件的语音输入需求。
105.在一种实施方式中,基于目标控件文本对应的触控指令,对目标控件文本对应的目标控件进行触控操作,可以包括:在目标控件文本为第一控件文本、并且第一控件文本对应的控件为输入框控件的情况下,在第一控件文本对应的输入框控件中显示第二文本。
106.示例性地,如果目标控件文本从左到右依次包括前缀词输入、提示词以及其他词,则在与提示词匹配的输入框控件中显示其他词。
107.例如,如果目标控件文本为“输入手机号xxx”,则在手机号输入框控件中显示“xxx”。
108.例如,如果目标控件文本为“输入地址aaa”,则在地址输入框控件中显示“aaa”。
109.根据上述实施方式,针对输入框控件,可以进行语音识别文本与控件文本的匹配操作,并且在匹配成功时,从语音识别文本中提取文本,并将该文本显示在目标输入框控件中,从而满足针对输入框控件的语音输入需求。
110.在执行第一文本匹配策略得到第四控件文本集的方式一之后,对于确定第四控件文本是否满足文本匹配的终止条件,其实施方式为:在第四控件文本集为非空的情况下,确定第四控件文本集满足文本匹配的终止条件。
111.根据该实施方式,针对输入框匹配策略,得到匹配结果,则停止执行其他方式的策略,不必执行后续策略。由于输入框匹配策略为准确,在得到匹配结果即停止后续策略,这能够在保证命中准确率的前提下,节省文本匹配的时间,提高触控语音的响应效率。
112.图3是本公开另一实施例的文本匹配策略的流程图。
113.如图3所示,该文本匹配策略的执行过程可以包括以上步骤:
114.s301,接收语音识别文本q1。例如,q1=输入手机12345678。
115.s302,判断语音识别文本q1是否包含前缀词输入。如果是,则进入步骤s303;如果
否,则确定本次匹配结果为未命中,执行步骤s310。
116.s303,判断语音识别文本q1是否仅包含前缀词输入。如果是,则确定本次匹配结果为未命中,执行步骤s310,如果否,则执行步骤s304。
117.s304,判断语音识别文本q1是否仅包含前缀词输入和提示词;其中,提示词为基于第一控件文本集中的控件文本所确定的文本。如果是,则确定本次匹配结果为未命中,执行步骤s310,如果否,则执行步骤s305。
118.s305,删除q1中的前缀词输入,得到q2。例如,q2=手机12345678。
119.s306,判断q2中与第一控件文本集中的控件文本相似的连续字段h的字数是否大于或等于2。如果是,则执行步骤s307,如果否,则确定本次匹配结果为未命中,执行步骤s310。例如,第一控件文本集中的控件文本为“手机号”,“手机号”与q2相似的连续字段为“手机”,则该连续字段的字数为2。
120.s307,判断q2是否以上述相似的连续字段h为开头。如果是,则执行步骤s308,如果否,则确定本次匹配结果为未命中,执行步骤s310。
121.s308,删除q2中相似的连续字段h,得到r1。例如,r1=12345678。
122.s309,在手机输入框控件中显示r1。
123.s310,结束匹配。
124.根据上述实施方式,针对输入框控件,可以进行语音识别文本与控件文本的匹配操作,并且在匹配成功时,从语音识别文本中提取文本,并将该文本显示在目标输入框控件中,从而满足针对输入框控件的语音输入需求。
125.第二,执行第一文本匹配策略得到第四控件文本集的方式二,具体如下:
126.在一种实施方式中,上述基于第一文本匹配策略,在第一控件文本集中对语音识别文本进行文本匹配,得到第四控件文本集,可以包括:基于第一文本匹配策略,确定对应的第一控件文本集;基于第一控件文本集中的各控件文本的文本类型和长度,以及语音识别文本的长度,确定各控件文本的评分;基于第一控件文本集中的各控件文本的文本类型和评分,在第一控件文本集中筛选控件文本,得到第四控件文本集。
127.示例性地,在该实施方式中,第一文本匹配策略可以称为长文本匹配策略。如果语音识别文本的长度大于设定阈值,执行长文本匹配策略。如果语音识别文本的长度小于设定阈值,则跳过采用长文本匹配策略对语音识别文本进行文本匹配的步骤,并标识该长文本匹配策略已执行。
128.示例性地,长文本匹配策略可以为多个文本匹配策略中优先级排列第二的策略。
129.示例性地,第一控件文本集可以是长文本匹配策略对应的注册文本集。其中,第一控件文本集中的控件文本可以均为长文本。长文本为长度大于设定阈值的文本。例如,对于中文文本,其字数大于或等于3,则可以认为该中文文本为长文本。
130.根据上述实施方式,基于第一控件文本集中的各控件文本的文本类型和长度,以及语音识别文本的长度,对各控件文本进行评分,得到各控件文本的评分,然后根据各控件的文本类型和评分筛选控件文本,得到第四控件文本集,可以准确地筛选与语音识别文本匹配的控件文本,从而提高语音识别的准确度。
131.在实际应用中,控件文本的类型可以包括控件文本中与语音识别文本共有的最长公共连续文本为键值对(key-value)文本,以及控件文本中与语音识别文本共有的最长公
共连续文本为非键值对文本。
132.因此,上述实施方式利用控件文本中与语音识别文本共有的最长公共连续文本来对控件文本进行评分,可以实现模糊匹配,并不需要将整个控件文本中的各字与语音识别文本中的各字一一匹配,提高长文本匹配的命中率。
133.在一种实施方式中,基于第一控件文本集中的各控件文本的文本类型和长度,以及语音识别文本的长度,确定各控件文本的评分,包括:针对第一控件文本集中的第二控件文本,在第二控件文本中与语音识别文本共有的最长公共连续文本为键值对文本的情况下,基于该最长公共连续文本中的值文本的长度,以及语音识别文本的长度,确定第二控件文本的评分。
134.示例性地,第一控件文本集中的控件文本中可以包括键值对文本,也可以不包括键值对文本,即包括非键对文本。
135.示例性地,键值对文本包括键文本和值文本。键值对文本对应键值对控件。
136.例如,由唤醒模式为键文本,主驾模式和全车模式中的一项为值文本,组成的键值对文本包括:唤醒模式为主驾模式,以及唤醒模式为全车模式。
137.又如,由音量为键文本,小、中和大中的一项为值文本,组成的键值对文本包括:音量切换为小,音量切换为中,以及音量切换为大。
138.示例性地,第二控件文本的评分可以包括第一评分和第二评分中的至少一者。其中,第一评分用于评分最长公共连续文本与语音识别文本的相关程度,第二评分用于评估最长公共连续文本与第二控件文本的相关程度。
139.对于键值对文本,第二控件文本的第一评分的确定方式可以为:确定最长公共连续文本中的值文本的长度与语音识别文本的长度的第一比值,确定最长公共连续文本中的值文本的长度与设定系数的乘积,基于第一比值与该乘积之和,确定第二控件文本的第一评分。
140.对于键值对文本,第二控件文本的第二评分的确定方式可以为:确定最长公共连续文本中的值文本的长度与第二控件文本的长度的第二比值,确定最长公共连续文本中的值文本的长度与设定系数的乘积,基于第二比值与该乘积之和,确定第二控件文本的第二评分。
141.示例性地,上述设定系数可以为0.1或0.01等。
142.根据上述实施方式,在控件文本中与语音识别文本共有的最长公共连续文本为键值对文本时,基于该键值对文本中的值文本的长度,以及语音识别文本的长度,对该控件文本进行评分。由于值文本对应的指令才有可能是语音识别文本对应的指令,利用值文本和语音识别文本这两者的长度来评估控件文本的评分,更为客观准确。
143.在一种实施方式中,基于第一控件文本集中的各控件文本的文本类型和长度,以及语音识别文本的长度,确定各控件文本的评分,包括:针对第一控件文本集中的第三控件文本,在第三控件文本中与语音识别文本共有的最长公共连续文本为非键值对文本的情况下,基于该最长公共连续文本的长度,以及语音识别文本的长度,确定第三控件文本的评分。
144.示例性地,第三控件文本的评分可以包括第一评分和第二评分中的至少一者。其中,第一评分用于评分最长公共连续文本与语音识别文本的相关程度,第二评分用于评估
最长公共连续文本与第三控件文本的相关程度。
145.对于非键值对文本,第三控件文本的第一评分的确定方式为:基于最长公共连续文本的长度与语音识别文本的长度的第三比值,确定第三控件文本的第一评分。
146.对于非键值对文本,第三控件文本的第二评分的确定方式为:基于最长公共连续文本的长度与第三控件文本的长度的第四比值,确定第三控件文本的第二评分。
147.根据上述实施方式,在控件文本中与语音识别文本共有的最长公共连续文本为非键值对文本时,基于最长公共连续文本的长度,以及语音识别文本的长度,确定控件文本的评分,可以准确地确定控件文本的评分,提高文本匹配的准确率。
148.在一种实施方式中,基于第一控件文本集中的各控件文本的评分,在第一控件文本集中筛选控件文本,得到第四控件文本集,包括:在第一控件文本集中,筛选评分满足第一评分条件且未包含在黑名单中的控件文本,得到第五控件文本集;基于第五控件文本集中的各控件文本的文本类型,在第五控件文本集中筛选控件文本,得到第四控件文本集。
149.示例性地,在第一控件文本集中,筛选评分满足第一评分条件且未包含在黑名单中的控件文本,得到第五控件文本集,包括:在第一控件文本集中,筛选第一评分满足第一评分条件且未包含在黑名单中的控件文本,得到第五控件文本集。
150.示例性地,第五控件文本集包括一个或多个控件文本。
151.例如,控件文本t1的第一评分为0.6分,其大于设定阈值0.5,并且控件文本t1未包含在黑名单中,则将控件文本t1添加在第五控件文本集中。
152.又如,控件文本t2的第一评分为0.4分,其小于设定阈值0.4,则丢弃控件文本t2,即不将控件文本t2添加在第五控件文本集中。
153.又如,控件文本t3的第一评分为0.7分,但控件文本t3包含在黑名单中,则将控件文本t3丢弃,即不将控件文本t2添加在第五控件文本集中。
154.示例性地,黑名单可以包括指定控件对应的控件文本。例如,“打开空调”的语音指令,按照常规的使用习惯,如果识别到该语音指令,直接对空调设备进行上电启动,而并不是针对触控界面中的空调控件进行点击并打开空调设置界面。因此,需要设置一些黑名单来过滤非触控指令。
155.根据上述实施方式,利用评分条件和黑名单来筛选控件文本,可以提高针对语音识别文本进行文本匹配的命中准确率,避免误识别。
156.在一种实施方式中,基于第五控件文本集中的各控件文本的文本类型,在第五控件文本集中筛选控件文本,得到第四控件文本集,包括:在第五控件文本集中,确定是否存在与语音识别文本共有的最长公共连续文本为键值对文本的第二控件文本;在第五控件文本集中存在第二控件文本的情况下,基于第五控件文本集中评分最高的第二控件文本,确定第四控件文本集。
157.示例性地,上述评分可以是指前述的第一评分也可以是第二评分。
158.在一种实施方式中,在第五控件文本集中不存在第二控件文本的情况下,基于第五控件文本集,确定第四控件文本集。
159.在上述实施方式中,在得到候选的第五控件文本集的情况下,如果第五控件文本集中包括键值对文本,则选择评分最高的键值对文本来确定第四控件文本集,否则选择整个第五控件文本集来确定第四控件文本集。
160.根据上述实施方式,利用键值对文本这个类别以及评分进一步对候选控件文本进行筛选,得到的第四控件文本集。这可以进一步地提高针对语音识别文本进行文本匹配的命中准确率。
161.在执行第一文本匹配策略得到第四控件文本集的方式二之后,对于确定第四控件文本集是否满足文本匹配的终止条件,其实施方式为:在第四控件文本集中存在满足第二评分条件的控件文本的情况下,确定第四控件文本集满足文本匹配的终止条件。
162.示例性地,在控件文本的评分包括第一评分和第二评分的情况下,第二评分条件为第一评分和第二评分均满足设定的评分阈值。例如,在第四控件文本集中包括第一评分大于0.5分且第二评分大于0.5分的控件文本的情况下,确定第四控件文本集满足文本匹配的终止条件。
163.根据上述实施方式,在执行长文本匹配策略时,如果匹配成功且匹配结果中包括评分满足设定条件的控件文本,则停止继续采用其他策略对语音识别文本进行文本匹配。由于已匹配成功且获得质量较高的控件文本,因而,不必继续进行匹配。这在保证命中准确率的前提下,节省文本匹配的时间,提高触控语音的响应效率。
164.图4是本公开另一实施例的文本匹配策略的流程图。
165.如图4所示,该文本匹配策略的执行过程,可以包括:
166.s401,接收语音识别文本q1。
167.s402,判断语音识别文本q1的长度是否大于或等于3。如果大于或等于3,则执行步骤s403,否则结束匹配。
168.s403,判断第一控件文本集中是否存在未匹配的控件文本。如果控件文本t1未与语音识别文本q1匹配过,则执行步骤s404。如果第一控件文本集中的控件文本均与语音识别文本q1匹配过,则提供第五控件文本集给仲裁单元,开始仲裁,即执行步骤s409。
169.s404,确定控件文本t1中与语音识别文本q1共有的最长公共连续文本lcs1。并且,计算控件文本t1的第一评分s1和第二评分s2。其中,第一评分为最长公共连续文本lcs1的长度与控件文本t1的长度的比值,第二评分为最长公共连续文本lcs1的长度与控件文本t1的长度的比值。
170.s405,判断最长公共连续文本lcs1是否为键值对文本。如果否,则执行步骤s407;如果是,则判断最长公共连续文本lcs1去除键文本后是否仅包括值文本。如果最长公共连续文本lcs1去除键文本后仅包括值文本,则执行步骤s406。如果最长公共连续文本lcs1去除键文本后不仅仅包括值文本,则执行步骤s407。
171.s406,计算最长公共连续文本lcs1中的值文本的长度与预设系数之间的乘积s3,并将控件文本t1的第一评分s1更新为第一评分s1与该乘积s3之和,将控件文本t1的第二评分s2更新为第二评分s2与该乘积s3之和。例如,预设系数为0.01。
172.s407,判断控件文本t1是否包含在黑名单中。如果控件文本t1包含在黑名单中,则丢弃控件文本t1,即在第五控件文本集中不添加控件文本t1,并返回执行步骤s403。如果控件文本t1不包含在黑名单中,则执行步骤s408。例如,黑名单中的每个文本由动词和名词组成。
173.s408,控件文本t1的第一评分s1是否大于0.5。如果是,则保留控件文本t1,即将控件文本t1添加在第五控件文本集中,并返回步骤s403;如果否,丢弃控件文本t1,并返回步
骤s403。
174.s409,初始化最高得分结果r1为零。
175.s410,在第五控件文本集中判断是否还有未仲裁的控件文本。如果存在未仲裁的控件文本t2,则执行步骤s411。如果不存在未仲裁的控件文本t2,则执行步骤s413。
176.s411,判断未仲裁的控件文本t2中与语音识别文本q1共有的最长公共连续文本lcs2是否为键值对文本。如果未仲裁的控件文本t2中与语音识别文本q1共有的最长公共连续文本lcs2为键值对文本,则执行步骤s412。如果未仲裁的控件文本t2中与语音识别文本q1共有的最长公共连续文本lcs2不为键值对文本,则返回执行步骤s410。
177.s412,判断未仲裁的控件文本t2的第一评分s1是否大于r1。如果未仲裁的控件文本t2的第一评分s1大于r1,则以第一评分s1更新r1,否则返回执行步骤s410。
178.s413,判断最高得分结果r1是否为零。如果最高得分结果r1不为零,则以最高得分结果r1为第四控件文本集。如果最高得分结果r1为零,则以第五控件文本集作为第四控件文本集。其中,第四控件文本集为本次文本匹配结果。
179.s414,结束匹配。
180.根据上述实施方式,针对文本较长的语音识别文本,采用上述策略进行模糊文本匹配,可以提高文本匹配的命中率以及准确率。
181.第三,执行第一文本匹配策略得到第四控件文本集的方式三,具体如下:
182.在一种实施方式中,基于第一文本匹配策略,在第一控件文本集中对语音识别文本进行文本匹配,得到第四控件文本集,包括:在第一控件文本集中,查找与语音识别文本相同的控件文本;在第一控件文本集中存在多个与语音识别文本相同的控件文本的情况下,基于多个与语音识别文本相同的控件文本中各控件文本的文本类型,在多个与语音识别文本相同的控件文本中,筛选文本类型为扫描文本的控件文本,得到第四控件文本集。
183.示例性地,控件文本的文本类型可以包括扫描文本和非扫描文本。
184.示例性地,上述执行第一文本匹配策略的过程可以称为短文本匹配策略。如果语音识别文本的长度小于设定阈值,则执行短文本匹配策略。如果语音识别文本的长度大于设定阈值,则跳过短文本匹配策略,并标识已执行短文本匹配策略。
185.示例性地,短文本匹配策略为在预设的多个文本匹配策略中优先级排列第三的策略。
186.示例性地,第一控件文本集可以为短文本匹配策略对应的注册文本集。
187.示例性地,基于第一控件文本集中的各个控件文本,可以构建控件文本树。从控件文本树中快速地查找与语音识别文本相同的分支。
188.根据上述实施方式,在查找到多个与语音识别文本相同的控件文本时,优选控件文本中的扫描文本为匹配结果。由于扫描文本是针对触控界面中的控件进行扫描而得到的文本,该文本相对于其他文本而言,对控件的描述更准确。因而,上述实施方式优选扫描文本为匹配结果,可以进一步提高命中准确率。
189.在一种实施方式中,在第一控件文本集中仅存在一个与语音识别文本相同的控件文本的情况下,基于该控件文本,确定第四控件文本集。
190.在该实施方式中,如果仅存在一个与语音识别相同的控件文本,则直接以该控件文本,确定第四控件文本集,使得文本匹配策略仍能得到一个匹配结果,减少后续继续匹配
的耗时。
191.在执行第一文本匹配策略得到第四控件文本集的方式三之后,对于确定第四控件文本集是否满足文本匹配的终止条件,其实施方式为:在第四控件文本集为非空的情况下,确定第四控件文本集满足文本匹配的终止条件。
192.根据上述实施方式,短文本匹配策略为,语音识别文本与控件文本相同,则确定命中。此命中要求较高,准确率高,不必继续进行后续匹配。因此,在保证命中准确率的前提下,上述实施方式可以节省匹配时间,提高语音触控指令的响应效率。
193.图5是本公开另一实施例的文本匹配策略的流程图。图6是本公开一实施例的控件文本树的结构图。
194.如图5和图6所示,该文本匹配策略的执行过程,可以包括:
195.s501,接收语音识别文本q1。例如,q1为点击蓝牙。
196.s502,判断控件文本树中是否还包含有与语音识别文本q1相同的控件文本分支t1。如果是,则执行步骤s503,如果否,则执行步骤s505。
197.s503,判断缓存单元中是否存在控件文本t2。如果存在,则执行步骤s504,如果不存在,则以控件文本t1更新缓存,即将控件文本t1添加在缓存中。
198.s504,判断缓存单元中的控件文本t2是否为非扫描文本。如果控件文本t2是非扫描文本,则以控件文本t1更新缓存,即以控件文本t1更新控件文本t2,并返回步骤s502。如果控件文本t2是扫描文本,则返回步骤s502。例如,图6中的分支“打开空调”有两个分支,其中一个是非扫描文本,另一个是扫描文本。
199.s505,判断缓存单元中是否存在控件文本。如果存在,则基于缓存单元中的控件文本,确定本次文本匹配结果中的控件文本,并且确定本次文本匹配结果为匹配成功。如果不存在,则确定本次文本匹配结果为匹配失败。其中,本次文本匹配结果为上述第四控件文本集。
200.s506,结束匹配。
201.根据上述实施方式,在对语音识别文本进行短文本匹配的过程中,优选扫描文本为匹配结果,可以进一步提高命中准确率。
202.第四,执行第一文本匹配策略得到第四控件文本集的方式四,具体如下:
203.在一种实施方式中,基于第一文本匹配策略,在第一控件文本集中对语音识别文本进行文本匹配,得到第四控件文本集,包括:基于第一文本匹配策略,确定对应的第一控件文本集;基于语音识别文本的字数以及第一控件文本集中各控件文本的字数,在第一控件文本集中筛选控件文本,得到第六控件文本集;基于语音识别文本中各字的拼音,以及第六控件文本集中各控件文本中的各字的拼音,在第六控件文本集中筛选控件文本,得到第四控件文本集。
204.示例性地,第六控件文本集包括一个或多个控件文本。第六控件文本集中的控件文本的字数与语音识别文本的字数相同。
205.示例性地,第四控件文本集中的控件文本中各字的拼音与对应在语音识别文本中的字的拼音相同。
206.示例性地,上述执行第一文本匹配策略的过程可以称为拼音匹配策略的执行过程。
207.示例性地,第一控件文本集为拼音匹配策略对应的注册文本集。
208.示例性地,第一文本匹配策略为在上述多个文本匹配策略中优先级排列第四的策略。
209.示例性地,对于控件文本t1,语音识别文本q1,如果q1与t1的字数均为n,对于i取值范围,其为从1到n的正整数,q1的第i个字的拼音均与t1的第i个字的拼音相同,则将控件文本t1添加在第四控件文本集中。
210.根据上述实施方式,采用拼音的方式来匹配语音识别文本和控件文本,可以进一步提高命中准确率。
211.在执行第一文本匹配策略得到第四控件文本集的方式四之后,对于确定第四控件文本集是否满足文本匹配的终止条件,其实施方式为:在第四控件文本集为非空的情况下,确定第四控件文本集满足文本匹配的终止条件。
212.根据上述实施方式,针对拼音匹配策略,在第一控件文本集中的控件文本均已执行匹配且得到命中的控件文本时,即可终止后续匹配。同样地,由于拼音匹配策略的命中准确率高,因而,上述实施方式,在保证命中准确率的前提下,可以节省匹配时间,提高语音触控指令的响应效率。
213.图7是本公开一实施例的文本匹配策略的流程图。
214.如图7所示,该文本匹配策略的执行过程,可以包括:
215.s701,接收语音识别文本q1。然后,在第一控件文本集中筛选字数与q1相同的控件文本,得到候选文本集。其中,q1的字数为n个。
216.s702,判断候选文本集中是否存在未匹配的控件文本。如果存在未匹配的控件文本t1,则设置i的初始值为1,并执行步骤s703。如果不存在未匹配的控件文本,则执行步骤s705。
217.s703,判断控件文本t1中的第i个字的拼音t1[i]与语音识别文本q1中的第i个字的拼音q1[i]是否相同。如果相同,则对i加一,并执行步骤s704。如果不相同,则返回步骤s702。
[0218]
s704,判断i是否等于n+1。如果等于,则将控件文本t1放入缓存单元中,并返回步骤s702。如果不等于,返回执行步骤s703。
[0219]
s705,判断缓存单元中是否存在控件文本。如果是,则确定本次匹配结果为匹配成功,如果不是,则确定本次匹配结果为匹配失败。
[0220]
s706,结束匹配。
[0221]
根据上述实施方式,采用拼音的方式来匹配语音识别文本和控件文本,可以进一步提高命中准确率。
[0222]
按照上述四种方式,在执行第一文本匹配策略得到第四控件文本集之后,基于第四控件文本集更新第三控件文本集的方式也可以有以下这两种:
[0223]
在一种实施方式中,基于第四控件文本集,更新第三控件文本集,包括:在第三控件文本集为非空的情况下,删除第三控件文本集中的控件文本,以使第三控件文本集变为空集。将第四控件文本集并入作为空集的第三控件文本集中。其中,在第三控件文本集为空的情况下,则直接将第四控件文本集并入第三控件文本集。
[0224]
示例性地,上述实施方式可以应用于上述执行第一文本匹配策略得到第四控件文
本集的方式一和方式三中。即,第四控件文本集为基于输入框匹配策略或短文本匹配策略,对语音识别文本进行文本匹配,所得到的结果。
[0225]
根据上述实施方式,针对输入框匹配策略和短文本匹配策略,如果得到本次匹配结果,则在第三控件文本集中删除所有控件文本,即删除历史匹配结果,再将本次匹配结果添加在第三控件文本集中。由于输入框匹配策略和短文本匹配策略的命中准确率高于其他策略,因而,删除其他策略所确定的匹配结果,以输入框匹配策略和短文本匹配策略的匹配结果作为候选结果,得到的结果更为准确率。
[0226]
在一种实施方式中,基于第四控件文本集,更新第三控件文本集,包括:在第三控件文本集中添加第四控件文本集中的控件文本。
[0227]
示例性地,上述实施方式可以应用于上述执行第一文本匹配策略得到第四控件文本集的方式二和方式四中。即,第四控件文本集为基于长文本匹配策略或拼音匹配策略,对语音识别文本进行文本匹配,所得到的结果。
[0228]
根据上述实施方式,由于输入框匹配策略和短文本匹配策略,相对于长文本匹配策略或拼音匹配策略的命中准确率更高一些,保留输入框匹配策略和短文本匹配策略的历史匹配结果于第三控件文本集中,可以提高后续仲裁时的命中准确率。
[0229]
在确定第四控件文本集满足文本匹配的终止条件时,输出第二控件文本集,以对第二控件文本集进行仲裁,得到目标控件文本。
[0230]
其中,对于确定第四控件文集是否满足文本匹配的终止条件的实施方式可以参考前述实施例中的介绍,在此不评述。
[0231]
在一种实施方式中,基于第二控件文本集,确定目标控件文本,包括:对第二控件文本集中的控件文本进行去重;基于去重后的第二控件文本集中各控件文本的文本类型,在第二控件文本集中,筛选文本类型为扫描文本的控件文本,得到目标控件文本。
[0232]
示例性地,文本类型可以包括扫描文本和非扫描文本。
[0233]
示例性地,去重包括对相同的控件文本进行去重。去重还可以包括对对应于同一个控件的不同控件文本进行去重。如果对应同一个控件的不同控件文本的文本类型分别为扫描文本和非扫描文本,则删除文本类型为非扫描文本的控件文本,保留文本类型为扫描文本的控件文本。
[0234]
示例性地,在去重后的第二控件文本集中不存在文本类型为扫描文本的控件文件,则在去重后的第二控件文本集中直接筛选控件文本,得到目标控件文本。
[0235]
根据上述实施方式,在终止匹配时得到的控件文本为多个的情况下,优选扫描文本作为目标控件文本。由于扫描文本是针对触控界面中的控件进行扫描而得到的,其准确程度较高,因而,在文本匹配过程中优选扫描文本作为目标控件文本,可以提高命中准确率。
[0236]
图8是本公开一实施例的仲裁方法的流程图。
[0237]
如图8所示,该仲裁方法,可以包括:
[0238]
s801,对第二控件文本集进行去重,得到列表l1。对列表l1进行分类,得到扫描文本列表l2和非扫描文本列表l3。其中,初始化是对列表进行清零。
[0239]
s802,判断缓存单元中是否存在匹配结果r1。其中,缓存单元用于缓存各个匹配单元执行文本匹配得到的控件文本。如果是,则执行步骤s803,否则,执行步骤s806。
[0240]
s803,判断列表l1中是否包含匹配结果r1。如果是,则返回执行步骤s802。否则,执行步骤s804。
[0241]
s804,判断匹配结果r1是否为扫描文本。例如,判断匹配结果r1的类型属性type中是否包含扫描标识符iov_scan。如果是,则匹配结果r1为扫描文本,将匹配结果r1存入列表l2;如果不是,则匹配结果r1为非扫描文本,将匹配结果r1存入列表l3。
[0242]
s805,将匹配结果r1存入列表l1,并返回步骤s802。
[0243]
s806,判断l2列表是否为空。如果是,则基于列表l3确定目标控件文本,如果否,则基于列表l2确定目标控件文本。
[0244]
s807,仲裁结束。
[0245]
根据上述实施方式,在终止匹配时,对多个候选匹配结果进行仲裁,并优选扫描文本作为目标控件文本,可以提高命中准确率。
[0246]
对于本公开实施例中的第一控件文本集,其为预先注册的控件文本集,每个控件文本对应一个控件。以下将介绍针对某个控件注册其控件文本于第一控件文本集中的实施例,具体如下:
[0247]
在一种实施方式中,上述方法还可以包括:响应于第一控件的注册请求,获取第一控件的控件信息;基于第一控件的控件信息,确定第一控件的控件文本;基于第一控件的控件文本,更新第一控件文本集。
[0248]
示例性地,对于上述获取第一控件的控件信息,包括以下之一:
[0249]
扫描第一控件所在的触控界面,得到第一控件的控件信息;
[0250]
在控件信息输入界面中获取第一控件的控件信息。
[0251]
示例性地,在扫描注册时,可以对触控界面中所有控件进行扫描,得到各控件的控件信息,基于各个控件的控件信息,确定各个控件的控件文本,基于各个控件的控件文本,更新触控界面对应的第一控件文本集。
[0252]
示例性地,显示控件信息输入界面,用户在控件信息输入界面中输入对应控件的控件信息。
[0253]
示例性地,控件信息可以包括控件类型、控件描述文本和控件描述文本的字数等。
[0254]
在一种实施方式中,基于第一控件的控件信息,确定第一控件的控件文本,包括:基于第一控件的控件类型,以及第一控件的控件描述文本的字数,调整第一控件的控件描述文本,得到第一控件的控件文本。
[0255]
示例性地,第一控件的控件文本,可以按照以下方式确定:
[0256]
在第一控件的控件类型为非输入框控件、并且控件描述文本的字数小于设定阈值的情况下,基于第一控件的控件描述文本,以及预设的前缀词和/或后缀词,确定第一控件的控件文本;
[0257]
在第一控件的控件类型为非输入框控件、并且控件描述文本的字数大于设定阈值的情况下,基于第一控件的控件描述文本,确定第一控件的控件文本;
[0258]
在第一控件的控件类型为输入框控件的情况下,基于前缀词输入和控件描述文本,确定第一控件的控件文本;
[0259]
在第一控件的控件类型为选择控件的情况下,基于控件描述文本,确定第一控件的控件文本;
[0260]
在第一控件的控件类型为非选择控件、并且控件描述文本为纯数字的情况下,基于预设的文本拓展方式,对控件描述文本进行拓展,得到第一控件的控件文本。
[0261]
根据上述实施方式,基于第一控件的控件类型、控件描述文本及其长度,调整第一控件的控件文本,以注册在对应的第一控件文本集中。在后续应用时,基于第一控件文本集,对语音识别文本进行文本匹配时,可以提高命中准确率。
[0262]
在一种实施方式中,不同文本匹配策略可以对应不同的第一控件文本集,即注册文本集。因而,上述方法还可以包括:基于第一控件的控件信息,在多个文本匹配策略中确定第三文本匹配策略;基于第三文本匹配策略,确定对应的第一控件文本集。从而,在第三文本匹配策略对应的第一控件文本集中添加第一控件的控件文本。
[0263]
示例性地,上述实施方式可以有以下示例:
[0264]
在第一控件的控件类型为输入框控件的情况下,在输入框匹配策略对应的第一控件文本集中添加第一控件的控件文本。
[0265]
在第一控件的控件类型为选择控件的情况下,在长文本匹配策略对应的第一控件文本集中添加第一控件的控件文本。
[0266]
在第一控件的控件类型为非选择控件、并且控件描述文本为纯数字的情况下,在长文本匹配策略对应的第一控件文本集中添加第一控件的控件文本。
[0267]
在第一控件的控件类型为非输入框控件、并且控件描述文本的字数小于设定阈值的情况下,在短文本匹配策略对应的第一控件文本集中添加第一控件的控件文本。
[0268]
在第一控件的控件类型为非输入框控件、并且控件描述文本的字数大于设定阈值的情况下,在长文本匹配策略对应的第一控件文本集中添加第一控件的控件文本。
[0269]
在第一控件的控件文本为中文文本的情况下,在拼音匹配策略对应的第一控件文本集中添加第一控件的控件文本。
[0270]
根据上述实施方式,基于第一控件的控件类型、控件描述文本及其长度,确定第一控件的控件文本可采用文本匹配策略,进而在该策略对应的第一控件文本集中添加第一控件的控件文本。在后续应用时,采用文本匹配策略对应的第一控件文本集,对语音识别文本进行文本匹配时,可以提高命中准确率。
[0271]
图9是本公开一实施例的控件文本注册方法的流程图。
[0272]
如图9所示,控件文本注册方法,可以包括:
[0273]
s901,对触控界面进行扫描,得到触控界面中的各控件的控件信息。其中,每个控件的控件信息包括控件类型、控件描述文本及其字数。
[0274]
s902,基于控件类型,判断控件是否为输入框控件。如果控件为输入框控件,判断控件是否为默认输入框控件,以及判断是否只有一个输入框控件。如果控件为默认输入框控件且触控界面只有一个输入框控件,则按照默认输入框控件方式注册控件的控件文本。如果控件为输入框控件且触控界面包括多个输入框控件,或者不是默入输入框控件,则按照非默认输入框控件方式注册控件的控件文本。
[0275]
其中,按照默认输入框控件方式注册控件的控件文本为,按照这种方式调整控件描述文本,得到控件文本,并添加在输入框控件对应的注册文本集中。按照非默认输入框控件方式注册控件的控件文本为,按照这种方式调整控件描述文本,得到控件文本,并添加在输入框控件对应的注册文本集中。
[0276]
s903,基于控件类型,判断控件是否为选择控件。如果控件为选择控件,则以控件描述文本为控件文本,并按照长文本注册方式注册控件文本,即在长文本匹配策略对应的注册文本集中添加控件文本。
[0277]
如果控件为非选择控件且控件描述文本为纯数字,则对控件描述文本进行拓展,得到控件文本。然后,按照长文本注册方式注册控件文本,即在长文本匹配策略对应的注册文本集中添加控件文本。例如,控件描述文本为1,则拓展后的控件文本为第一个、第一集、第一张或第一条等。
[0278]
如果控件为非选择控件且控件字数不是纯数字,则跳过,即结束该控件的注册。
[0279]
s904,如果控件不是输入框控件,判断控件描述文本的字数是否大于2。如果小于或等于2,则对控件描述文本描述添加前缀词和/或后缀词,得到控件文本,并按照短文本注册方式注册控件文本,即在短文本匹配策略对应的注册文本集中添加控件文本。而且,在一些实施例中,基于更新后的注册文本集对控件文本树进行更新。如果大于2,则以控件描述文本为控件文本,并按照长文本注册方式注册控件文本,即在长文本匹配策略对应的注册文本集中添加控件文本。
[0280]
例如,控件描述文本为“蓝牙”,添加前缀词“点击”后,得到控件文本“点击蓝牙”。
[0281]
s905,如果控件类型为非输入框控件,判断控件描述文本是否为中文本本。如果控件描述文本为中文文本,则以控件描述文本为控件文本。并且,按照拼音方式注册控件文本,即在拼音匹配策略对应的注册文本集中添加控件文本。
[0282]
在完成上述步骤之后,则结束该控件的注册。
[0283]
根据上述实施方式,基于控件的描述文本及其字数、以及控件类型,对控件进行注册,并更新注册文本集。在后续应用时,采用这样的注册文本集,对语音识别文本进行文本匹配,可以提高命中准确率。
[0284]
图10是本公开一实施例的语音控制装置的结构框图。
[0285]
如图10所示,该语音控制装置,包括:
[0286]
语音识别模块1010,用于基于触控语音,得到语音识别文本;
[0287]
文本匹配模块1020,用于基于预设的多个文本匹配策略,以及文本匹配的终止条件,在第一控件文本集中对所述语音识别文本进行文本匹配,得到第二控件文本集;
[0288]
文本筛选模块1030,用于基于所述第二控件文本集,确定目标控件文本;
[0289]
触控操作模块1040,用于基于所述目标控件文本对应的触控指令,对所述目标控件文本对应的目标控件进行触控操作。
[0290]
图11是本公开另一实施例的语音控制装置的结构框图。
[0291]
其中,图11中的语音识别模块1110、文本匹配模块1120、文本筛选模块1130、触控操作模块1140和对应在图10中的语音识别模块1010、文本匹配模块1020、文本筛选模块1030、触控操作模块1040功能相同,在此不详述。
[0292]
在一些实施方式,如图11所示,所述文本匹配模块1120,包括:
[0293]
初始化单元1121,用于设置初始的第三控件文本集为空集;
[0294]
策略确定单元1122,用于基于所述多个文本匹配策略中的未执行策略中各策略的优先级,在所述未执行策略中确定第一文本匹配策略;
[0295]
策略执行单元1123,用于基于所述第一文本匹配策略,执行以下第一操作:基于所
述第一文本匹配策略,在第一控件文本集中对所述语音识别文本进行文本匹配,得到第四控件文本集,并基于所述第四控件文本集,更新所述第三控件文本集;
[0296]
文本集确定单元1124,用于在所述第四控件文本集满足所述文本匹配的终止条件的情况下,基于更新后的所述第三控件文本集,确定所述第二控件文本集
[0297]
示例性地,其中,所述策略执行单元还用于设置所述第一文本匹配策略为已执行策略,上述文本匹配模块1120还可以包括:
[0298]
策略重新确定单元1125,用于在所述第四控件文本集未满足所述文本匹配的终止条件的情况下,基于所述多个文本匹配策略中的未执行策略中各策略的优先级,在所述未执行策略中重新确定所述第一文本匹配策略;
[0299]
循环匹配单元1126,用于基于重新确定的所述第一文本匹配策略,返回继续执行所述第一操作。
[0300]
示例性地,所述策略执行单元1123,具体用于:
[0301]
基于所述第一文本匹配策略,确定对应的第一控件文本集;
[0302]
针对所述第一控件文本集中的第一控件文本,基于所述第一控件文本对应的控件所受控的触控动作,确定第一文本中的前缀动词,并基于所述第一控件文本的词义,确定所述第一文本中的提示词;
[0303]
在所述语音识别文本中包括所述第一文本和第二文本、并且所述第一文本在所述第二文本之前的情况下,在所述第四控件文本集中添加所述第一控件文本,并关联所述第一控件文本和所述第二文本,其中,所述第二文本用于确定所述第一控件文本对应的触控指令。
[0304]
示例性地,所述触控操作模块1140,具体用于:
[0305]
在所述目标控件文本为所述第一控件文本、并且所述第一控件文本对应的控件为输入框控件的情况下,在所述第一控件文本对应的输入框控件中显示所述第二文本。
[0306]
示例性地,所述第一文本匹配策略为所述多个文本匹配策略中优先级最高的策略。
[0307]
示例性地,所述策略执行单元1123,具体用于:
[0308]
基于所述第一文本匹配策略,确定对应的第一控件文本集;
[0309]
基于所述第一控件文本集中的各控件文本的文本类型和长度,以及所述语音识别文本的长度,确定各控件文本的评分;
[0310]
基于所述第一控件文本集中的各控件文本的文本类型和评分,在所述第一控件文本集中筛选控件文本,得到所述第四控件文本集。
[0311]
示例性地,所述基于所述第一控件文本集中的各控件文本的文本类型和长度,以及所述语音识别文本的长度,确定各控件文本的评分,包括:
[0312]
针对所述第一控件文本集中的第二控件文本,在所述第二控件文本中与所述语音识别文本共有的最长公共连续文本为键值对文本的情况下,基于该最长公共连续文本中的值文本的长度,以及所述语音识别文本的长度,确定所述第二控件文本的评分。
[0313]
示例性地,所述基于所述第一控件文本集中的各控件文本的文本类型和长度,以及所述语音识别文本的长度,确定各控件文本的评分,包括:
[0314]
针对所述第一控件文本集中的第三控件文本,在所述第三控件文本中与所述语音
识别文本共有的最长公共连续文本为非键值对文本的情况下,基于该最长公共连续文本的长度,以及所述语音识别文本的长度,确定所述第三控件文本的评分。
[0315]
示例性地,所述基于所述第一控件文本集中的各控件文本的文本类型和评分,在所述第一控件文本集中筛选控件文本,得到所述第四控件文本集,包括:
[0316]
在所述第一控件文本集中,筛选评分满足第一评分条件且未包含在黑名单中的控件文本,得到第五控件文本集;
[0317]
基于所述第五控件文本集中的各控件文本的文本类型,在所述第五控件文本集中筛选控件文本,得到所述第四控件文本集。
[0318]
示例性地,所述基于所述第五控件文本集中的各控件文本的文本类型,在所述第五控件文本集中筛选控件文本,得到所述第四控件文本集,包括:
[0319]
在所述第五控件文本集中,确定是否存在与所述语音识别文本共有的最长公共连续文本为键值对文本的第二控件文本;
[0320]
在所述第五控件文本集中存在所述第二控件文本的情况下,基于所述第五控件文本集中评分最高的所述第二控件文本,确定所述第四控件文本集。
[0321]
示例性地,在所述第五控件文本集中不存在所述第二控件文本的情况下,基于所述第五控件文本集,确定所述第四控件文本集。
[0322]
示例性地,上述装置还包括:
[0323]
示例性地,所述第一文本匹配策略为所述多个文本匹配策略中优先级排列第二的策略。
[0324]
示例性地,所述策略执行单元1123,具体用于:
[0325]
基于所述第一文本匹配策略,确定对应的第一控件文本集;
[0326]
在所述第一控件文本集中,查找与所述语音识别文本相同的控件文本;
[0327]
在所述第一控件文本集中存在多个与所述语音识别文本相同的控件文本的情况下,基于所述多个与所述语音识别文本相同的控件文本中各控件文本的文本类型,在所述多个与所述语音识别文本相同的控件文本中,筛选文本类型为扫描文本的控件文本,得到所述第四控件文本集。
[0328]
示例性地,所述策略执行单元1123,还用于:
[0329]
在所述第一控件文本集中仅存在一个与所述语音识别文本相同的控件文本的情况下,基于该控件文本,确定所述第四控件文本集。
[0330]
示例性地,所述第一文本匹配策略为所述多个文本匹配策略中优先级排列第三的策略。
[0331]
示例性地,所述策略执行单元1123,具体用于:
[0332]
基于所述第一文本匹配策略,确定对应的第一控件文本集;
[0333]
基于所述语音识别文本的字数以及所述第一控件文本集中各控件文本的字数,在所述第一控件文本集中筛选控件文本,得到第六控件文本集;
[0334]
基于所述语音识别文本中各字的拼音,以及所述第六控件文本集中各控件文本中的各字的拼音,在所述第六控件文本集中筛选控件文本,得到所述第四控件文本集。
[0335]
示例性地,所述第六控件文本集中的控件文本的字数与所述语音识别文本的字数相同,所述第四控件文本集中的控件文本中各字的拼音与对应在所述语音识别文本中的字
的拼音相同。
[0336]
示例性地,所述第一文本匹配策略为所述多个文本匹配策略中优先级排列第四的策略。
[0337]
示例性地,所述策略执行单元1123,具体用于:
[0338]
在所述第三控件文本集为非空的情况下,删除所述第三控件文本集中的控件文本,以使所述第三控件文本集变为空集;
[0339]
将所述第四控件文本集并入作为空集的所述第三控件文本集中。
[0340]
示例性地,所述策略执行单元1123,具体用于:
[0341]
将所述第四控件文本集并入所述第三控件文本集中。
[0342]
示例性地,上述文本匹配模块1120还包括:
[0343]
第一终止单元1127,用于在所述第四控件文本集为非空的情况下,确定所述第四控件文本集满足所述文本匹配的终止条件。
[0344]
示例性地,上述装置还包括:
[0345]
第二终止单元1128,用于在所述第四控件文本集中存在满足第二评分条件的控件文本的情况下,确定所述第四控件文本集满足所述文本匹配的终止条件。
[0346]
示例性地,所述文本筛选模块1130,包括:
[0347]
去重单元1131,对所述第二控件文本集中的控件文本进行去重;
[0348]
目标文本确定单元1132,用于基于去重后的第二控件文本集中各控件文本的文本类型,在所述第二控件文本集中,筛选文本类型为扫描文本的控件文本,得到目标控件文本。
[0349]
示例性地,上述装置还包括:
[0350]
控件信息获取模块1150,用于响应于第一控件的注册请求,获取所述第一控件的控件信息;
[0351]
控件文本确定模块1160,用于基于所述第一控件的控件信息,确定所述第一控件的控件文本;
[0352]
注册文本集更新模块1170,用于基于所述第一控件的控件文本,更新所述第一控件文本集。
[0353]
示例性地,所述控件信息获取模块1150,包括:
[0354]
扫描单元1151,用于扫描所述第一控件所在的触控界面,得到所述第一控件的控件信息;
[0355]
输入单元1152,用于在控件信息输入界面中获取所述第一控件的控件信息;
[0356]
其中,所述控件信息包括控件类型、控件描述文本和所述控件描述文本的字数。
[0357]
示例性地,所述控件文本确定模块1160,具体用于:
[0358]
基于所述第一控件的控件类型,以及所述第一控件的控件描述文本的字数,调整所述第一控件的控件描述文本,得到所述第一控件的控件文本。
[0359]
示例性地,上述装置还可以包括:
[0360]
策略确定模块1180,用于基于所述第一控件的控件信息,在所述多个文本匹配策略中确定第三文本匹配策略;
[0361]
文本集确定模块1190,用于基于所述第三文本匹配策略,确定对应的所述第一控
件文本集。
[0362]
本公开实施例的装置的各模块、子模块的具体功能和示例的描述,可以参见上述方法实施例中对应步骤的相关描述,在此不再赘述。
[0363]
本公开的技术方案中,所涉及的用户个人信息的获取,存储和应用等,均符合相关法律法规的规定,且不违背公序良俗。
[0364]
根据本公开的实施例,本公开还提供了一种电子设备、一种车辆、一种可读存储介质和一种计算机程序产品。
[0365]
图12示出了可以用来实施本公开的实施例的示例电子设备1200的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字助理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
[0366]
如图12所示,设备1200包括计算单元1201,其可以根据存储在只读存储器(rom)1202中的计算机程序或者从存储单元1208加载到随机访问存储器(ram)1203中的计算机程序,来执行各种适当的动作和处理。在ram 1203中,还可存储设备1200操作所需的各种程序和数据。计算单元1201、rom 1202以及ram 1203通过总线1204彼此相连。输入/输出(i/o)接口1205也连接至总线1204。
[0367]
设备1200中的多个部件连接至i/o接口1205,包括:输入单元1206,例如键盘、鼠标等;输出单元1207,例如各种类型的显示器、扬声器等;存储单元1208,例如磁盘、光盘等;以及通信单元1209,例如网卡、调制解调器、无线通信收发机等。通信单元1209允许设备1200通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
[0368]
计算单元1201可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1201的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。计算单元1201执行上文所描述的各个方法和处理,例如一种语音控制方法。例如,在一些实施例中,一种语音控制方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元1208。在一些实施例中,计算机程序的部分或者全部可以经由rom 1202和/或通信单元1209而被载入和/或安装到设备1200上。当计算机程序加载到ram 1203并由计算单元1201执行时,可以执行上文描述的一种语音控制方法的一个或多个步骤。备选地,在其他实施例中,计算单元1201可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行一种语音控制方法。
[0369]
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、现场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、负载可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该
至少一个输出装置。
[0370]
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
[0371]
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
[0372]
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,crt(阴极射线管)或者lcd(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入、或者触觉输入)来接收来自用户的输入。
[0373]
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(lan)、广域网(wan)和互联网。
[0374]
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。
[0375]
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
[0376]
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
技术特征:
1.一种语音控制方法,包括:基于触控语音,得到语音识别文本;基于预设的多个文本匹配策略,以及文本匹配的终止条件,在第一控件文本集中对所述语音识别文本进行文本匹配,得到第二控件文本集;基于所述第二控件文本集,确定目标控件文本;基于所述目标控件文本对应的触控指令,对所述目标控件文本对应的目标控件进行触控操作。2.根据权利要求1所述的方法,其中,所述基于预设的多个文本匹配策略,以及文本匹配的终止条件,在第一控件文本集中对所述语音识别文本进行文本匹配,得到第二控件文本集,包括:设置初始的第三控件文本集为空集;基于所述多个文本匹配策略中的未执行策略中各策略的优先级,在所述未执行策略中确定第一文本匹配策略;基于所述第一文本匹配策略,执行以下第一操作:基于所述第一文本匹配策略,在第一控件文本集中对所述语音识别文本进行文本匹配,得到第四控件文本集,并基于所述第四控件文本集,更新所述第三控件文本集;在所述第四控件文本集满足所述文本匹配的终止条件的情况下,基于更新后的所述第三控件文本集,确定所述第二控件文本集。3.根据权利要求2所述的方法,其中,所述第一操作还包括:设置所述第一文本匹配策略为已执行策略,所述方法还包括:在所述第四控件文本集未满足所述文本匹配的终止条件的情况下,基于所述多个文本匹配策略中的未执行策略中各策略的优先级,在所述未执行策略中重新确定所述第一文本匹配策略;基于重新确定的所述第一文本匹配策略,返回继续执行所述第一操作
。
4.根据权利要求2或3所述的方法,其中,所述基于所述第一文本匹配策略,在第一控件文本集中对所述语音识别文本进行文本匹配,得到第四控件文本集,包括:基于所述第一文本匹配策略,确定对应的第一控件文本集;针对所述第一控件文本集中的第一控件文本,基于所述第一控件文本对应的控件所受控的触控动作,确定第一文本中的前缀动词,并基于所述第一控件文本的词义,确定所述第一文本中的提示词;在所述语音识别文本中包括所述第一文本和第二文本、并且所述第一文本在所述第二文本之前的情况下,在所述第四控件文本集中添加所述第一控件文本,并关联所述第一控件文本和所述第二文本,其中,所述第二文本用于确定所述第一控件文本对应的触控指令。5.根据权利要求4所述的方法,其中,所述基于所述目标控件文本对应的触控指令,对所述目标控件文本对应的目标控件进行触控操作,包括:在所述目标控件文本为所述第一控件文本、并且所述第一控件文本对应的控件为输入框控件的情况下,在所述第一控件文本对应的输入框控件中显示所述第二文本。6.根据权利要求4或5所述的方法,其中,所述第一文本匹配策略为所述多个文本匹配策略中优先级最高的策略。
7.根据权利要求2或3所述的方法,其中,所述基于所述第一文本匹配策略,在第一控件文本集中对所述语音识别文本进行文本匹配,得到第四控件文本集,包括:基于所述第一文本匹配策略,确定对应的第一控件文本集;基于所述第一控件文本集中的各控件文本的文本类型和长度,以及所述语音识别文本的长度,确定各控件文本的评分;基于所述第一控件文本集中的各控件文本的文本类型和评分,在所述第一控件文本集中筛选控件文本,得到所述第四控件文本集。8.根据权利要求7所述的方法,其中,所述基于所述第一控件文本集中的各控件文本的文本类型和长度,以及所述语音识别文本的长度,确定各控件文本的评分,包括:针对所述第一控件文本集中的第二控件文本,在所述第二控件文本中与所述语音识别文本共有的最长公共连续文本为键值对文本的情况下,基于该最长公共连续文本中的值文本的长度,以及所述语音识别文本的长度,确定所述第二控件文本的评分。9.根据权利要求7所述的方法,其中,所述基于所述第一控件文本集中的各控件文本的文本类型和长度,以及所述语音识别文本的长度,确定各控件文本的评分,包括:针对所述第一控件文本集中的第三控件文本,在所述第三控件文本中与所述语音识别文本共有的最长公共连续文本为非键值对文本的情况下,基于该最长公共连续文本的长度,以及所述语音识别文本的长度,确定所述第三控件文本的评分。10.根据权利要求7所述的方法,其中,所述基于所述第一控件文本集中的各控件文本的文本类型和评分,在所述第一控件文本集中筛选控件文本,得到所述第四控件文本集,包括:在所述第一控件文本集中,筛选评分满足第一评分条件且未包含在黑名单中的控件文本,得到第五控件文本集;基于所述第五控件文本集中的各控件文本的文本类型,在所述第五控件文本集中筛选控件文本,得到所述第四控件文本集。11.根据权利要求10所述的方法,其中,所述基于所述第五控件文本集中的各控件文本的文本类型,在所述第五控件文本集中筛选控件文本,得到所述第四控件文本集,包括:在所述第五控件文本集中,确定是否存在与所述语音识别文本共有的最长公共连续文本为键值对文本的第二控件文本;在所述第五控件文本集中存在所述第二控件文本的情况下,基于所述第五控件文本集中评分最高的所述第二控件文本,确定所述第四控件文本集。12.根据权利要求11所述的方法,其中,还包括:在所述第五控件文本集中不存在所述第二控件文本的情况下,基于所述第五控件文本集,确定所述第四控件文本集。13.根据权利要求7-12中任一项所述的方法,其中,所述第一文本匹配策略为所述多个文本匹配策略中优先级排列第二的策略。14.根据权利要求2或3所述的方法,其中,所述基于第一文本匹配策略,在第一控件文本集中对所述语音识别文本进行文本匹配,得到第四控件文本集,包括:基于所述第一文本匹配策略,确定对应的第一控件文本集;在所述第一控件文本集中,查找与所述语音识别文本相同的控件文本;
在所述第一控件文本集中存在多个与所述语音识别文本相同的控件文本的情况下,基于所述多个与所述语音识别文本相同的控件文本中各控件文本的文本类型,在所述多个与所述语音识别文本相同的控件文本中,筛选文本类型为扫描文本的控件文本,得到所述第四控件文本集。15.根据权利要求14所述的方法,还包括:在所述第一控件文本集中仅存在一个与所述语音识别文本相同的控件文本的情况下,基于该控件文本,确定所述第四控件文本集。16.根据权利要求14或15所述的方法,其中,所述第一文本匹配策略为所述多个文本匹配策略中优先级排列第三的策略。17.根据权利要求2或3所述的方法,其中,所述基于第一文本匹配策略,在第一控件文本集中对所述语音识别文本进行文本匹配,得到第四控件文本集,包括:基于所述第一文本匹配策略,确定对应的第一控件文本集;基于所述语音识别文本的字数以及所述第一控件文本集中各控件文本的字数,在所述第一控件文本集中筛选控件文本,得到第六控件文本集;基于所述语音识别文本中各字的拼音,以及所述第六控件文本集中各控件文本中的各字的拼音,在所述第六控件文本集中筛选控件文本,得到所述第四控件文本集。18.根据权利要求17所述的方法,其中,所述第六控件文本集中的控件文本的字数与所述语音识别文本的字数相同,所述第四控件文本集中的控件文本中各字的拼音与对应在所述语音识别文本中的字的拼音相同。19.根据权利要求17或18所述的方法,其中,所述第一文本匹配策略为所述多个文本匹配策略中优先级排列第四的策略。20.根据权利要求4-6和14-16中任一项所述的方法,其中,所述基于第四控件文本集,更新所述第三控件文本集,包括:在所述第三控件文本集为非空的情况下,删除所述第三控件文本集中的控件文本,以使所述第三控件文本集变为空集;将所述第四控件文本集并入作为空集的所述第三控件文本集中。21.根据权利要求7-13和17-19中任一项所述的方法,其中,所述基于所述第四控件文本集,更新所述第三控件文本集,包括:将所述第四控件文本集并入所述第三控件文本集中。22.根据权利要求4-6和14-19中任一项所述的方法,还包括:在所述第四控件文本集为非空的情况下,确定所述第四控件文本集满足所述文本匹配的终止条件。23.根据权利要求7-13中任一项所述的方法,还包括:在所述第四控件文本集中存在满足第二评分条件的控件文本的情况下,确定所述第四控件文本集满足所述文本匹配的终止条件。24.根据权利要求1-23中任一项所述的方法,其中,所述基于所述第二控件文本集,确定目标控件文本,包括:对所述第二控件文本集中的控件文本进行去重;基于去重后的第二控件文本集中各控件文本的文本类型,在所述第二控件文本集中,
筛选文本类型为扫描文本的控件文本,得到目标控件文本。25.根据权利要求1-3中任一项所述的方法,还包括:响应于第一控件的注册请求,获取所述第一控件的控件信息;基于所述第一控件的控件信息,确定所述第一控件的控件文本;基于所述第一控件的控件文本,更新所述第一控件文本集。26.根据权利要求25所述的方法,其中,所述获取所述第一控件的控件信息,包括以下之一:扫描所述第一控件所在的触控界面,得到所述第一控件的控件信息;在控件信息输入界面中获取所述第一控件的控件信息;其中,所述控件信息包括控件类型、控件描述文本和所述控件描述文本的字数。27.根据权利要求25或26所述的方法,其中,所述基于所述第一控件的控件信息,确定所述第一控件的控件文本,包括:基于所述第一控件的控件类型,以及所述第一控件的控件描述文本的字数,调整所述第一控件的控件描述文本,得到所述第一控件的控件文本。28.根据权利要求25-27中任一项所述的方法,还包括:基于所述第一控件的控件信息,在所述多个文本匹配策略中确定第二文本匹配策略;基于所述第二文本匹配策略,确定对应的所述第一控件文本集。29.一种语音控制装置,包括:语音识别模块,用于基于触控语音,得到语音识别文本;文本匹配模块,用于基于预设的多个文本匹配策略,以及文本匹配的终止条件,在第一控件文本集中对所述语音识别文本进行文本匹配,得到第二控件文本集;文本筛选模块,用于基于所述第二控件文本集,确定目标控件文本;触控操作模块,用于基于所述目标控件文本对应的触控指令,对所述目标控件文本对应的目标控件进行触控操作。30.根据权利要求29所述的装置,其中,所述文本匹配模块,包括:初始化单元,用于设置初始的第三控件文本集为空集;策略确定单元,用于基于所述多个文本匹配策略中的未执行策略中各策略的优先级,在所述未执行策略中确定第一文本匹配策略;策略执行单元,用于基于所述第一文本匹配策略,执行以下第一操作:基于所述第一文本匹配策略,在第一控件文本集中对所述语音识别文本进行文本匹配,得到第四控件文本集,并基于所述第四控件文本集,更新所述第三控件文本集;文本集确定单元,用于在所述第四控件文本集满足所述文本匹配的终止条件的情况下,基于更新后的所述第三控件文本集,确定所述第二控件文本集。31.根据权利要求30所述的装置,其中,所述策略执行单元还用于设置所述第一文本匹配策略为已执行策略,所述装置还包括:策略重新确定单元,用于在所述第四控件文本集未满足所述文本匹配的终止条件的情况下,基于所述多个文本匹配策略中的未执行策略中各策略的优先级,在所述未执行策略中重新确定所述第一文本匹配策略;循环匹配单元,用于基于重新确定的所述第一文本匹配策略,返回继续执行所述第一
操作。32.一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-28中任一项所述的方法。33.一种车辆,包括权利要求32所述的电子设备。34.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-28中任一项所述的方法。35.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-28中任一项所述的方法。
技术总结
本公开提供了一种语音控制方法、装置、电子设备、车辆和存储介质,涉及人工智能技术领域,尤其涉及语音识别以及文本匹配领域。具体实现方案为:基于触控语音,得到语音识别文本;基于预设的多个文本匹配策略,以及文本匹配的终止条件,在第一控件文本集中对所述语音识别文本进行文本匹配,得到第二控件文本集;基于所述第二控件文本集,确定目标控件文本;基于所述目标控件文本对应的触控指令,对所述目标控件文本对应的控件进行触控操作。采用本公开的技术方案,可以采用文本匹配的方式对语音进行识别,提高语音指令的响应速度。提高语音指令的响应速度。提高语音指令的响应速度。
技术研发人员:刘嵘 欧阳能钧 华鲸州 刘卫
受保护的技术使用者:阿波罗智能技术(北京)有限公司
技术研发日:2023.06.09
技术公布日:2023/9/23
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
