用于集成听觉和非听觉输入的自适应语音识别系统和方法与流程

未命名 09-16 阅读：125 评论：0

1.本公开涉及用于集成听觉和非听觉输入的自适应语音识别系统和方法。

背景技术：

2.该引言大致介绍了本公开的上下文内容。在该引言中描述的范围内，当前命名的发明人的工作，以及在提交申请时可能不符合现有技术的描述的方面，既不明确地也不暗示地承认为针对本公开的现有技术。
3.一些交通载具包括语音识别系统。在这些交通载具中，用户可以说出词或短语，语音识别系统会相应地识别出所说的词或短语。一旦识别说出的词，交通载具或另一装置就可以执行特定任务。
4.公开内容
5.虽然语音识别系统在交通载具和其它装置中非常有用，但当用户具有语音障碍、口音或其它与语音相关的特殊需要时，识别语音可能具有挑战性。因此，开发一种考虑到用户的特定语音相关的特殊需要以提高每个特定用户的语音识别质量的语音识别系统和方法是非常有用的。
6.本公开描述了将听觉输入(即，可听数据)和非听觉输入(即，用户数据)用于语音识别的语音识别系统和方法。通过融合听觉输入(即，可听数据)和非听觉输入(即，用户数据)，语音识别系统提高了语音识别的质量。这样，语音识别系统可以识别特定用户的听觉和非听觉语音模式。例如，当前公开的系统可以使用用户的话语(即，听觉输入)和该特定用户的面部表情(facial cues)的图像(即，非听觉输入)来确定用户说出的词，从而在用户具有语音相关的特殊需要时，提高系统的语音识别质量。
7.在本公开的一方面中，语音识别方法包括接收可听数据和用户数据。可听数据包括关于用户发出的话语的信息。用户数据包括关于用户做出的移动的信息。该方法还包括融合可听数据和用户数据以获得经融合的数据，并且基于经融合的数据来确定话语的至少一个说出的词。可以使用不同的技术来进行数据融合，例如数据贝叶斯网络(data bayesian network)、dempster-shafer理论(dempster-shafer theory)、贝叶斯滤波器(bayesian filter)和/或神经网络。
8.在本公开的一方面中，语音识别方法还包括将微调之后的用户配置文件存储在基于云的系统中。用户配置文件包括针对用户的个性化语音识别系统的具体参数。语音识别方法还可以包括一旦用户进入交通载具，就向交通载具发送用户配置文件，并且利用个性化语音识别系统来处理可听数据和用户数据。
9.在本公开的一方面中，确定话语的至少一个说出的词的步骤包括使用经训练的神经网络来确定话语的一个或多个说出的词。
10.在本公开的一方面中，方法还包括基于经融合的数据来微调经训练的神经网络以适应用户的语音模式。
11.在本公开的一方面中，通过交通载具的麦克风接收可听数据。
12.在本公开的一方面中，通过移动装置的麦克风接收可听数据。
13.在本公开的一方面中，通过交通载具的摄像头接收用户数据。
14.在本公开的一方面中，通过移动装置的摄像头接收用户数据。
15.在本公开的一方面中，用户数据包括用户的面部表情的至少一幅图像。
16.在本公开的一方面中，用户数据包括用户的嘴唇的至少一幅图像。
17.在本公开的一方面中，分别通过移动装置的摄像头和麦克风来接收用户数据和可听数据。方法还包括将用户数据和可听数据从移动装置发送到交通载具中。
18.在本公开的一方面中，分别通过交通载具的麦克风和摄像头接收可听数据和用户数据。方法还包括将可听数据和用户数据从交通载具发送到移动装置中。
19.在本公开的一方面中，方法还包括将用户数据和可听数据从移动装置发送到交通载具中。此外，方法还包括通过基于云的系统将用户配置文件发送到车队中。用户配置文件包括针对特定用户的语音识别系统的具体参数。因此，车队的交通载具可以使所述语音识别系统个性化。
20.本公开还描述了语音识别系统。在本公开的一方面中，语音识别系统包括被配置成检测用户发出的话语的第一传感器、被配置为检测用户做出的移动的第二传感器、以及与第一传感器和第二传感器通信的控制器。控制器被配置成从第一传感器接收可听数据。可听数据包括关于来自用户的话语的信息。控制器被配置成从第二传感器接收用户数据。用户数据包括关于用户做出的移动的信息。控制器被配置成融合可听数据和用户数据以获得经融合的数据，并且基于经融合的数据来确定话语的至少一个说出的词。
21.在本公开的一方面中，控制器被配置成通过使用经训练的神经网络来确定话语的至少一个说出的词。
22.在本公开的一方面中，控制器被配置成基于经融合的数据来微调经训练的神经网络以适应用户的语音模式。
23.在本公开的一方面中，第一传感器是麦克风，第二传感器是摄像头。麦克风和摄像头都位于交通载具中。
24.在本公开的一方面中，用户数据包括用户的面部表情的至少一幅图像。
25.在本公开的一方面中，用户数据包括用户的嘴唇的至少一幅图像。
26.在本公开的一方面中，控制器被配置成将用户数据和可听数据从移动装置发送到交通载具中。此外，控制器被配置成通过基于云的系统将用户配置文件发送到车队中。用户配置文件包括针对特定用户的语音识别系统的具体参数。因此，车队的交通载具可以使语音识别系统个性化。
27.在本公开的一方面中，第一传感器是麦克风，第二传感器是摄像头。麦克风和摄像头都在移动装置中。控制器被配置成命令所述移动装置向交通载具发送用户数据和可听数据。
28.在本公开的一方面中，控制器还被配置成将微调之后的用户配置文件存储在基于云的系统中。用户配置文件包括针对用户的个性化语音识别系统的具体参数。控制器还被配置成一旦用户进入交通载具，就向交通载具发送用户配置文件，并利用个性化语音识别系统来处理可听数据和用户数据。
29.在本公开的一方面中，控制器被配置成使用贝叶斯网络、dempster-shafer理论、
贝叶斯滤波器或神经网络中的至少一个来融合可听数据和用户数据。
30.根据下面提供的详细描述，本公开的其它应用领域将变得显而易见。应当理解，详细描述和具体示例仅旨在用于说明目的，而不旨在限制本公开的范围。
31.当结合附图考虑时，从包括权利要求和示例性实施例的详细描述中，本公开的系统和方法的上述特征和优点以及其它特征和优点是显而易见的。
附图说明
32.本公开将从详细说明书和附图中得到更全面的理解，其中：
33.图1是描绘包括语音识别系统的交通载具的实施例的框图；
34.图2是描绘与移动装置和其它交通载具通信的图1的交通载具的实施例的框图；
35.图3是用于创建和训练语音识别系统的方法的流程图；以及
36.图4是根据本公开的实施例的语音识别方法的流程图。
具体实施方式
37.现在将详细参考在附图中示出的本公开的几个示例。只要可能，在附图和说明书中使用相同或相似的参考编号来指代相同或相似的零件或步骤。
38.参照图1，交通载具10通常包括底盘12、车身14、前后轮17，并且可以被称为交通载具系统。在所示实施例中，交通载具10包括两个前轮17a和两个后轮17b。车身14布置在底盘12上并且基本上包围交通载具10的部件。车身14和底盘12可以共同形成车架。车轮17各自在车身14的相应角部附近旋转地联接到底盘12。交通载具10包括联接到前轮17a的前轴19和联接到后轮17b的后轴25。
39.在各种实施例中，交通载具10可以是自主交通载具，并且控制系统98被并入交通载具10中。控制系统98可以被称为系统或语音识别系统。交通载具10，例如，是自动控制交通载具，可以将乘客从一个位置运送到另一个位置。交通载具10在所示实施例中被描绘为皮卡，但是应当理解，也可以使用包括摩托车、卡车、轿车、跑车、运动型多功能车(suv)、娱乐交通载具(rv)等的其它交通载具。在一个实施例中，交通载具10是所谓的四级或五级自动化系统。四级系统表示“高度自动化”，是指即使人类驾驶员未对干预请求做出适当响应，自动驾驶系统在动态驾驶任务的各个方面的驾驶模式特定性能。五级系统表示“完全自动化”，是指自动驾驶系统在人类驾驶员可以管理的多种道路和环境条件下，对动态驾驶任务各方面的全时性能。
40.如图所示，交通载具10通常包括推进系统20、传动系统22、转向系统24、制动系统26、传感器系统28、致动器系统30、至少一个数据存储装置32、至少一个控制器34和通信系统36。在各种实施例中，推进系统20可以包括电机，例如牵引电机和/或燃料电池推进系统。交通载具10还可以包括电连接到推进系统20的电池(或电池组)21。因此，电池21被配置成存储电能并向推进系统20提供电能。在某些实施例中，推进系统20可以包括内燃机。传动系统22被配置成根据可选择的速度比将动力从推进系统20发送到车轮17。根据各种实施例，传动系统22可以包括步进比自动变速器、无级变速器或其它适当变速器。制动系统26被配置成向车轮17提供制动扭矩。在各种实施例中，制动系统26可以包括摩擦制动器、线控制动器、诸如电机的再生制动系统和/或其它适当的制动系统。转向系统24影响交通载具车轮17
的位置并且可以包括转向轮33。虽然出于说明的目的被描绘为包括方向盘33，但是在本公开的范围内设想的一些实施例中，转向系统24可以不包括方向盘33。
41.传感器系统28包括感测交通载具10的外部环境和/或内部环境的可观察条件的一个或多个传感器40(即，感测装置)。传感器40与控制器34通信，并且可以包括但不限于一个或多个雷达、一个或多个光检测和测距(激光雷达)传感器、一个或多个里程计、一个或多个探地雷达(gpr)传感器、一个或多个转向角传感器、一个或多个全球定位系统(gps)收发器、一个或多个轮胎压力传感器、一个或多个摄像头41(例如，光学摄像头和/或红外摄像头)、一个或多个陀螺仪、一个或多个加速计、一个或多个速度传感器、一个或多个转向角传感器、一个或多个超声波传感器、一个或多个惯性测量单元(imu)和/或其它传感器。每个传感器40被配置成生成指示交通载具10的外部环境和/或内部环境的感测到的可观察条件的信号。因为传感器系统28向控制器34提供数据，传感器系统28及其传感器40被认为是信息源(或简单地说是源)。
42.传感器系统28包括被配置成检测和监测路线数据(即，路线信息)的一个或多个全球导航卫星系统(gnss)收发器(例如，全球定位系统(gps)收发器)。gnss收发器被配置成与gnss通信以定位交通载具10在全球中的位置。gnss收发器与控制器34电子通信。
43.致动器系统30包括一个或多个致动器装置42，其控制一个或多个交通载具特征，例如但不限于推进系统20、传动系统22、转向系统24和制动系统26。在各种实施例中，交通载具特征可进一步包括内部和/或外部交通载具特征，例如但不限于车门、后备箱和车厢特征(例如空气、音乐、照明等)。
44.数据存储装置32存储用于自动控制交通载具10的数据。在各种实施例中，数据存储装置32存储可导航环境的经定义的地图。在各种实施例中，经定义的地图可由远程系统预定义并从远程系统获得。例如，经定义的地图可由远程系统组装，与交通载具10(无线地和/或以有线方式)通信，并存储在数据存储装置32中。数据存储装置32可以是控制器34的一部分，与控制器34分离，也可以是控制器34的一部分和单独系统的一部分。
45.交通载具10还可包括与交通载具10的控制器34或另一控制器通信的一个或多个安全气囊35。安全气囊35包括可充气气囊并且被配置成在装载构造和展开构造之间转换，以缓冲施加到交通载具10的外力的影响。传感器40可包括安全气囊传感器，例如imu，其配置成检测外力并生成指示该外力大小的信号。控制器34被配置成基于来自一个或多个传感器40(例如安全气囊传感器)的信号来命令安全气囊35展开。因此，控制器34被配置成确定安全气囊35何时展开。
46.控制器34包括至少一个处理器44和非暂时性计算机可读存储装置或介质46。处理器44可以是定制的或市售的处理器、中央处理单元(cpu)、图形处理单元(gpu)、与控制器34相关联的若干处理器中的辅助处理器、基于半导体的微处理器(以微芯片或芯片组的形式)、宏处理器、其组合、或通常用于执行指令的装置。计算机可读存储装置或介质46可以包括例如只读存储器(rom)、随机存取存储器(ram)和保持通电型存储器(kam)中的易失性和非易失性存储器。kam是可用于在处理器44断电时存储各种操作变量的持久的或非易失性存储器。计算机可读存储装置或介质46可以使用多个存储装置来实现，例如prom(可编程只读存储器)、eprom(电prom)、eeprom(电可擦除prom)、闪存或能够存储数据的其它电力装置、磁性装置、光学装置或组合存储装置，这些装置的一些表示可执行指令，所述可执行指
令由控制器34使用以控制交通载具10。交通载具10的控制器34可被称为交通载具控制器并且可被编程为执行下文详细描述的语音识别方法300(图4)。
47.指令可以包括一个或多个单独的程序，其中，每个程序都包括用于实现逻辑功能的可执行指令的有序列表。指令，当被处理器44执行时，接收并处理来自传感器系统28的信号，执行用于自动控制交通载具10的部件的逻辑、计算、方法和/或算法，并且基于逻辑、计算、方法和/或算法生成对致动器系统30的控制信号以自动控制交通载具10的部件。尽管图1中示出了单个控制器34，但是交通载具10的实施例可以包括多个控制器34，这些控制器34通过合适的通信介质或通信介质的组合进行通信，并协同处理传感器信号，执行逻辑、计算、方法和/或算法，并生成控制信号以自动控制交通载具10的特征。
48.在各种实施例中，控制器34的一个或多个指令包含在控制系统98中。交通载具10包括用户界面23，其可以是仪表板中的触摸屏。用户界面23可以包括但不限于警报，例如用于提供可听声音的一个或多个扬声器27、交通载具座椅或其它对象中的触觉反馈、一个或多个显示器29、一个或多个麦克风31和/或适于向交通载具10的交通载具用户提供通知的其它装置。麦克风31可被认为是传感器40并且被配置为检测用户发现的话语。具体地，麦克风31被配置成将诸如用户发出的话语的可听声音转换成电信号。该电信号表示用户的话语。在某些实施例中，麦克风31可被称为第一传感器，并且摄像头41可被称为第二传感器。该第二传感器(例如，摄像头)被配置成检测用户做出的移动。用户界面23与控制器34进行电子通信并且被配置成接收用户(例如，交通载具操作者)的输入。例如，用户界面23可以包括触摸屏和/或被配置成从交通载具用户接收输入的按钮。因此，控制器34被配置成经由用户界面23来接收来自用户的输入。用户界面23包括被配置成向用户(例如，交通载具操作员或乘客)显示信息的一个或多个显示器29，例如平视显示器(hud)、信息集群显示器和/或信息娱乐中心显示器。
49.通信系统36与控制器34通信，并且被配置成向其它实体48无线地传送信息和从其它实体48无线地传送信息，其它实体48诸如但不限于其它交通载具(“v2v”通信)、基础设施(“v2i”通信)、远程呼叫中心处的远程系统(例如，通用汽车公司的on-star)和/或个人装置。在某些实施例中，通信系统36是配置成使用ieee 802.11标准或通过使用蜂窝数据通信经由无线局域网(wlan)进行通信的无线通信系统。然而，诸如专用短程通信(dsrc)信道的附加或替代通信方法也被认为在本公开的范围内。dsrc信道是指专为汽车使用而设计的单向或双向短程到中程无线通信信道以及相应的协议和标准集。因此，通信系统36可以包括一个或多个天线和/或收发器，用于接收和/或发送诸如协作感测消息(csm)的信号。通信系统36被配置成在交通载具10和另一交通载具之间无线地传送信息。此外，通信系统36被配置成在交通载具10和基础设施或其它交通载具之间无线地传送信息。
50.参照图2，当如上所示的控制器34在交通载具10中时，语音识别方法300(图4)可以由移动装置50中的控制器34执行。然后，语音识别方法300的输入和/或输出被发送到一个或更多个交通载具10。作为非限制性示例，移动装置50可以是移动电话、平板电脑或膝上型电脑。在某些实施例中，移动装置50包括控制器34和与控制器34通信的传感器40。移动装置50的控制器34可以被称为装置控制器。移动装置50的传感器40可以被称为装置传感器，并且包括例如一个或多个麦克风31、一个或多个摄像头41(例如光学摄像头和/或红外摄像头)以及一个或多个激光雷达传感器。移动装置50可以与车队10通信。车队的每个交通载具
10包括上述部件，并且可以使用通信系统36与移动装置50通信。这样，用户可以使用语音识别方法300来采用一个或多个移动装置50向车队的全部或部分交通载具100提供口头指令或消息。
51.继续参照图2，在一些实施例中，语音识别方法300(图4)可以由基于云的系统52执行，而输入由与基于云的系统52进行通信的移动装置50和/或交通载具10收集。在这种情况下，交通载具10和/或移动装置50可以收集听觉和非听觉输入，并将这些输入发送到基于云的系统52。在语音识别方法300中，语音识别系统98可以通过基于云的系统52向车队10发送用户配置文件。用户配置文件包括针对特定用户的语音识别系统的具体参数。因此，用户配置文件被存储在基于云的系统52中。一旦用户进入交通载具10，基于云的系统52就向该交通载具10发送用户配置文件(即，个性化语音识别系统98)。随后，交通载具10使用个性化语音识别系统98来处理车载数据(即，由交通载具10收集的数据)。因此，车队的交通载具可以使语音识别系统98个性化。
52.图3是用于创建和训练语音识别方法300(图4)的方法200的流程图。方法200开始于框202。在框202处，一个或多个控制器34使用传感器40收集公共数据。创建和训练语音识别方法400的控制器34不一定是交通载具10和/或移动装置50的一部分。如本文所使用的，术语“公共数据”是指来自社区用户的足够数量的可听数据和用户数据以开发可靠的语音识别模型。在本公开中，术语“可听数据”是指关于用户发现的话语的数据，诸如音频数据。因此，可听数据包括关于一个或多个用户发出的话语的信息。可听数据可以被称为可听输入，因为可听数据包括来自用户发出的话语的可听声音。可听数据可由一个或多个麦克风31收集。麦克风31可以是将可听声音转换成表示可听声音的电信号的换能器。如上所述，公共数据还包括用户数据。在本公开中，术语“用户数据”是指关于用户做出的移动的数据。因此，用户数据包括关于用户做出的移动的信息。作为非限制性示例，用户数据可以包括相对于参考点的用户身体各部分(例如，嘴、脸和/或手)的空间数据。这样，用户数据可以包括关于用户动作的数据，诸如姿势(例如，手势和/或面部动作)、面部表情、头部动作和嘴部移动(例如，嘴唇移动)。用户数据可以例如包括用户的嘴和/或面部表情的一幅或多幅图像。用户数据可以由一个或多个摄像头41(例如光学摄像头和/或红外摄像头)和/或激光雷达传感器收集。光学摄像头可用于光学成像，并且红外摄像头可用于在低光下成像或通过太阳镜成像。换句话说，光学摄像头可以捕获用户运动的图像，并且即使当用户佩戴太阳镜时，红外摄像头可以捕获用户面部的热图像。激光雷达传感器可以进行深度测量。激光雷达传感器可以测量从用户面部或用户身体的其它部分到参考点的距离，并因此可以检测到用户的移动。不管用于获得用户数据的特定传感器40是什么，这些传感器40都是用于检测头部/面部的定位、面部表情、手势嘴形状和/或注视/眼睛跟踪的。另外，用于收集用户数据的传感器40可以包括用于收集压力数据和来自诸如智能手表的可穿戴装置的数据的压力传感器。压力数据可用于检测用户在座椅中的姿势和/或手臂运动。来自可穿戴装置的数据可用于监测用户运动和姿势。一旦收集到公共数据，方法200就进行到框204。
53.在框204处，使用公共数据创建并训练语音识别系统(例如，控制系统98)。神经网络可以用于创建和训练语音识别系统。作为非限制性示例，可以使用递归神经网络(rnn)或变换器架构来创建和训练语音识别系统。rnn用于分析类序列数据。作为非限制性示例，rnn可以包括长短期存储器(lstm)和门控循环单元(gru)架构。此时，语音识别系统是通用的，
并且未针对特定用户进行个性化处理。在框204之后，方法200继续到框206。
54.在框206，部署语音识别系统(例如，控制系统98)。为此，语音识别系统可以被部署到基于云的系统52、移动装置50和/或一个或多个交通载具10上。该语音识别系统可以被配置为语音助手。
55.图4是语音识别方法300的流程图。语音识别方法300开始于框302。在框302处，控制器34从一个或多个传感器40接收可听数据。如上所述，可听数据包括关于用户发出的话语的信息。可听数据可以被称为可听输入，因为可听数据包括来自用户发出的话语的可听声音。此外，可听数据由可位于交通载具10和/或移动装置50中的一个或多个传感器40(例如，麦克风31)收集。在某些实施例中，如果传感器40(例如，麦克风31)位于移动装置50中，则可将可听数据发送到交通载具10和/或基于云的系统52。可听数据可通过基于云的系统52与其它交通载具10共享。如果传感器40位于交通载具10中，则由传感器40收集的可听数据可被发送到移动装置50和/或基于云的系统52。因此，控制器34接收可听数据。方法300还包括框304。
56.在框304处，控制器34(其可以在交通载具10和/或移动电话50中)从一个或多个传感器40接收用户数据。如上所述，用户数据包括关于用户做出的移动的信息，诸如面部表情、嘴部移动和姿势(例如，手势和/或面部动作)。用户数据可以被称为非听觉输入，因为用户数据不包括可听声音。用户数据由一个或多个传感器40(例如，一个或多个摄像头41和/或激光雷达传感器)收集。收集用户数据是可取的，因为这样的收集可以促进语音识别。例如，用户可以在点头的同时说出词“是”。在这种情况下，传感器40检测到用户正在点头并将这种用户运动与词“是”相关联。为此，传感器40可以检测(例如，捕获图像)用户的头部运动(例如，点头)。如果传感器40(例如，一个或多个摄像头41和/或激光雷达传感器)位于移动装置50中，则用户数据可被发送到交通载具10和/或基于云的系统52。用户数据可以通过基于云的系统52与其它交通载具10共享。如果传感器40位于交通载具10中，则由传感器40收集的用户数据可被发送到移动装置50和/或基于云的系统52。因此，控制器34接收用户数据。框302和框304可以同时执行，因为一些用户将诸如手势或嘴唇移动之类的移动与他们的话语协调。因此，通过同时执行框302和框304，语音识别方法300可增强其准确性。在执行框302和框304之后，方法300进行到框306。
57.在框306处，控制器34融合可听数据和用户数据以获得经融合的数据。可以使用不同的技术来进行数据融合，例如数据贝叶斯网络、dempster-shafer理论、贝叶斯滤波器和/或神经网络。不管所使用的技术如何，控制器34集成(即，融合)可听数据(即，听觉输入)和用户数据(即，非听觉输入)以提高语音识别。在本公开中，术语“融合”或“集成”是指将个别话语或特定可听数据与个别移动或特定摄像头数据链接。融合用户数据和可听数据是可取的，因为在许多情况下，用户将话语与身体运动协调。例如，用户可以在将其头部从一侧移动到另一侧时说出词“否”。在这种情况下，传感器40检测到用户正在左右移动其头部，并且控制器34通过融合用户数据和可听数据将这种头部运动与词“否”相关联。在融合可听数据和用户数据之后，方法300进行到框308。
58.在框308处，控制器34根据基于集成的用户数据和可听数据(即，融合数据)的用户话语来确定至少一个说出的词。此外，在框308处，控制器34可命令交通载具10执行特定任务。例如，用户话语可以包括诸如“开启座椅加热器”的命令。响应于接收到该话语，控制器
34命令交通载具10转动一个或多个致动器装置42以开启座椅加热器。在另一示例中，用户话语可以包括诸如“回家”的命令。此时，控制器34命令gnss收发器检索“家”的位置，并且导航系统提供到达“家”的指示。在框308之后，控制器34继续到框310。
59.在框310处，控制器34基于经融合数据来微调语音识别系统以适应特定用户的语音模式。在本公开中，“微调”或“微调”是指基于使用与动作相关联的识别的说出的词并将这些动作分类为说出的词的含义来训练神经网络。作为非限制性示例，控制器34微调经训练的神经网络以适应特定用户的语音模式。因此，相对于特定用户存储融合数据。例如，具有语言障碍的用户可以在说出词“导航”时以特定方式移动其嘴唇55。在微调经训练的神经网络的同时，当该特定用户说出词“导航”时，控制器34识别该特定的嘴唇运动(即，语音模式)，并因此将该特定的嘴唇运动与该特定用户的词“导航”相关联。结果，语音识别方法300允许语音识别系统适用于特定用户。在微调之后，语音识别系统98可以通过基于云的系统52向一部交通载具10或车队10发送用户配置文件。用户配置文件包括针对特定用户的语音识别系统的具体参数。因此，用户配置文件被存储在基于云的系统52中。一旦用户进入交通载具10，基于云的系统52就向该交通载具10发送用户配置文件(即，个性化语音识别系统98)。随后，交通载具10使用个性化语音识别系统98来处理车载数据(即，由交通载具10收集的可听数据和用户数据)。因此，车队的交通载具可以使语音识别系统98个性化。
60.虽然以上描述了示例性实施例，但这些实施例并不旨在描述权利要求所涵盖的所有可能形式。说明书中使用的词是描述性词语而不是限制性词，并且应当理解，在不脱离本公开的精神和范围的情况下，可以进行各种改变。如前所述，各种实施例的特征可以被组合以形成本公开的系统和方法的进一步实施例，这些实施例可能未被明确描述或示出。虽然各种实施例可以被描述为提供关于一个或多个所需特性的优势或优于其它实施例或现有技术实现，但是本领域普通技术人员认识到，一个或多个特征或特性可被折衷以实现期望的总体系统属性，这取决于具体应用和实现。这些属性可以包括但不限于成本、强度、耐用性、寿命周期成本、可销售性、外观、包装、尺寸、可用性、重量、可制造性、易组装性等。因此，相对于一个或多个特性而言，被描述为不如其它实施例或现有技术实现方式的实施例并没有超出本公开的范围，并且对于特定应用来说也是可取的。
61.附图是简化的形式，并且未达到精确的比例。仅为方便和清楚起见，在附图可以使用方向术语，例如顶、底、左、右、上、之上、上面、下、下面、后和前。这些和类似的方向术语不应被解释为以任何方式限制本公开的范围。
62.本文描述了本公开的实施例。然而，应当理解，所公开的实施例仅仅是示例，并且其它实施例可以采取各种和替代的形式。附图不必按比例绘制；一些特征可以被放大或最小化以显示特定部件的细节。因此，本文公开的具体结构和功能细节不应被解释为限制性的，而只是作为代表性基础，用于教导本领域技术人员以各种方式使用当前公开的系统和方法。如本领域普通技术人员将理解的，参考附图中的任何一个说明和描述的各种特征可以与一个或多个其它附图中示出的特征组合，以产生未明确说明或描述的实施例。所示特征的组合为典型应用提供了代表性实施例。然而，对于特定应用或实施方案可能需要符合本公开的教示的特征的各种组合和修改。
63.本文可以根据功能和/或逻辑块组件以及各种处理步骤来描述本公开的实施例。应当理解，这种块组件可以由被配置为执行指定功能的多个硬件、软件和/或固件组件来实
现。例如，本公开的实施例可采用各种集成电路组件，例如存储器元件、数字信号处理元件、逻辑元件、查找表等，其可在一个或更多个微处理器或其它控制装置的控制下执行各种功能。另外，本领域技术人员将理解，本公开的实施例可以结合多个系统来实践，并且本文描述的系统仅仅是本公开的示例性实施例。
64.为了简洁起见，与信号处理、数据融合、信令、控制和系统(以及系统的各个操作组件)的其它功能方面相关的技术在此不做详细描述。此外，本文所包含的各种附图中所示的连接线旨在表示各种元件之间的示例功能关系和/或物理联接。应当注意，在本公开的实施例中可以存在替代的或附加的功能关系或物理连接。
65.该说明书本质上仅是说明性的，决不旨在限制本公开、其应用或用途。本公开的广泛教导可以以各种形式来实现。因此，虽然本公开包含特定示例，但本公开的真实范围不应受此限制，这是因为当对附图、说明书和所附权利要求书进行研究后其它的修改将变得显而易见。

技术特征：
1.一种语音识别方法，包括：接收可听数据，其中，所述可听数据包括关于用户发出的话语的信息；接收用户数据，其中，所述用户数据包括关于用户做出的移动的信息；融合所述可听数据和所述用户数据以获得经融合的数据；以及基于所述经融合的数据来确定所述话语的至少一个说出的词。2.根据权利要求1所述的方法，其中，确定所述话语的至少一个说出的词包括使用经训练的神经网络来确定所述话语的所述至少一个说出的词。3.根据权利要求2所述的方法，还包括基于所述经融合的数据来微调所述经训练的神经网络以适应所述用户的语音模式。4.根据权利要求1所述的方法，其中，通过交通载具的麦克风接收所述可听数据。5.根据权利要求1所述的方法，其中，通过移动装置的麦克风接收所述可听数据。6.根据权利要求1所述的方法，其中，通过交通载具的摄像头接收所述用户数据。7.根据权利要求1所述的方法，其中，通过移动装置的摄像头接收所述用户数据。8.根据权利要求1所述的方法，其中，所述用户数据包括所述用户的面部表情的至少一幅图像或所述用户的嘴唇的至少一幅图像。9.根据权利要求3所述的方法，还包括：将微调之后的用户配置文件存储在基于云的系统中，其中，所述用户配置文件包括针对所述用户的个性化语音识别系统的具体参数；一旦所述用户进入所述交通载具，就向该交通载具发送所述用户配置文件；以及利用所述个性化语音识别系统处理所述可听数据和所述用户数据。10.根据权利要求1所述的方法，其中，分别通过移动装置的摄像头和麦克风来接收所述用户数据和所述可听数据，并且所述方法还包括将所述用户数据和所述可听数据从所述移动装置发送到交通载具。

技术总结
语音识别方法包括接收可听数据和用户数据。可听数据包括关于用户发出的话语的信息。用户数据包括关于用户做出的移动的信息。该方法还包括融合可听数据和用户数据以获得经融合的数据，并且基于经融合的数据来确定话语的至少一个说出的词。至少一个说出的词。至少一个说出的词。

技术研发人员：J
受保护的技术使用者：通用汽车环球科技运作有限责任公司
技术研发日：2022.10.24
技术公布日：2023/9/13

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

上一篇：用于车辆的车轮对准自动检测系统和方法与流程 下一篇：用于验证由车辆的车载诊断系统生成的诊断故障代码的系统和方法

用于集成听觉和非听觉输入的自适应语音识别系统和方法与流程

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

用于集成听觉和非听觉输入的自适应语音识别系统和方法与流程

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表