车窗智能显示方法、系统、装置、电子设备及存储介质与流程
未命名
10-09
阅读:112
评论:0
1.本技术涉及显示领域,尤其涉及车窗智能显示方法、车窗智能显示系统、车窗智能显示装置、电子设备及存储介质。
背景技术:
2.用户在开车时,经常会遇到边开车边需要查找车外的人、街边店、写字楼、路牌等目标的场景,导致:视线经常长时间地偏离前方道路,忽视了前方路况,易造成交通事故;用眼睛识别、查找车外目标时,大脑会将大量的精力分配给识别目标、锁定目标上,疏于驾驶操作,对紧急情况的反应能力下降,严重影响驾车安全;因为视线需要持续查找车外目标,车速难免会较长时间降低,易造成后方车辆拥堵。
3.因此,需要一种可以根据语音指令自动辅助司机搜索车辆周围的事物,使司机可以保持注意力关注在前方路况上的方案。
技术实现要素:
4.本发明的目的在于提供一种车窗智能显示方法、车窗智能显示系统、车窗智能显示装置、电子设备及存储介质,至少解决上述的一个技术问题。
5.本发明提供了下述方案:
6.根据本发明的一个方面,提供一种车窗智能显示方法,所述车窗智能显示方法包括:
7.采集语音信息,解析语音中预查找目标以及预查找目标特征的信息;
8.将所述预查找目标以及预查找目标特征信息,解析成图像元素的信息;
9.车载摄像头采集车辆周围图像;
10.将采集的车辆周围图像对应司机视角,显示在车窗上;
11.分割采集的车辆周围图像,生成多个待识别对象图像;
12.根据所述预查找目标以及预查找目标特征的图像元素,扫描实时采集的车辆周围图像;
13.若,扫描到符合预查找目标特征图像元素的待识别对象图像,则在车窗对应显示的待识别对象图像添加标注,提示为预查找目标。
14.进一步的,所述采集语音信息,解析语音中预查找目标以及预查找目标特征的信息包括:
15.解析语音中带有特征信息和目标信息的语句;
16.根据解析出的特征指向解析出的目标,确定预查找的目标和预查找目标的特征。
17.进一步的,所述将所述预查找目标以及预查找目标特征信息,解析成图像元素的信息包括:
18.根据语音描述的预查找的目标,在预设数据库中选择对应预查找目标的范例图像;
19.根据语音描述的预查找目标的特征,在范例图像上标注预对比的图像特征;
20.根据范例图像以及标注的预对比的图像特征,判断待识别对象图像与范例图像的相似程度;
21.若,待识别对象图像与范例图像中物体归类为同类型物体,则根据预对比的图像特征提取待识别对象图像的图像特征;
22.若,待识别对象图像的图像特征与范例图像的图像特征,相似度超过预设阈值,则标注该待识别对象图像,显示为预查找目标。
23.进一步的,所述将采集的车辆周围图像对应司机视角,显示在车窗上包括:
24.根据分割采集的车辆周围图像,生成多个待识别对象图像,对图像做分层处理;
25.所述分层处理包括,将待识别对象图像的轮廓线显示在车窗上;
26.根据车窗对应显示的待识别对象图像添加标注,将待识别对象图像的轮廓线显示为预设显示样式。
27.进一步的,所述根据范例图像以及标注的预对比的图像特征,判断待识别对象图像与范例图像的相似程度包括:
28.按照图像特征可被识别的信度,给图像特征赋值;
29.根据预查找目标特征的赋值,判断待识别对象图像与范例图像的相似程度。
30.进一步的,所述若,待识别对象图像与范例图像中物体归类为同类型物体,则根据预对比的图像特征提取待识别对象图像的图像特征包括:
31.根据预设第一级图像特征,归类待识别对象图像与范例图像中物体的类型;
32.根据预设第二级图像特征,判断待识别对象图像与范例图像的相似程度;
33.其中,根据预对比的图像特征,预设第二级图像特征。
34.根据本发明的二个方面,提供一种车窗智能显示系统,所述车窗智能显示系统包括:所述目标识别模块和目标显示模块;
35.所述目标识别模块,用于根据语音中解析的预查找目标,在车辆周围图像中识别出相似的待识别对象图像;
36.所述目标显示模块,用于在车窗上对应司机视角显示车辆周围图像,包括按照语音中解析的预查找目标,在车窗显示上对应待识别对象图像添加相似于预查找目标的标注。
37.根据本发明的三个方面,提供一种车窗智能显示装置,所述车窗智能显示装置包括:
38.语音采集模块,用于采集语音信息,解析语音中预查找目标以及预查找目标特征的信息;
39.图像转换模块,用于将所述预查找目标以及预查找目标特征信息,解析成图像元素的信息;
40.图像采集模块,用于车载摄像头采集车辆周围图像;
41.图像显示模块,用于将采集的车辆周围图像对应司机视角,显示在车窗上;
42.图像分割模块,用于分割采集的车辆周围图像,生成多个待识别对象图像;
43.图像扫描模块,用于根据所述预查找目标以及预查找目标特征的图像元素,扫描实时采集的车辆周围图像;
44.图像标注模块,用于若,扫描到符合预查找目标特征图像元素的待识别对象图像,则在车窗对应显示的待识别对象图像添加标注,提示为预查找目标。
45.根据本发明的四个方面,提供一种电子设备,包括:处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
46.所述存储器中存储有计算机程序,当所述计算机程序被所述处理器执行时,使得所述处理器执行所述车窗智能显示方法的步骤。
47.根据本发明的五个方面,提供一种计算机可读存储介质,包括:其存储有可由电子设备执行的计算机程序,当计算机程序在电子设备上运行时,使得电子设备执行所述车窗智能显示方法的步骤。
48.通过上述方案,获得如下有益的技术效果:
49.本技术通过采集司机的语音,解析司机想要寻找的目标,在车窗上显示司机可能想要寻找的目标,使司机可以保持对路况关注的同时,减轻寻找目标的负担,使得司机可以保持车辆驾驶安全的前提下,提高寻找目标的效率。
50.本技术通过对应司机的视角,在车窗上显示车辆周围的物体,使当前司机观察的车外物体与实时采集的图像呈“虚实”对应的关系,方便司机驾驶车辆控制行驶轨迹与关注车外物体,呈体感对应的位置变化关系,减轻司机对图像数据的解读负担。
51.本技术通过在车窗上显示图像的轮廓线,保留车窗大部分透明部分,使司机驾驶车辆的视线保持第一视角优先,将轮廓线对应真实观察的事物,使司机受图像在车窗上显示的影响,尽量减小,保持对车机驾驶视线的绝对控制。
附图说明
52.图1是本发明一个或多个实施例提供的一种车窗智能显示方法的流程图。
53.图2是本发明一个或多个实施例提供的一种车窗智能显示装置的结构图。
54.图3是本发明一个或多个实施例提供的一种车窗智能显示系统的结构图。
55.图4是本发明一个具体实施例的根据语音在车窗显示目标主流程示意图。
56.图5是本发明一个具体实施例的根据语音在车窗显示目标的系统示意图。
57.图6是本发明一个具体实施例的目标检测流程示意图。
58.图7是本发明一个具体实施例的采用多模态模型目标检测流程示意图。
59.图8是本发明一个具体实施例的采用多模态模型主流程变更示意图。
60.图9是本发明一个或多个实施例提供的车窗智能显示方法的一种电子设备结构框图。
具体实施方式
61.下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
62.图1是本发明一个或多个实施例提供的一种车窗智能显示方法的流程图。
63.如图1所示,车窗智能显示方法包括:
64.步骤s1,采集语音信息,解析语音中预查找目标以及预查找目标特征的信息;
65.步骤s2,将预查找目标以及预查找目标特征信息,解析成图像元素的信息;
66.步骤s3,车载摄像头采集车辆周围图像;
67.步骤s4,将采集的车辆周围图像对应司机视角,显示在车窗上;
68.步骤s5,分割采集的车辆周围图像,生成多个待识别对象图像;
69.步骤s6,根据预查找目标以及预查找目标特征的图像元素,扫描实时采集的车辆周围图像;
70.步骤s7,若,扫描到符合预查找目标特征图像元素的待识别对象图像,则在车窗对应显示的待识别对象图像添加标注,提示为预查找目标。
71.通过上述方案,获得如下有益的技术效果:
72.本技术通过采集司机的语音,解析司机想要寻找的目标,在车窗上显示司机可能想要寻找的目标,使司机可以保持对路况关注的同时,减轻寻找目标的负担,使得司机可以保持车辆驾驶安全的前提下,提高寻找目标的效率。
73.本技术通过对应司机的视角,在车窗上显示车辆周围的物体,使当前司机观察的车外物体与实时采集的图像呈“虚实”对应的关系,方便司机驾驶车辆控制行驶轨迹与关注车外物体,呈体感对应的位置变化关系,减轻司机对图像数据的解读负担。
74.本技术通过在车窗上显示图像的轮廓线,保留车窗大部分透明部分,使司机驾驶车辆的视线保持第一视角优先,将轮廓线对应真实观察的事物,使司机受图像在车窗上显示的影响,尽量减小,保持对车机驾驶视线的绝对控制。
75.具体而言,司机在驾驶车辆的同时,可能会需要对车外的物体进行辨识,如,寻找要接的客人,如寻找要停靠的饭店等。而人员会因避让车辆,而站在路边,饭店也会在路的两侧开设,与司机驾驶目视前方,不在同一方向上。司机分出精力,关注除车辆前方之外的方向,是危险的驾驶行为。
76.车机常设置有语音识别模块,用于识别语音中播放歌曲、导航地点等语音指令。同理,司机可以通过车机的语音识别功能,解析语音,识别司机想要寻找的目标。但与传统的语音识别不同,司机寻找的目标是具有“外形”的物体,还需要将语音描述的“目标”转换成图像数据样式的信息,通过图像比对,实现辅助司机寻找目标的目的。语音解析过程中,除了指出要寻找的目标,还要为目标添加足够丰富的特征,从而使图像的解析,有足够的图像特征可以用于比对。
77.可以利用车载摄像头,对车外的物体进行录制,生成视频文件,在视频帧中,对比出司机预寻找的目标。
78.车载摄像头录制的实时视频画面,需要在车窗上进行显示,才有利于保持司机当前目视前方的状态。但视频画面不能全部内容显示在车窗上,否则会遮挡太多司机的视角,不利于行车安全。
79.可以将物体的轮廓线显示在车窗上,保持绝大部分的车窗不显示图像信息的状态,保障司机可以通过车窗看到车外。
80.比如,现有的车窗显示系统,比如,hud(head-up-display)抬头显示系统,可以只将图像中物体的轮廓线,透射在车窗上。
81.比如,通过语音识别语句中的名词、形容词等,把名词作为预查找目标,将形容该名词的形容词作为预查找目标特征,如果预查找目标和预查找目标的特征匹配成功,则可
以将预查找目标转换成图像数据。比如,在图像数据库中,找到对应预查找目标的图像,作为范例。再通过预查找目标的特征,在范例图像上标注出预对比的图像特征。
82.可以将实时采集的车辆周围图像,分割成一个个独立的图像单元,每个单元表示一个待识别对象图像。将待识别对象图像作为辨识的目标,判断待识别对象图像中是否存在着司机想要寻找的预查找目标。
83.可以按照预对比的图像特征,对待识别对象图像进行标注,从而根据图像特征,过滤待识别对象图像中的预查找目标图像,即语音指令中的预查找目标。
84.在车窗显示时,对相似于预查找目标图像的待识别对象图像进行标注,比如,在轮廓线上显示不同的颜色等。
85.在本实施例中,采集语音信息,解析语音中预查找目标以及预查找目标特征的信息包括:
86.解析语音中带有特征信息和目标信息的语句;
87.根据解析出的特征指向解析出的目标,确定预查找的目标和预查找目标的特征。
88.具体而言,比如,将用户的语音输入,非结构化请求文本转换为结构化的语义表示;结构化的语义表示包括三部分:域、意图、槽;其中,域是用户请求的范围,意图是用户请求的类型,槽是描述用户请求的实体。例如,用户请求“帮我找一个扎马尾辫、穿红上衣的大高个女学生”,域是“找目标”(即,“帮我”,是发出了触发的指令)、意图是“人”(即,预查找目标)、槽是“发型=马尾辫、上衣=红上衣、身高=大高个、性别=女、职业=学生”(即,预查找目标特征)。
89.在本实施例中,将预查找目标以及预查找目标特征信息,解析成图像元素的信息包括:
90.根据语音描述的预查找的目标,在预设数据库中选择对应预查找目标的范例图像;
91.根据语音描述的预查找目标的特征,在范例图像上标注预对比的图像特征;
92.根据范例图像以及标注的预对比的图像特征,判断待识别对象图像与范例图像的相似程度;
93.若,待识别对象图像与范例图像中物体归类为同类型物体,则根据预对比的图像特征提取待识别对象图像的图像特征;
94.若,待识别对象图像的图像特征与范例图像的图像特征,相似度超过预设阈值,则标注该待识别对象图像,显示为预查找目标。
95.具体而言,语音解析成文本,虽然具有可读性,但无法直接用于图像特征的对比。可以将预查找目标对应图像数据库中一个范例图像。比如“帮我找一个扎马尾辫、穿红上衣的大高个女学生”,要找目标是“人”,则可以在图像数据库中找的一个“人”的图像作为范例。另外,该目标上具有“发型=马尾辫、上衣=红上衣、身高=大高个、性别=女、职业=学生”的特征,则可以按照预对比的图像特征过滤待识别对象图像。
96.为了降低识别计算量,对特征对比进行分级处理,先按照一般的物体类型进行分类,再安照预对比图像特征,对待识别对象图像进行对比。物体类型分类时,虽然在各个系统中,定义的识别特征有所差别,但对结果的影响程度较小,可以不必须遵照预对比的图像特征比较待识别对象图像。比如,对“人”的图像特征,不需要过于苛刻的特征对比。但在具
有“发型=马尾辫、上衣=红上衣、身高=大高个、性别=女、职业=学生”的特征,是用户发出语音指令中特别强调的,需要逐条在待识别对象图像上对比。
97.不排除一种可能,司机的语音指令中,某一两个预查找目标特征描述口误,与实际的待识别对象图像不符。也可能用户对记忆不能很肯定,模棱两可。可以对预查找目标特征进行预先赋值,根据多个特征的总分是否超过预设阈值,来在车窗显示上标注。
98.在本实施例中,将采集的车辆周围图像对应司机视角,显示在车窗上包括:
99.根据分割采集的车辆周围图像,生成多个待识别对象图像,对图像做分层处理;
100.分层处理包括,将待识别对象图像的轮廓线显示在车窗上;
101.根据车窗对应显示的待识别对象图像添加标注,将待识别对象图像的轮廓线显示为预设显示样式。
102.具体而言,在车辆周围图像中寻找预查找目标,需要首先对车辆周围图像进行分割。由于车载摄像头录制的是一帧帧图像,每张图像可能包含了多个待识别对象图像,如果直接在其上标注识别特征,则在后期的比对过程中,无法区分图像特征属于哪个部分。因此,需要将车辆周围图像按照单个待识别对象图像进行分割,方便在其上标注预对比的图像特征。预查找目标与待识别对象图像保持一对一的图像特征对比,可以不受其他图像特征的干扰,使识别过程更为精准。
103.采集的车辆周围图像对应司机视角,显示在车窗上,通过轮廓线标记待识别对象图像,实际效果是,在司机实际观察的车外物体上标注轮廓线。
104.司机可以根据轮廓线,意识到车外的“人”是要找的人。如果是在另一个普通屏幕上显示轮廓线,需要司机从当前视角转换到摄像头视角,两个视角在司机大脑中切换,需要司机有比较强的空间视角转换能力,增加司机的脑力负担。因此,在车窗显示,更有利于司机的用户体验。
105.在本实施例中,根据范例图像以及标注的预对比的图像特征,判断待识别对象图像与范例图像的相似程度包括:
106.按照图像特征可被识别的信度,给图像特征赋值;
107.根据预查找目标特征的赋值,判断待识别对象图像与范例图像的相似程度。
108.具体而言,不排除一种可能,司机语音中所描述的预查找目标特征与实际的待识别对象图像的特征并不完全相符。比如,司机想要去车站接人,但不清楚接的人当前是什么装束外形,因此,在语音描述时,所提供的预查找目标特征存在较多的不确定。比如“发型=马尾辫、上衣=红上衣、身高=大高个、性别=女、职业=学生”的特征,是否改变发型或改变穿着,是难以肯定的,信度稍低。因此,可以在“身高=大高个、性别=女、职业=学生”的特征上,赋更高的权重值,在“发型=马尾辫、上衣=红上衣”上附较低的权重值,通过综合评分,可以得出相似程度的数据信息。
109.还可以按照是否容易“图像化”预查找目标特征,对特征进行赋值。比如,“职业=学生”这一特征,很难用图像数据的形式表示,但“发型=马尾辫、上衣=红上衣、身高=大高个、性别=女”的特征,容易用图像数据的形式表示,信度稍高,则可以对“职业=学生”这一特征附较低的权重值,对“发型=马尾辫、上衣=红上衣、身高=大高个、性别=女”的特征附较高的权重值。
110.在本实施例中,若,待识别对象图像与范例图像中物体归类为同类型物体,则根据
预对比的图像特征提取待识别对象图像的图像特征包括:
111.根据预设第一级图像特征,归类待识别对象图像与范例图像中物体的类型;
112.根据预设第二级图像特征,判断待识别对象图像与范例图像的相似程度;
113.其中,根据预对比的图像特征,预设第二级图像特征。
114.具体而言,预设第一级图像特征,是对归类待识别对象图像与范例图像进行粗略的分类,防止过于细致的特征信息,淹没基本的特征信息。比如“人”,范例图像可能选择了男性,而待识别对象图像可能是女性,但并不妨碍两者作为“人”的类型,做之后的细节对比。而如果将“人”这个基本的特征淹没在“衣服、发型、颜色”等细节特征中,有可能使对比结果出现偏差,分不清重点。
115.可以先找“人”或“女人”等相对容易且基本的类型,做第一级图像特征的识别,缩小对比特征的范围,再进行第二级图像特征的对比。
116.第二级图像特征可以直接利用预对比的图像特征,可以在第一级图像特征缩小对比特征范围的前提下,降低计算量的同时增加识别的准度。比如“物体=人类、发型=马尾辫、上衣=红上衣、身高=大高个、性别=女、职业=学生”等,直接用于第二级图像特征,如果“物体=人类”一旦出现识别错误,则可能导致整个识别结果错误。比如“物体=人类”用于第一级图像特征,“发型=马尾辫、上衣=红上衣、身高=大高个、性别=女、职业=学生”用于第二级图像特征,即便第二级图像特征个别缺失,也不会影响是对“人”的特征识别。而“物体=人类”用于第一级图像特征,属于出错率很低的识别特征。
117.当然,并非只“人”作为第一级图像特征,可以临时调整第一级图像特征的范围。比如,在晴天的时候,对衣服的颜色识别准度较高,可信度高,则可以将衣服的颜色作为第一级图像特征。但如果是衣服的花色等过多细节的特征,则不适合作为第一级图像特征。
118.图2是本发明一个或多个实施例提供的一种车窗智能显示装置的结构图。
119.如图2所示,车窗智能显示装置包括:语音采集模块、图像转换模块、图像采集模块、图像显示模块、图像分割模块、图像扫描模块、图像标注模块;
120.语音采集模块,用于采集语音信息,解析语音中预查找目标以及预查找目标特征的信息;
121.图像转换模块,用于将预查找目标以及预查找目标特征信息,解析成图像元素的信息;
122.图像采集模块,用于车载摄像头采集车辆周围图像;
123.图像显示模块,用于将采集的车辆周围图像对应司机视角,显示在车窗上;
124.图像分割模块,用于分割采集的车辆周围图像,生成多个待识别对象图像;
125.图像扫描模块,用于根据预查找目标以及预查找目标特征的图像元素,扫描实时采集的车辆周围图像;
126.图像标注模块,用于若,扫描到符合预查找目标特征图像元素的待识别对象图像,则在车窗对应显示的待识别对象图像添加标注,提示为预查找目标。
127.值得注意的是,虽然本系统只披露了语音采集模块、图像转换模块、图像采集模块、图像显示模块、图像分割模块、图像扫描模块、图像标注模块,但并不意味着本装置仅仅局限于上述基本功能模块,相对,本发明所要表达的意思是,在上述基本功能模块的基础之上,本领域技术人员可以结合现有技术任意添加一个或多个功能模块,形成无穷多个实施
例或技术方案,也就是说本系统是开放式的而非封闭式的,不能因为本实施例仅披露了个别基本功能模块,就认为本发明权利要求的保护范围局限于上述公开的基本功能模块。
128.图3是本发明一个或多个实施例提供的一种车窗智能显示系统的结构图。
129.如图3所示,车窗智能显示系统包括:目标识别模块和目标显示模块;
130.所述目标识别模块,用于根据语音中解析的预查找目标,在车辆周围图像中识别出相似的待识别对象图像;
131.所述目标显示模块,用于在车窗上对应司机视角显示车辆周围图像,包括按照语音中解析的预查找目标,在车窗显示上对应待识别对象图像添加相似于预查找目标的标注。
132.具体而言,语音识别的预查找目标以及预查找目标特征,是文本类数据,需要转换成图像类数据,才可以用于对采集的车辆周围图像进行对比识别。
133.在显示方式上,只有显示在车窗上,才能达成其他屏幕显示不能达成的效果,即,当前司机观察的车外物体,与实时采集的图像呈“虚实”对应的关系,方便司机驾驶车辆控制行驶轨迹与关注车外物体,呈体感对应的位置变化关系,减轻司机对图像数据的解读负担。
134.当然,车窗并不只局限于车前窗,可以根据摄像头的拍摄范围,在车辆侧窗上也显示待识别对象图像。虽然在车辆侧窗显示待识别对象图像,不利于司机向前观察路况,但车机自动化处理对图像识别的工作,并不真的需要司机时刻观看车辆的侧窗,只有在识别出待识别对象图像是预查找目标图像时,才需要司机进行确认处理。
135.当然,配合车辆侧窗显示待识别对象图像,需要有对应的摄像头视角相配合。比如,经过胡同口,拍摄到车辆周围图像中待识别对象图像,是预查找目标,而此刻的待识别对象图像添加标注,适时在车辆侧窗显示。
136.可以根据扫描到符合预查找目标特征图像元素的待识别对象图像,发出声音警示,进一步减轻视觉上的负担,防止因为车辆的动态行驶,错过了在车窗上显示出标注轮廓线进行提醒的信息。
137.图4是本发明一个具体实施例的根据语音在车窗显示目标主流程示意图。
138.图5是本发明一个具体实施例的根据语音在车窗显示目标的系统示意图。
139.图6是本发明一个具体实施例的目标检测流程示意图。
140.图7是本发明一个具体实施例的采用多模态模型目标检测流程示意图。
141.图8是本发明一个具体实施例的采用多模态模型主流程变更示意图。
142.如图4、5所示,在系统上进行一个流程。司机说出查找目标的语音指令,比如“帮我找一个扎马尾辫、穿红上衣的大高个女学生”、“帮我找好味道川菜馆”等;语音采集单元将以上语音指令输入语音识别模块(包含训练完备的语音识别模型和意图理解模型)。语音识别模块判定司机是否有查找车外目标的意图,如果有,将描述用户请求实体的关键词输出。将描述司机请求实体的关键词输入目标匹配模块(含匹配算法),同时车外图像采集单元(含摄像头、雷达等)开始实时采集车前一定范围内的视频图像,并输入目标检测模块;目标检测模块(包含训练完备的语义分割模型、图像分类模型、特征转文本模型)从采集的视频图像里提取视频帧进行语义分割,图像分类算法对语义分割提取出的所有目标进行类别标注,选取与司机查找意图相同类别的目标(可以是多个),进一步对目标进行图像分类(分类
方式和语音意图模型的槽的分类保持一致),将目标图像分类结果(即图像特征)通过特征转文本模型,输出目标的所有特征关键词,然后将特征关键词也输入目标匹配模块,目标匹配模块将目标的特征关键词和描述司机请求实体的关键词对比并加权计算分值,当分值达到设定阈值时,则认为目标符合司机查找意图;同时,将目标检测模块输出的所有目标类别输入3d模型库,调取各目标类别的3d模型;显示模块(含3d渲染软件)将模型库筛选的3d模型、车外图像采集单元获取的各目标相对本车的三维位置信息,用于图像采集单元所采集图像的实时3d环境重建,显示于司机正前车窗(可以是hud方案,也可以是车窗玻璃本身作为屏幕来显示),并利用符合查找意图的目标的相对位置信息和类别信息确定3d模型里目标的位置,将符合查找意图的目标的3d模型以特定的颜色标记。司机通过车窗上被颜色标记的目标模型与本车模型、周围其他参照物模型的相对位置关系来确定目标的方位和远近,然后再将目光移向真实环境中目标所在的位置,并做出最后的人工判定,判定是否查找目标已出现,若不是要找的目标则继续等待下一次目标标记,或者重新说出包含更多目标细节的语音指令,发起新一轮查找。
143.如图6所示,目标检测模块从采集的视频图像里提取视频帧进行语义分割;图像分类模型对语义分割提取出的所有目标并进行类别标注;选取与司机查找意图相同类别的目标(可以是多个),进一步对目标进行图像分类;将目标图像分类结果(图像特征)通过特征转文本模型,输出目标的所有特征关键词。
144.在语音识别模型中,意图理解将用户输入的非结构化请求文本转换为结构化的语义表示;结构化的语义表示包括三部分:域、意图、槽;其中,域是用户请求的范围,意图是用户请求的类型,槽是描述用户请求的实体。例如,用户请求“帮我找一个扎马尾辫、穿红上衣的大高个女学生”,域是“找目标”、意图是“人”、槽是“发型=马尾辫、上衣=红上衣、身高=大高个、性别=女、职业=学生”。“域”在本系统中只有两类“找目标”和“其他”,所以意图理解的主要工作是意图分类和实体识别,意图理解模型常见方法包括但不限于基于规则的方法、基于深度学习的方法。根据常见的行车时查找车外目标的场景,意图可以分类为人、汽车、动物、商店、饭店、景点、交通标识、品牌logo等。不同意图对应定义不同的槽,比如“人”这个意图对应的槽有发型、上衣、下衣、鞋、帽、身高、体型、性别、年龄、职业、眼镜、配饰、姿态、携带物品等。意图理解模型最终需要进行槽位提取,从而输出描述用户请求实体的关键词。
145.在目标匹配模块中,利用匹配算法进行量化处理。语音识别模块输出描述用户请求实体的关键词,比如:发型=马尾辫、上衣=红上衣、身高=大高个、性别=女、职业=学生。目标检测模块输出图像中所有目标的特征关键词,假设图像中有两个类别为“人”的目标,第一个目标的特征关键词是:发型=马尾辫、上衣=红上衣、身高=大高个、性别=女、职业=未知,第二个目标的特征关键词是:发型=马尾辫、上衣=粉上衣、身高=大高个、性别=女、职业=学生。对于“人”这个类别,其特征权重定义为“性别”10%、“发型”10%、上衣“10%”、身高“5%”、职业“5%”、下衣“10%”、鞋“5%”、帽“10%”、体型“5%”、年龄“10%”、眼镜“5%”、姿态“5%”、配饰“5%”、携带物品“5%”。将语音识别模块输出的描述用户请求实体的关键词和目标检测模块输出的图像中各目标的特征关键词做对比,匹配记1分,不匹配记0分,然后把各关键词的匹配分值分别乘以权重,最后相加计算分值,因为描述用户请求实体的关键词并不一定能覆盖意图对应的所有槽,该分值还需要除以所覆盖关键词的权
重之和占总权重100%的比例。对于第一个目标的对比结果为:发型匹配记1分乘以发型的权重10%,上衣匹配记1分乘以上衣的权重10%,身高匹配记1分乘以身高的权重5%,性别匹配记1分乘以性别的权重10%,职业不匹配记0分,将以上数值相加,结果为0.35,除以所覆盖关键词的权重占比0.4,得到最终分数0.875。对于第二各目标的对比结果为:发型匹配记1分乘以发型的权重10%,上衣不匹配记0分,身高匹配记1分乘以身高的权重5%,性别匹配记1分乘以性别的权重10%,职业匹配记1分乘以职业的权重5%,将以上数值相加,结果为0.30,除以所覆盖关键词的权重占比0.4,得到最终分数0.75。如果设定阈值为0.8,第一个目标的分数0.875》0.8,则判定为和查找意图匹配,第二个目标的分数0.75《0.8,则判定为和查找意图不匹配。
146.如图7所示,关于目标匹配模块,可以不限于用匹配算法,也可以用多模态模型。如果使用多模态模型,则目标检测模块工作流程不需要输出特征关键词。目标检测模块从采集的视频图像提取视频帧进行语义分割;图像分类模块对语义分割提出的所有目标进行类别标注。
147.将语音识别模块输出的描述用户请求实体的关键词和目标检测模块输出的所有目标图像输入到目标匹配模块(含多模态模型),进行相似度计算,获得匹配度分值,分值达到设定阈值的目标判定为符合查找意图的目标。多模态模型对图像-文本进行了语义相似性评级,评分标准是基于语义文本相似度。如果使用多模态模型,则图6中的第4、5步做调整,可见图8。
148.在另一实施例中,描述实际的应用场景。比如,小张要去开车接一个从外地来的客户,约定好在某路上见面。在出发前事先问了客户今天的穿着,客户说穿了深蓝色西装、红色领带,手里提着一个棕色的皮包。因为约定的路段在相对繁华的区域,车辆在快进入目标路段时,小张向车辆发出语音指令“帮我找一个穿着深蓝色西装、红色领带、手提棕色皮包的男人”,意图理解模型将以上指令转换为结构化的语义表示,域是“找目标”、意图是“人”、槽是“上衣=深蓝色西装、性别=男、年龄=成年、携带物品=棕色的皮包、配饰=红色领带”。车辆立刻进入智能目标识别模式,当车辆发现符合查找意图的目标在右前方路边时,司机正前方车窗的3d模型示意图显示了目标在车辆所行驶道路的右前方路边20米处,小张按照3d示意图中各参照物位置关系,把视线转向前车窗右侧,很快发现了要找的客户,小张安全平稳地把车停在客户身旁。
149.在另一实施例中,描述实际的应用场景。比如,小张要去和一个首次见面的相亲对象吃饭,那个女生选的饭店在北苑路上,叫“好味道川菜馆”,小张没去过这家店,在出发后,小张向车辆发出指令“帮我找好味道川菜馆”,意图理解模型将以上指令转换为结构化的语义表示,域是“找目标”、意图是“饭店”、槽是“名称=好味道川菜馆”。当走不久后,车窗3d环境模型就标记出了目标位置,一看果然是好味道川菜馆,不过这里距离北苑路还挺远,他想,原来这个饭店也是连锁店,离自己家这么近就有一家,居然没去过。当车辆走到北苑路后,这时车窗再次标记出了目标位置,这应该是那个女生订的那家了,虽然导航提示已到达目的地附近并自动结束了导航,但其实那家饭店在主路边上比较靠里的位置并不是很容易发现,幸亏有智能查找系统帮他时刻盯着车外边,不然走过了,再跑到较远的地方调头,就可能过了约定时间。
150.图9是本发明一个或多个实施例提供的车窗智能显示方法的一种电子设备结构框
图。
151.如图9所示,本技术提供一种电子设备,包括:处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
152.存储器中存储有计算机程序,当计算机程序被处理器执行时,使得处理器执行一种车窗智能显示方法的步骤。
153.本技术还提供一种计算机可读存储介质,其存储有可由电子设备执行的计算机程序,当计算机程序在电子设备上运行时,使得电子设备执行一种车窗智能显示方法的步骤。
154.本技术还提供一种车辆,包括:
155.电子设备,用于实现车窗智能显示方法的步骤;
156.处理器,处理器运行程序,当程序运行时从电子设备输出的数据执行车窗智能显示方法的步骤;
157.存储介质,用于存储程序,程序在运行时对于从电子设备输出的数据执行车窗智能显示方法的步骤。
158.上述电子设备提到的通信总线可以是外设部件互连标准(peripheral component interconnect,pci)总线或扩展工业标准结构(extended industry standard architecture,eisa)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
159.电子设备包括硬件层,运行在硬件层之上的操作系统层,以及运行在操作系统上的应用层。该硬件层包括中央处理器(cpu,central processing unit)、内存管理单元(mmu,memory management unit)和内存等硬件。该操作系统可以是任意一种或多种通过进程(process)实现电子设备控制的计算机操作系统,例如,linux操作系统、unix操作系统、android操作系统、ios操作系统或windows操作系统等。并且在本发明实施例中该电子设备可以是智能手机、平板电脑等手持设备,也可以是桌面计算机、便携式计算机等电子设备,本发明实施例中并未特别限定。
160.本发明实施例中的电子设备控制的执行主体可以是电子设备,或者是电子设备中能够调用程序并执行程序的功能模块。电子设备可以获取到存储介质对应的固件,存储介质对应的固件由供应商提供,不同存储介质对应的固件可以相同可以不同,在此不做限定。电子设备获取到存储介质对应的固件后,可以将该存储介质对应的固件写入存储介质中,具体地是往该存储介质中烧入该存储介质对应固件。将固件烧入存储介质的过程可以采用现有技术实现,在本发明实施例中不做赘述。
161.电子设备还可以获取到存储介质对应的重置命令,存储介质对应的重置命令由供应商提供,不同存储介质对应的重置命令可以相同可以不同,在此不做限定。
162.此时电子设备的存储介质为写入了对应的固件的存储介质,电子设备可以在写入了对应的固件的存储介质中响应该存储介质对应的重置命令,从而电子设备根据存储介质对应的重置命令,对该写入对应的固件的存储介质进行重置。根据重置命令对存储介质进行重置的过程可以现有技术实现,在本发明实施例中不做赘述。
163.为了描述的方便,描述以上装置时以功能分为各种单元、模块分别描述。当然在实施本技术时可以把各单元、模块的功能在同一个或多个软件和/或硬件中实现。
164.本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术
语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非被特定定义,否则不会用理想化或过于正式的含义来解释。
165.对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
166.通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器或者网络设备等)执行本技术各个实施方式或者实施方式的某些部分所述的方法。
167.最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
技术特征:
1.一种车窗智能显示方法,其特征在于,所述车窗智能显示方法包括:采集语音信息,解析语音中预查找目标以及预查找目标特征的信息;将所述预查找目标以及预查找目标特征信息,解析成图像元素的信息;车载摄像头采集车辆周围图像;将采集的车辆周围图像对应司机视角,显示在车窗上;分割采集的车辆周围图像,生成多个待识别对象图像;根据所述预查找目标以及预查找目标特征的图像元素,扫描实时采集的车辆周围图像;若,扫描到符合预查找目标特征图像元素的待识别对象图像,则在车窗对应显示的待识别对象图像添加标注,提示为预查找目标。2.根据权利要求1所述的车窗智能显示方法,其特征在于,所述采集语音信息,解析语音中预查找目标以及预查找目标特征的信息包括:解析语音中带有特征信息和目标信息的语句;根据解析出的特征指向解析出的目标,确定预查找的目标和预查找目标的特征。3.根据权利要求2所述的车窗智能显示方法,其特征在于,所述将所述预查找目标以及预查找目标特征信息,解析成图像元素的信息包括:根据语音描述的预查找的目标,在预设数据库中选择对应预查找目标的范例图像;根据语音描述的预查找目标的特征,在范例图像上标注预对比的图像特征;根据范例图像以及标注的预对比的图像特征,判断待识别对象图像与范例图像的相似程度;若,待识别对象图像与范例图像中物体归类为同类型物体,则根据预对比的图像特征提取待识别对象图像的图像特征;若,待识别对象图像的图像特征与范例图像的图像特征,相似度超过预设阈值,则标注该待识别对象图像,显示为预查找目标。4.根据权利要求3所述的车窗智能显示方法,其特征在于,所述将采集的车辆周围图像对应司机视角,显示在车窗上包括:根据分割采集的车辆周围图像,生成多个待识别对象图像,对图像做分层处理;所述分层处理包括,将待识别对象图像的轮廓线显示在车窗上;根据车窗对应显示的待识别对象图像添加标注,将待识别对象图像的轮廓线显示为预设显示样式。5.根据权利要求4所述的车窗智能显示方法,其特征在于,所述根据范例图像以及标注的预对比的图像特征,判断待识别对象图像与范例图像的相似程度包括:按照图像特征可被识别的信度,给图像特征赋值;根据预查找目标特征的赋值,判断待识别对象图像与范例图像的相似程度。6.根据权利要求5所述的车窗智能显示方法,其特征在于,所述若,待识别对象图像与范例图像中物体归类为同类型物体,则根据预对比的图像特征提取待识别对象图像的图像特征包括:根据预设第一级图像特征,归类待识别对象图像与范例图像中物体的类型;根据预设第二级图像特征,判断待识别对象图像与范例图像的相似程度;
其中,根据预对比的图像特征,预设第二级图像特征。7.一种车窗智能显示系统,其特征在于,所述车窗智能显示系统包括:所述目标识别模块和目标显示模块;所述目标识别模块,用于根据语音中解析的预查找目标,在车辆周围图像中识别出相似的待识别对象图像;所述目标显示模块,用于在车窗上对应司机视角显示车辆周围图像,包括按照语音中解析的预查找目标,在车窗显示上对应待识别对象图像添加相似于预查找目标的标注。8.一种车窗智能显示装置,其特征在于,所述车窗智能显示装置包括:语音采集模块,用于采集语音信息,解析语音中预查找目标以及预查找目标特征的信息;图像转换模块,用于将所述预查找目标以及预查找目标特征信息,解析成图像元素的信息;图像采集模块,用于车载摄像头采集车辆周围图像;图像显示模块,用于将采集的车辆周围图像对应司机视角,显示在车窗上;图像分割模块,用于分割采集的车辆周围图像,生成多个待识别对象图像;图像扫描模块,用于根据所述预查找目标以及预查找目标特征的图像元素,扫描实时采集的车辆周围图像;图像标注模块,用于若,扫描到符合预查找目标特征图像元素的待识别对象图像,则在车窗对应显示的待识别对象图像添加标注,提示为预查找目标。9.一种电子设备,其特征在于,包括:处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;所述存储器中存储有计算机程序,当所述计算机程序被所述处理器执行时,使得所述处理器执行权利要求1至6任一项所述车窗智能显示方法的步骤。10.一种计算机可读存储介质,其特征在于,包括:其存储有可由电子设备执行的计算机程序,当计算机程序在电子设备上运行时,使得电子设备执行权利要求1至6任一项所述车窗智能显示方法的步骤。
技术总结
本申请公开了一种车窗智能显示方法、车窗智能显示系统、车窗智能显示装置、电子设备及存储介质,方法包括,采集语音信息,解析语音中预查找目标以及预查找目标特征的信息;将所述预查找目标以及预查找目标特征信息,解析成图像元素的信息;车载摄像头采集车辆周围图像;将采集的车辆周围图像对应司机视角,显示在车窗上;分割采集的车辆周围图像,生成多个待识别对象图像;根据所述预查找目标以及预查找目标特征的图像元素,扫描实时采集的车辆周围图像;若,扫描到符合预查找目标特征图像元素的待识别对象图像,则在车窗对应显示的待识别对象图像添加标注,提示为预查找目标。通过上述方案,车窗显示寻找目标,减轻寻找目标负担,保持驾驶安全。持驾驶安全。持驾驶安全。
技术研发人员:丁晓年 陈彩可 刘杰 赵晓朝 李晓琴 武鹏飞 张厚鑫 王云坤
受保护的技术使用者:一汽(北京)软件科技有限公司
技术研发日:2023.06.15
技术公布日:2023/10/7
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
