利用多个密集深度图标记多个图像中的物体的制作方法

未命名 07-15 阅读:88 评论:0
利用多个密集深度图标记多个图像中的物体1.相关申请2.本技术要求获得2020年9月14日提交的美国临时专利申请第63/077,729号的优先权,所述申请的内容通过引用全部纳入本文。3.
技术领域
:及
背景技术
::4.本公开内容中描述的一些实施例涉及图像处理,更具体地说,但不限于,涉及机器学习的领域的图像处理。5.多个机器学习模型,如多个神经网络,是在多个图像上进行训练的,这些图像上标有表示一个物体存在或不存在的一个基准真相标签。所述标签可以是,例如,一个包围所述物体的边界框。经过训练的多个机器学习模型在响应一个新图像时生成所述物体存在或不存在的一个结果。例如,通过在所述输入的新图像上生成包围所述检测到的物体的一个边界框。6.在数字图像处理中,一个边界框是一组坐标,其完全包围了在一个场景的一个数字图像或所述场景的一个三维模型中捕获的一个物体。一个边界框可以是一个矩形边界,其完全包围了一个二维数字图像中的所述物体。一个边界框可以是另一个凸集,其将所述二维数字图像中的所述物体包围起来。在一个三维模型中,一个边界框可以是一个三维凸集,将所述物体包围在所述三维模型中。技术实现要素:7.根据一个第一方面,一种用于注释多个数字图像的方法,包括:从多个数字图像和多个密集深度图(densedepthmap),生成表示一个场景的一个对齐的三维叠加场景(three-dimensionalstackedscene),其中所述多个密集深度图中的每个都与所述多个数字图像中的一个关联,其中所述多个数字图像由所述场景中的至少一个传感器捕获,并且所述三维叠加场景中的每个点都与指示所述点与所述场景中的一个静态物体关联的可能性的一个稳定性分数关联。从所述三维叠加场景中移除多个不稳定的点,以产生一个静态的三维叠加场景,根据所述静态的三维叠加场景,在所述多个数字图像的至少一个中检测出至少一个静态物体,以及对所述至少一个静态物体分类和注释。8.根据一个第二个方面,一种一个运载工具为了实时物体识别而生成多个指令的方法,包括:将由位于移动的一个运载工具上的一个摄像机捕获的至少一个目标图像输入到在包括多个记录的一个训练数据集上训练的一个机器学习模型中,其中一个记录包括检测到至少一个静态物体的多个数字图像中的至少一个,以及所述至少一个静态物体的一个基准真相标签的指示,所述基准真相标签通过以下方式计算:从多个数字图像和多个密集深度图,生成表示一个场景的一个对齐的三维叠加场景,其中所述多个密集深度图中的每个都与所述多个数字图像中的一个关联,其中所述多个数字图像是由所述场景中的至少一个传感器捕获,并且所述三维叠加场景中的每个点都与指示所述点与所述场景中的一个静态物体关联的可能性的一个稳定性分数关联;从所述三维叠加场景中移除多个不稳定的点,以产生一个静态的三维叠加场景;根据所述静态的三维叠加场景,在所述多个数字图像的至少一个中检测出至少一个静态物体;以及生成表明对所述至少一个静态物体进行分类和注释的所述基准真相标签;作为所述机器学习模型的一个结果,获得所述目标图像中描述的至少一个目标对象的一个指示;以及根据所述至少一个目标对象生成多个指令。9.根据第三方面,一种一个运载工具为了实时物体识别而训练一个机器学习模型的方法,包括:创建一个包括多个记录的一个训练数据集,其中一个记录包括:由至少一个运载工具的至少一个车载摄像机捕获的多个数字图像中的至少一个,以及在所述多个数字图像中的至少一张中检测到的至少一个静态物体的基准真相标签的指示,所述基准真相标签通过以下方式计算:从多个数字图像和多个密集深度图,生成表示一个场景的一个对齐的三维叠加场景,其中所述多个密集深度图中的每个都与所述多个数字图像中的一个关联,其中所述多个数字图像是由所述场景中的至少一个传感器捕获,并且所述三维叠加场景中的每个点都与指示所述点与所述场景中的一个静态物体关联的可能性的一个稳定性分数关联,从所述三维叠加场景中移除多个不稳定的点,以产生一个静态的三维叠加场景;根据所述静态的三维叠加场景,在所述多个数字图像的至少一个中检测出至少一个静态物体;以及生成表示对至少一个静态物体进行分类和注释的一个基准真相标签;以及在所述训练数据集上训练一个机器学习模型,用于响应至少一个目标图像的一个输入而生成至少一个目标物体的一个结果;其中,至少一个目标图像中描绘的至少一个目标对象的所述结果被用来生成控制所述运载工具的多个指令。10.在第一、第二和第三方面的进一步实施形式中,根据所述静态的三维叠加场景检测出所述至少一个静态物体包括:通过将所述静态的三维叠加场景投射到至少一个图像上,在所述至少一个图像中识别一组静态像素,从所述至少一个图像中提取所述组静态像素,以创建一个静态图像,并检测所述静态图像中的所述至少一个静态物体。11.在第一、第二和第三方面的进一步实施形式中,进一步包括:根据所述静态的三维叠加场景,在所述多个数字图像中的至少一个其他数字图像检测至少一个其他静态物体,根据所述静态的三维叠加场景,识别所述至少一个静态物体是所述至少一个其他静态物体,及根据对所述至少一个静态物体的一个分类和注释,分类和注所述至少一个其他静态物体。12.在第一、第二和第三方面的进一步实施形式中,所述至少一个数字图像在多个数字图像的所述序列中先于所述至少一个其他数字图像。13.在第一、第二和第三方面的进一步实施形式中,所述至少一个所述其他数字图像在多个数字图像的所述序列中的所述至少一个数字图像之前。14.在第一、第二和第三方面的进一步实施形式中,根据所述静态的三维叠加场景检测所述至少一个静态物体包括检测所述静态的三维叠加场景中的所述至少一个静态物体。15.在第一、第二和第三方面的进一步实施形式中,进一步包括:将一个同步定位和映射(simultaneouslocalizationandmapping,slam)方法应用于多个数字图像的所述序列,以产生多个注册的数字图像和包括与之关联的多个摄像机位置和多个摄像机方向的一个摄像机路径,其中,通过使用所述多个注册的数字图像和所述摄像机路径生成所述叠加场景。16.在第一、第二和第三方面的进一步实施形式中,进一步包括:从所述叠加场景中去除多个稳定点,以产生一个动态的三维叠加场景,根据动态的三维叠加场景在多个数字图像的至少另一个中检测至少一个动态物体,以及对至少一个动态物体进行分类和注释。17.在第一、第二和第三方面的进一步实施形式中,根据动态的三维叠加场景检测至少一个动态物体包括:通过将所述动态的三维叠加场景投射到所述至少一个额外的其他图像上,在所述至少一个额外的其他图像中识别一组动态像素,从至少一个所述其他图像中提取所述组动态像素,以创建一个动态图像,以及检测所述动态图像中的所述至少一个动态物体。18.在第一、第二和第三方面的进一步实施形式中,进一步包括:根据所述动态的三维叠加场景,在所述多个数字图像中的至少另一个其他数字图像中检测出至少一个其他动态物体,根据所述动态的三维叠加场景,识别所述至少一个动态物体是所述至少一个其他动态物体,及根据对所述至少一个动态物体的分类和注释,对所述至少一个其他动态物体进行分类和注释。19.在第一、第二和第三方面的进一步实施形式中,所述至少一个额外的其他数字图像在多个数字图像的所述序列中先于所述至少另一个其他数字图像。20.在第一、第二和第三方面的进一步实施形式中,所述至少一个另一个其他数字图像在多个数字图像的所述序列中的所述至少一个额外的其他数字图像之前。21.在第一、第二和第三方面的进一步实施形式中,进一步包括创建包括多个记录的一个训练数据集,其中一个记录包括所述多个数字图像中的至少一个,以及所述至少一个静态物体的一个基准真相标签的指示。22.在第一、第二和第三方面的进一步实施形式中,所述记录进一步包括所述多个数字图像中的至少一个其他数字图像以及根据所述至少一个静态物体的一个分类和注释,对至少一个其他静态物体的一个基准真相标签的指示。23.在第一、第二和第三方面的进一步实施形式中,所述记录进一步包括与所述多个数字图像中的至少一张关联的所述密集深度图。24.在第一、第二和第三方面的进一步实施形式中,所述记录进一步包括所述多个数字图像中的至少一个额外的其他图像,以及至少一个动态物体的一个指示的一个基准真相标签。25.在第一、第二和第三方面的进一步实施形式中,进一步包括在所述训练数据集上训练一个机器学习模型,用于响应至少一个目标图像的一个输入而生成至少一个目标物体的一个结果。26.在第一、第二和第三方面的进一步实施形式中,所述训练数据集的多个记录的多个图像是由位于至少一个运载工具上的至少一个摄像机捕获。27.在第一、第二和第三方面的进一步实施形式中,生成多个指令包括生成用于自动操纵所述运载工具以避免与所述至少一个目标物体碰撞的多个指令。28.在第一、第二和第三方面的进一步实施形式中,生成多个指令包括在一个用户界面上生成一个警告,以警告所述运载工具的一个驾驶员检测到的至少一个目标物体。29.除非另有定义,本文使用的所有技术和/或科学术语与本发明相关领域的普通技术人员通常理解的含义相同。尽管与本文描述的方法和材料相似或相当的方法和材料可用于本发明实施例的实践或测试,但下面描述的是示范性的方法和/或材料。如果发生冲突,将以专利说明书,包括多个定义,为准。此外,这些多个材料、多种方法和多个例子只是说明性的,并不意味着一定是限制性的。附图说明30.在此仅以举例的方式,参照多个附图对一些实施例进行了描述。现在具体参考多个附图的细节,需要强调的是,所显示的多个细节是以举例的方式,并用于示例性的说明多个实施例。在这方面,与多个附图一起进行的描述使本领域的技术人员清楚地了解到如何实施本发明的多个实施例。31.在所述多个附图中:32.图1是一个流程图,示例性地根据一些实施例表示的一个可选的多个操作的流程;33.图2是一个流程图,示例性地根据一些实施例表示的另一个可选的多个操作的流程;34.图3是一个流程图,示例性地根据一些实施例表示的另一个可选的多个操作的流程;35.图4a是一个流程图,示例性地根据一些实施例表示的用于注释一个物体的一个可选的多个操作的流程;36.图4b是一个流程图,示例性地根据一些实施例表示的用于投射到一个图像上的一个可选的流程;37.图5a和图5b是根据一些实施例,由传感器捕获的示例性的多个图像和它们相应的多个深度图;38.图6是根据一些实施例描述多个示例性的图像的叠加的一个示例性的图像;39.图7a是根据一些实施例的一个示例性的静态图像;40.图7b是根据一些实施例描述的一个重建的三维场景的一个示例性的图像;41.图8是根据一些实施例的用于注释多个图像和/或用于在注释的多个图像上训练一个机器学习模型的系统的一个框图;42.图9是根据一些实施例创建用于训练一个ml模型的一个注释训练数据集的一个方法的一个流程图;以及43.图10是根据一些实施例的由训练的一个ml模型进行实时物体检测的一个方法的一个流程图。具体实施方式44.本公开内容中描述的一些实施例涉及图像处理,更具体地说,但不限于所述自主驾驶领域的图像处理。45.如本文所用,术语运载工具是指主要在陆地上运输人或多个物体的机器。示例性的多种运载工具包括:多种汽车、多种卡车、多种电动自行车、多种摩托车、多种巴士、多种叉车、多种扫雪机、多种雪地车、多种越野车和气垫船。所述运载工具可以是一种标准的手动汽车,一种半自动汽车,或一种全自动汽车。一驾驶员可以在驾驶所述运载工具时发挥一种积极作用,这样,所述驾驶员在指挥所述运载工具方面起着一关键作用。所述驾驶员可以提供对所述运载工具的主动控制。所述驾驶员可以提供对所述运载工具的连续主动控制,或对所述运载工具的部分主动控制,其中多个驾驶部分中的一些是自动的,例如,在所述高速公路上巡航控制激活期间的自动驾驶,以及自动停车。补充地,所述驾驶员只起一种最低限度的作用,所述运载工具是完全自动化的,可以自己驾驶。46.可选地,所述术语运载工具是指一种非自动驾驶运载工具。所述术语运载工具可以不包括多种自动驾驶汽车,在所述自动驾驶汽车中,所述驾驶员实际上并不主动驾驶所述运载工具,而是所述运载工具自动驾驶。另外,所述术语运载工具包括一种自动驾驶运载工具,其中所述驾驶员扮演一种最小或部分的角色。47.如本文所用,所述术语高级驾驶辅助系统(advanceddriverassistancesystem,adas)是指旨在帮助所述驾驶员更好地驾驶的多种系统,通过增加道路安全和/或汽车安全,即减少多种不良事件的可能性。adas的设计的所述目标是减少所述驾驶员可能导致不良事件的人为错误。adas可以使多种驾驶任务自动化,可以适应多种驾驶任务,和/或可以加强多种驾驶任务。例如,adas可以向所述驾驶员发出多种警报,警告可能导致一种不良事件的一种危险情景,例如,运载工具偏离其车道,多个行人横穿所述马路,以及与所述前车的一距离太近。当自动检测到危险情景时,adas可以自动执行多种任务,例如,当与所述前车的所述距离越来越小时,自动刹车,并自动转向所述运载工具以避免一种碰撞。其他多种adas系统可能试图提高安全性,例如,通过自动打开多种车灯,自动打开多种挡风玻璃雨刷,监测多种盲点,以及后视多种摄像头。48.adas可包括一种自主驾驶系统(autonomousdrivingsystem,ads)。如本文所用,术语adas和ads有时可以互换。49.本文提到的adas和/或ads利用本文所述的多种ml模型,这些模型是通过使用本文所述的方法对接收到的多种图像进行自动注释而产生的多种注释图像进行训练。例如,所述ml模型被送入由多种车载摄像机拍摄的多种实时图像,并产生一个结果,指示多种图像中识别的多种物体,如一行人、进入迎面而来的车道的另一辆车、从后面加速的一摩托车,等等。50.如本文所用,所述术语“点”可指单个像素、一组相邻的多个像素、单个体素和/或一组相邻的多个体素,或代表三维叠加场景和/或图像的其他数据元素,例如,一个矢量。51.本发明一些实施例的一个方面涉及用于自动创建用于训练机器学习(ml)模型的注释训练数据集的多个系统、多个方法、一计算设备和/或多个代码指令(存储在一存储器上并可由一个或多个硬件处理器执行)。所述注释可以是由位于多个运载工具上的多个摄像机捕获的多个图像。训练好的ml模型可由多个运载工具的adas使用,可选择多个自动驾驶的运载工具,例如,用于实时识别由安装在所述自动驾驶运载工具上的多个车载摄像机捕获的多个物体。从多个数字图像和多个密集深度图生成表示一个场景的一个对齐的三维叠加场景,每一个都与所述多个数字图像中的一个相关。所述多个数字图像可以是摄像机在一段时间内捕获的多个数字图像的一个序列,例如,在大约1-3秒内捕获的一个视频的多个帧(或其他多个时间值)。所述多个数字图像是由所述现场的多个传感器捕获的,例如,位于多个运载工具上的多个车载摄像机(即,收集用于训练所述ml模型的多个样本图像)。所述三维叠加场景中的每个点都与一个稳定性分数相关,表明所述点与所述场景中的一个静态物体相关的可能性。多个不稳定的点可能代表多个动态物体,如一个移动的运载工具。多个不稳定的点被从所述三维叠加场景中移除,以产生一个静态的三维叠加场景。在至少多个数字图像中的至少一个中,根据所述静态的三维叠加场景检测出至少一个静态物体。所述至少一个静态物体被注释和/或分类。所述注释和/或分类可以针对确定了所述静态物体的所述多个图像中的所述多个特定图像进行。可选的是,通过跟踪从识别所述静态物体的所述图像开始的所述多幅图像中的所述静态物体的所述位置,在每个所述数字图像中对所述至少一个静态物体进行注释。例如,当所述静态物体在多个数字图像的一个序列的所述中间被发现时,所述静态物体在多个早期和多个后期图像中的实例被注释为静态物体的所述相同指示。所述注释代表了一个基准真相(groundtruth)。所述被注释和/或被分类的多个图像,可选择带有多个注释的多个图像的所述序列,可以表示一个记录。多个记录可以通过对多组的多个连续图像的注释和/或分类来创建,例如,在不同的多个时间间隔,不同的多个场景,和/或由多个不同运载工具上的多个不同摄像机拍摄。可以创建包括所述多个记录的一个训练数据集。所述ml模型可以在所述多条记录上进行训练。例如,所述ml模型可由一个自动驾驶运载工具的一个自动驾驶过程使用,以获得实时的物体识别,以响应将由多个车载摄像机捕获的多个实时图像送入ml模型,和/或由一个adas使用,所述adas通过自动实时的物体识别和警告来协助多个驾驶员。例如,当发现所述道路上的一个危险时,触发自动刹车,和/或操纵所述运载工具以避免与向所述运载工具移动的一个摩托车发生碰撞。52.被自动注释的多个静态物体的例子包括:多个交通标志、多个道路障碍物、多个坑洞、多个雪堆、多个停放的汽车、多个建筑物、多个交通灯等。53.被自动注释的多个动态物体的例子包括:在所述同一车道上行驶的多个运载工具、在一个迎面而来的车道上的多个运载工具、在一个不同道路上行驶的多个运载工具、多个行人、多个摩托车、多个自行车等。54.本文所述的至少一个机器学习模型的多个示例性架构包括,例如,多个统计分类器和/或多个其他统计模型、多个各种架构的神经网络(例如,卷积(convolutional)、全连接(fullyconnected)、深度(deep)、编码器-解码器(encoder-decoder)、递归(recurrent)、图(graph))、多个支持向量机(supportvectormachines,svm)、逻辑回归(logisticregression)、k-近邻(k-nearestneighbor)、多个决策树(decisiontrees)、提升(boosting)、随机森林(randomforest)、回归器(regressor)和/或任何其他允许回归(regression)、分类(classification)、降维(dimensionalreduction)、监督(supervised)、半监督(semi-supervised)或强化学习(reinforcementlearning)的商业或开源包(opensourcepackage)。多个机器学习模型是在使用本文所述方法对多个图像进行注释而创建的一个注释训练数据集上使用多个监督方法进行训练的。55.本文所述的至少一些实施方案解决了用于训练多个ml模型的图像自动注释的技术问题,特别是用于控制多种自动运载工具和/或协助多种运载工具的多位驾驶员的实时物体识别的ml模型。特别是,增加多个注释图像的所述数量以增加用于训练多种ml模型的所述训练数据集的大小。较大的训练数据集增加了多种所述ml模型的性能。本文所述的至少一些实施方案改善了多种所述ml模型的
技术领域
:,通过提供比使用多种标准方法可获得的更大数量的多种注释图像。来自较大数量的所述多个注释图像的较大的所述训练数据集增加了所述ml模型的性能。56.在本文所述的至少一些实施方案中,解决所述技术问题和/或所述改进之处,在于能够自动注释无法被识别和/或使用多种标准方法无法准确识别的多个物体。例如,使用多种人工方法和/或使用多种标准神经网络,例如,由一个摄像机从远处拍摄的多种的小的交通标志不能使用这些标准方法来阅读,但可使用本文所述的多种实施例进行注释,例如,通过在多个图像的一个序列中识别所述同一标志的较大可读实例并注释同一标志的较早和/或较晚出现的较小实例。57.在本文所述的至少一些实施方案中,对所述技术问题的所述解决和/或所述改进,在于能够自动注释多种静态和/或动态物体,这些物体不能用标准方法识别和/或不能准确识别。例如,使用多种标准方法,不清楚一辆车是否停在所述路边,在这种情况下,所述车不一定是一种危险,或者所述车是否正在向所述运载工具移动以发生一种碰撞,在这种情况下,可能需要运载工具的主动运动以避免碰撞。至少一些实施例对多种静态和/或动态物体进行了注释,如本文所述。58.本文所述的至少一些实施方案为上述技术问题提供了一种技术解决方案,和/或改进了上述
技术领域
:,通过使用多个密集深度图产生的堆叠场景来识别一个或多个动态物体,有利于在恶劣的多种过渡条件下识别和注释一个或多个物体。例如,在隧道的一个入口处或一个出口处的过渡,该处的光照度突然变化,因此所述摄像机处于突然失明或过度曝光状态,另外或替代性地注释一个或多个不在一个当前道路水平上的相关物体,例如在另一条道路上的一个运载工具,由于与通过其传感器产生图像的运载工具的所述水平相互连接,另外或替代性地在多种城市道路与高速公路之间过渡。59.本文所述的至少一些实施方案为上述技术问题提供了技术解决方案,和/或改进了上述
技术领域
:,其方法是使用从本文所述的多个图像的所述序列中生成的所述多个注释图像的所述序列来训练、验证、测试、核实或其任何组合,即由一种自主驾驶系统,例如一ads或一adas,或一个其组件使用的ml模型。60.为简洁起见,除非另有说明,术语"图像"被用来指一种数字图像,这些术语可以被互换使用。在所述自动驾驶领域,通常的做法是,一个系统,例如一个自动驾驶系统(ads)或一个高级驾驶辅助系统(adas),包括一个或多个机器学习模型,用于处理由一个或多个传感器捕获的数字图像,一些例子或一个传感器是一个数码摄像机、一个数码摄像机和一个激光成像、检测和测距传感器(laserimaging,detection,andrangingsensor,lidar)。一个视频记录可以包括一连串的多个视频图像,这样每个图像就是所述视频记录的一帧。通常的做法是使用多张有注释的多个数字图像来训练这种机器学习模型,其中所述多个数字图像中捕获的一个或多个物体都被分类并由一个边界框限定。多张有注释的数字图像可以是一连串的数字图像,例如来自一个视频记录的多个图像。在自动驾驶领域,多个注释的数字图像的其他用途包括验证一个机器学习模型、核实一个机器学习模型和测试一个机器学习模型。多张带注释的数字图像也可用于测试、验证、核实和训练一个系统,如ads或adas中的一个或多个。61.本文所述的至少一些实施例在一个图像中注释了尽可能多的多个物体。在所述自动驾驶领域使用的一个图像中,一个物体的一些例子是一个人行道、一个路边、一个交通标志、一个交通灯、一个广告牌、一个障碍物、一个山墙、一个沟渠、诸如一个灯柱、一个栏杆、一个栅栏、一个建筑物、一棵树木、一个墙壁和一个路标。一个物体的其他一些例子是一个运载工具,例如一个汽车、一部摩托车或一个卡车,一个行人,即一个人、一个动物、一个自行车,以及在空中移动的一个物体,例如一只鸟、一颗石头或一张纸。62.人工注释一个数字图像是劳动密集型的。训练一个机器学习模型的通常做法需要数百、数千或更多的多个注释的数字图像。本文所述的至少一些实施例可以自动注释多个数字图像,即自动检测每张数字图像中的多个物体,对多个物体中的每一个进行分类,并确定其一个边界框。63.一些现有的对一个数字图像进行自动注释的方法包括使用一个机器学习模型来检测和分类一个图像中的一个或多个物体。然而,当一个物体远离被拍摄图像的一个视角时,所述物体可能显得很小,而且所述物体的一些特征在所述图像中可能无法被辨别。例如,一个交通标志可能从很远的地方被捕获,以至于写在上面的文字不能被正确识别。在另一个例子中,可能很难区分两轮运载工具的多种类型,例如一个摩托车和一个自行车。虽然一些现有的多种方法进一步将多个人工修改应用于多个自动注释,但本文所述的至少一些实施例取消了这样的一个人工步骤。64.当图像注释是实时进行的,可能在一个第一时间在一个图像中捕获的一个物体被错误地识别,然而当所述同一物体在一个后来的图像中被捕获时,在比所述第一时间更晚的时间,所述物体被正确识别。例如,在多个图像的一个序列中,一个交通标志可能在一个图像中被识别为具有确定的一个最大速度值的限速标志。这样的一个标志可能是在所述序列中一个较早的图像中捕获的,但是距离较远,以至于无法分辨出所述最大速度值。此外,在一个后面的图像中捕捉到的所述相同标志,在所述一个图像之后,可能在足够近的一个距离内被捕捉到,以至于所述标志被截断,并且再次无法分辨出所述最大速度值。65.如本文所使用的,术语"注释"是指分类和另外或替代性地在一个边界框中进行边界划分。此处描述的一些实施例提出处理多个图像的一个序列,并使用从所述多个图像的所述序列的一个图像中收集的信息来修改在所述多个图像的所述序列的一个或多个其他图像中识别的一个或多个物体的注释。其中至少有一些其他图像可以在所述多个图像的所述序列中的一张图像之前。一个或多个其他图像中的至少一些其他图像可以在所述多个图像的所述序列中的一个图像之后。66.为了做到这一点,本文所述的至少一些实施例在一个图像中识别的一个物体和另一个图像中识别的另一个物体之间进行正确的关联。当一个或多个的多个图像的序列由在一个空间内移动的一个以上的传感器捕获时,可能是这些传感器在时间上不同步。有些传感器是一种一次性传感器,即时捕捉一个图像的所有像素。其他一些传感器使用扫描,根据一个扫描模式在一段时间内捕获一个图像的多个像素。一种扫描模式可以是连续的。一种扫描模式可能是交错的。当多个图像的一个或多个序列被在所述空间中移动的一个或多个传感器捕获时,本文所述的至少一些实施例将多个图像的所述多个序列对齐,或校准,以便在对齐的多个图像中对一个捕获的三维场景的每个点进行一致性的所述表示。这种排列方式包括以下一项或多项:长宽比、比例、焦点、视角、分辨率、扫描模式和帧率。此后,术语"注册的多个图像"被用来指多个图像的一序列的对齐,以使一个被捕获的三维场景的表现保持一致。视觉同步定位和映射(slam)是指确定传感器相对于其周围环境的位置和方向,同时映射该传感器在其环境中的所述运动路径的过程。所述slam的原理是利用多个连续图像之间的多个视觉特征(例如多个角落)的所述位置来计算一个传感器相对于其周围环境的所述位置和方向。这个过程包括寻找过滤和使用属于所述静态环境和场景中的多个物体的特征。一些执行slam的方法将一个或多个传感器捕获的多个图像的一个或多个序列与一个全球定位系统(gps)传感器捕获的运动信息以及另外或替代地由一个惯性测量单元(imu)捕获的运动信息相结合,以产生多个注册图像的一个序列以及另外或替代地产生一个摄像机路径,包括对于多个注册图像的所述序列中的每一个的一个摄像机位置和一个摄像机方位。可选地,所述多个图像的所述一个或多个序列是多个二维图像的一个或多个序列。67.在一个二维图像中,一个物体可能会掩盖另一个物体。例如,一辆行驶中的运载工具可能会至少是暂时的遮挡住一个交通标志。在另一个例子中,一辆停放的汽车可能会遮挡住一个路边。在一个场景的一个三维模型中,可能更容易检测和分类一个物体。68.一个深度图是一种图像或图像通道,它包含与场景物体的多个表面或点与一个视点的一个距离有关的信息。当一个图像被一个传感器捕获时,如果有的话,一个相关的深度图包含与多个场景物体的多个表面或多个点离所述传感器的一个距离有关的信息。本文描述的一些实施例提出使用多个密集深度图,其中每个深度图的分辨率与与其相关的捕获的一个图像的分辨率相似,以创建一个场景的一个三维表示,并使用所述场景的所述三维表示来修改在多个图像的一个序列的一个或多个图像中识别的一个或多个物体的注释。优选地,一个密集深度图对一个相关图像的每个像素都有一个深度值。69.在一个场景的一个三维表示中,描述了在多个图像的一个序列中随着时间的推移而捕获的一个三维场景,所述模型中的每个点在所述三维场景中处于一个固定的位置。然而,一个点的内容可能会随着时间而改变。例如,当一个运载工具在所述三维场景中移动时,在一个时间点上可能是空的(空气),在另一个时间点上可能包括所述运载工具的一部分,在另一个时间点上可能又是空的。另一方面,另一个点的内容可能随着时间的推移而不改变,例如显示一个交通标志的部分的一个点。70.为简洁起见,此后所述术语"堆叠场景"被用来指一个场景的一个三维表示,并且这些术语可以互换使用。71.这里描述的一些实施例提出将多个注册图像的一个序列和多个密集深度图的一个相应的序列结合起来,在确定的时间范围内产生一个场景的一个三维表示(叠加场景)。可选的是,所述叠加的场景包括在所述确定的时间范围内的多个时间中的每个时间的所述场景的一个表示。可选地,多个注册图像的所述序列是多个二维注册图像的一个序列。可选地,由一个slam过程产生的一个摄像机路径被额外用于产生所述叠加场景。可选地,所述三维模型中的每个点都有一个稳定性分数,表明所述点是静态的可能性,即所述点的内容在所述确定的时间范围内没有变化。使用多个深度图的所述相应的序列有助于计算所述三维模型中每个点的一个稳定性分数。如果多个深度图的所述序列的每个深度图的一个分辨率不低于与之相关的一个相应的图像的一个分辨率,所述三维场景的一个堆叠场景将没有足够高的一个分辨率,无法识别和分类所述三维场景的一个或多个物体,例如,在一个较低分辨率的深度图中无法被采样的一个小物体。由于需要图像中每个像素的深度信息来创建一个场景的一个堆叠场景,可以使用所述数字图像和一个相关深度图之间的插值来代替一个密集深度图,然而这种插值比使用一个密集深度图要不准确。72.可选的是,所述堆叠的场景包括对多个注册图像的所述序列的每个像素在所述三维场景中的位置(点)。可选地,在考虑一个或多个相邻点的一个或多个变化时,计算一个点的一个稳定性分数。73.应该理解的是,多个实施例在应用上不一定局限于本文描述和/或附图和/或实施例中说明的多个部件和/或多种方法的所述结构的多种细节和安排。本文描述的实施方案能够有其他的多种实施例或以各种方式实施或执行。74.多种实施例可以是一个系统、一个方法和/或一个计算机程序产品。所述计算机程序产品可以包括一个计算机可读存储介质(或介质),其上具有多个计算机可读程序指令,用于使一个处理器执行本发明多种实施例的各个方面。75.所述计算机可读存储介质可以是一种有形设备,它可以保留和存储多种指令,供一个指令执行设备使用。所述计算机可读存储介质可以是,例如,但不限于,一个电子存储设备(electronicstoragedevice)、一个磁存储设备(magneticstoragedevice)、一个光学存储设备(opticalstoragedevice)、一个电磁存储设备(electromagneticstoragedevice)、一个半导体存储设备(semiconductorstoragedevice),或上述的任何合适的组合。一个计算机可读存储介质的更具体例子的一个非详尽清单包括:一个便携式计算机软盘、一个硬盘(harddisk)、一个随机存取存储器(randomaccessmemory,ram)、一个只读存储器(read-onlymemory,rom)、一个可擦除可编程只读存储器(erasableprogrammableread-onlymemory,eprom或闪存(flashmemory)、一个静态随机存取存储器(staticrandomaccessmemory,sram)、一个便携式光盘只读存储器(portablecompactdiscread-onlymemory,cd-rom)、一个数字多功能盘(digitalversatiledisk,dvd)、一个记忆棒(memorystick)、一个软盘(floppydisk),以及上述的任何适当组合。本文所使用的计算机可读存储介质不应理解为多个暂时性信号本身,如多个无线电波或其他自由传播的电磁波、通过一个波导或其他传输介质传播的多种电磁波(例如,通过光缆的光脉冲),或通过一个电线传输的多个电信号。76.本文所述的多个计算机可读程序指令可以从一个计算机可读存储介质下载到相应的多个计算/处理设备,或者通过一个网络下载到一个外部计算机或外部存储设备,例如,所述因特网(internet)、一个局域网(localareanetwork)、一个广域网(wideareanetwork)和/或一个无线网络(wirelessnetwork)。所述网络可以包括多种铜质传输电缆(coppertransmissioncables)、多种光传输纤维(opticaltransmissionfibers)、无线传输(wirelesstransmission)、多种路由器(routers)、多种防火墙(firewalls)、多种交换机(switches)、多种网关计算机(gatewaycomputers)和/或多种边缘服务器(edgeservers)。每个计算/处理设备中的一个网络适配器卡或网络接口从所述网络中接收多种计算机可读程序指令,并将所述多种计算机可读程序指令转发到所述相应的计算/处理设备内的一个计算机可读存储介质中存储。77.用于执行多个实施例操作的多种计算机可读程序指令可以是多种汇编器指令、多种指令集架构(instruction-set-architecture,isa)指令、多种机器指令、多种机器依赖指令、微代码、多种固件指令、状态设置数据,或以一种或多种编程语言的任何组合编写的源代码或目标代码,包括面向一个物件的编程语言,如smalltalk、c++或类似语言,以及多种常规程序性编程语言,如"c"编程语言或多种类似编程语言。所述多种计算机可读程序指令可以完全在所述用户的计算机上执行,部分在所述用户的计算机上执行,作为一个独立的软件包,部分在所述用户的计算机上执行,部分在一个远程计算机上执行或完全在所述远程计算机或服务器上执行。在所述后一种情况下,所述远程计算机可以通过任何类型的网络连接到所述用户的计算机,包括一个局域网(localareanetwork,lan)或广域网(wideareanetwork,wan),或者所述连接到一个外部计算机(例如,通过所述互联网使用一个互联网服务提供商)。在一些实施例中,包括例如可编程逻辑电路、现场可编程门阵列(field-programmablegatearrays,fpga)或可编程逻辑阵列(programmablelogicarrays,pla)的电子电路可以通过利用多种所述计算机可读程序指令的状态信息来执行所述计算机可读程序指令,以使所述电子电路个性化,从而执行多个实施例的各个方面。78.本文参照根据多个实施例的方法、多个装置(系统)和计算机程序产品的流程图说明和/或多个框图来描述多个实施例的各方面。可以理解的是,所述流程图说明和/或多个框图中的每个框,以及多个流程图说明和/或多个框图中的框的组合,可以通过多个计算机可读程序指令实现。79.这些计算机可读程序指令可提供给一个通用计算机、一个专用计算机或其他可编程数据处理装置的一个处理器,以制造一台机器,从而使通过所述计算机或其他所述可编程数据处理装置的所述处理器执行的指令创造出实现所述流程图和/或框图中一个框或多个框所规定的功能/行为的多种手段。这些计算机可读程序指令也可以存储在一个计算机可读存储介质中,所述介质可以指示一个计算机、一个可编程数据处理装置和/或其他装置以特定方式运行,这样,所述具有存储在其中的多个指令的所述计算机可读存储介质包括一个制造品,其中包括实现所述流程图和/或框图块中一个框或多个框指定的功能/行为的各个方面的多个指令。80.所述多个计算机可读程序指令也可以加载到一个计算机、其他可编程数据处理装置或其他设备上,以使一系列的多个操作步骤在所述计算机、其他可编程装置或其他设备上执行,从而产生一个所述计算机实现的过程,这样,在所述计算机、其他可编程装置或其他设备上执行的指令实现了所述流程图和/或多个框图块中一个框或多个框指定的多种功能/行为。81.多个图中的多个所述流程图和框图说明了根据各种实施例的多种系统、多种方法和多种计算机程序产品的多种可能实施方案的结构、功能和操作。在这方面,多个所述流程图或框图中的每个框可以代表指令的一个模块、段或多个部分,它包括一个或多个用于实现指定逻辑功能的多个可执行指令。在一些替代性的实施方案中,所述框中指出的多个功能可以不按多个图中指出的顺序出现。例如,连续的两个框实际上可能基本上是同时执行的,或者这些框有时可能以所述相反的顺序执行,这取决于所涉功能。还将注意到,所述多个框图和/或流程图说明中的每个框,以及所述多个框图和/或流程图说明中的多个框的组合,可以由基于多种特殊用途的多个硬件系统来实现,这些系统执行指定多种功能或行为,或执行多种特殊用途硬件和多个计算机指令的多个组合。82.现在参考图1,示例性地表示根据一些实施例的多种操作100的一个可选流程的流程图。还参考图8,其是根据一些实施例的用于注释多个图像和/或在注释图像上训练一个机器学习模型(例如,在包括注释图像的训练数据集上)的系统的一个框图。83.系统800可以实现参照图1-7b和图9-10描述的方法的行为。可选择通过一个计算设备804的一个硬件处理器802执行存储在一个存储器806中的多个代码指令806a和/或806b。84.计算设备804可以实现为例如以下的一个或多个和/或组合:一组连接的设备、一个客户终端、一个服务器、安装在运载工具850内的一个计算设备(例如,运载工具子系统、一个运载工具ecu、一个连接到运载工具网络的客户设备、安装在一个现有运载工具计算部件上的代码)。一个运载工具子系统、一个运载工具ecu、连接到一个运载工具网络的一个客户设备、安装在一个现有运载工具计算部件上的代码)、一个虚拟服务器、一个计算云、一个虚拟机、一个桌面计算机、一个笔记型计算机、一个网络节点和/或一个移动设备(例如,一个智能手机、一个平板计算机、一个笔记本电脑、一个可穿戴计算机、一个眼镜计算机和一个手表计算机)。85.计算设备804可以实现为安装在运载工具850内的一个组件,例如,一个运载工具子系统850a和/或运载工具ecu的专用组件、连接到一个运载工具网络的一个客户设备(例如,通过一个电缆连接的直接连接,和/或通过一个临时无线网络的连接),和/或安装在一个现有运载工具计算组件上的代码。86.运载工具850的多种子系统850a包括可根据由至少一ml模型822b送来的多个实时图像和/或其他传感器数据所确定的对象来调整和/或控制的部件,例如,用于自动控制所述运载工具。87.在基于一个中央服务器的实施方案的一个例子中,计算设备804可以包括本地存储的软件,所述软件执行参照图1-7b和9-10描述的一个或多个行为,和/或可以作为一个或多个服务器(例如,互联网服务器、网络服务器、一个计算云、虚拟服务器),所述服务器从一个或多个客户终端808(例如,与不同运载工具,例如自主运载工具相关的本地计算机)接收图像和/或其他传感器数据,和/或提供服务(例如,参照图1-7b和9-10所述的一个或多个行为)。图1-7b和9-10通过一个网络810向一个或多个客户终端808提供服务,例如,可与运载工具850相关联的多个客户终端808与计算设备804建立通信会话,客户终端808向计算设备804提供多个图像和/或从计算设备804获得经过训练的一个机器学习模型822b以用于本地安装。88.在一些实施方案中,多个客户终端808可以从相应的至少一成像传感器812和/或其他相应的至少一传感器826提供相应的多个图像,以创建一个中央主注释数据集822a。例如,每个客户终端808与相应的运载工具850相关联,例如,作为一个车载计算机、一个ecu850a和/或一个移动设备与运载工具850形成一个临时无线和/或有线连接。每个运载工具850上都安装有至少一成像传感器812和/或至少一其他传感器826,例如,多个板载摄像机、多个板载传感器、多个可附加传感器等。在运载工具850行驶时,例如由一个人类驾驶员驾驶和/或自动驾驶时,多个图像可由至少一成像传感器812捕获和/或由运载工具850的至少一其他传感器826捕获其他数据。通过对接收到的图像进行注释来创建一个注释数据集822a,这种方法在这里描述,例如,图1-7b和9-10使用代码806a。这创造了大量的注释图像,否则使用标准接近方法是无法获得的,例如,提供小标志和/或其他物体的注释,部分描绘的多个标志和/或多个物体,照明不良的多个标志和/或其他多个物体,等等。注释的数据集822a可以是一个中央主注释的数据集822a,其中包括来自多个不同的运载工具的多个注释图像。一个中央主机器学习模型822b可以在中央主注释数据集822a上训练,例如,使用训练代码806b。相同的中央主ml模型822b可以被提供给多个客户终端808,例如,用于在其上本地安装以进行本地化使用,例如存储在与多个客户终端808相关联的多个相应的运载工具850的一个存储器和/或数据存储设备上。ml模型822b可用于运载工具850的自动驾驶,例如,用于实时识别运载工具的多个成像传感器中捕获的多个物体。这可以创建例如在多个不同的地理位置和/或不同的天气条件和/或不同的光照条件,以及其他不同的多个条件下的不同运载工具中使用的一个通用ml模型。89.在其他例子中,计算设备804可以向多个单一客户终端808和/或为一组客户终端808提供多种定制服务。所述多种的定制的服务可以集中地提供,例如,由一个计算设备804的一个服务器实现,所述服务器向多个客户终端808提供定制服务。所述定制的服务可以被本地提供,例如,由计算设备804的一个本地计算机实现,所述计算机向特定的多个客户终端808提供定制的本地服务。每个客户终端808从其相应的至少一个成像传感器812和/或从其他相应的至少一传感器826提供其相应的多个图像,以创建针对所述客户终端和/或针对一组客户终端的个性化的一个注释数据集822a。所述个性化的注释数据集822a是由本文所述的用于注释多个图像的实施例创建的。一个定制的机器学习模型822b可以在所述定制的注释数据集822a上训练。所述定制的ml模型822b可以被提供给所述特定的客户终端或组808,例如,用于在其上进行本地安装以进行本地化使用,例如由与所述至少一特定的客户终端808相关联的至少一特定运载工具使用。这可以创建例如用于特定运载工具的一个特定ml模型,例如用于多种摩托车、多种卡车、多种警车、多种船只和多种豪华运载工具。所述具体的ml模型可以用于多个不同的地理位置,如多种不同的国家,多种标志可用不同的多种语言,多种运载工具在道路的所述左侧或所述右侧行驶,用于平坦的地形或多种起伏的山丘,等等。90.计算设备804可以向所述至少一客户终端808提供例如一种软件即服务(softwareasaservice,saas)、用于本地下载到所述至少一客户终端808的应用程序、作为一种本地运行的应用程序的一种附加组件、和/或使用一种远程访问会话到所述多个客户终端808的功能,例如通过一种本地运行的应用程序。91.需注意的是,至少一种的ml模型822b的训练可以由计算设备804本地执行,和/或由另一设备,例如,服务器,远程执行,其中所述训练的至少一种ml模型822b可以被提供给计算设备804和/或由至少一计算设备804远程存取,和/或提供给至少一客户终端808。对多种图像进行注释以创建注释数据集822a可以由计算设备804执行。92.需注意的是,计算设备804接收由至少一成像传感器812和/或其他至少一传感器826捕获的图像和/或其他传感器数据,例如,直接来自多种传感器、来自在运载工具850上运行的一个计算机、来自连接到运载工具850和至少一传感器的一个客户终端808,和/或通过一个图像存储库,例如服务器818(例如,pacs服务器、云存储、硬盘),其中多个图像和/或其他传感器数据由客户终端808和/或运载工具850和/或多种传感器812和/或826首先上传。93.示例性的至少一成像传感器812包括:一个静止摄像机、立体摄像机、一个视频摄像机、一个二维传感器、一个三维传感器、一个彩色传感器、一个黑白传感器、多种标准可见光传感器(例如,ccd、cmos传感器和/或红绿蓝(rgb)传感器)、短波红外(short-waveinfrared,swir)传感器、和近红外(nearinfrared,nir)传感器。94.示例性的至少一其他传感器826包括:lidar传感器(例如,用于生成深度图)、gps和imu。95.由至少一成像传感器812捕获的多个样本图像和/或由其他至少一传感器826捕获的其他数据可以存储在一个存储库中,例如至少一个服务器818,例如,一个存储服务器、一个计算云、虚拟存储器和一个硬盘。96.至少一注释数据集822a是通过用本文所述的识别多种物体的一个基准真相的指示来注释图像而创建的。97.至少一训练数据集822c可基于至少一注释数据集822a创建,如本文所述。98.至少一机器学习模型822b可以在至少一训练数据集822c上进行训练,如本文所述。99.计算设备804可以使用一个或多个数据接口820从至少一个成像传感器812和/或至少一个其他传感器826、814接收所述多个样本图像和/或其他数据,例如,一个电线连接(例如,物理端口)、一个无线连接(例如,天线)、一个本地总线(localbus)、用于连接一个数据存储设备的一个端口、一个网络接口卡(networkinterfacecard)、多种其他物理接口设备和/或虚拟接口(例如,软件接口(softwareinterface)、虚拟专用网络(virtualprivatenetwork,vpn)连接、应用程序编程接口(applicationprogramminginterface,api)、软件开发工具包(softwaredevelopmentkit,sdk))。替代或补充的是,计算设备804可以从至少一客户终端808和/或至少一服务器818接收所述多种图像和/或其他数据。100.至少一硬件处理器802可以被实现,例如,作为至少一个中央处理单元(cpu)、至少一图形处理单元(gpu)、至少一现场可编程门阵列(fpga)、至少一数字信号处理器(dsp)和至少一特定应用集成电路(asic)。至少一处理器802可以包括一个或多个处理器(同质(homogenous)或异质(heterogeneous)),它们可以被安排为并行处理,作为多个集群和/或作为一个或多个多核的多种处理单元。101.存储器806(在此也被称为一个程序存储器,和/或数据存储设备)存储代码指令,以便由至少一硬件处理器802执行,例如,一个随机存取存储器(ram),一个只读存储器(rom),和/或一个存储设备,例如,非易失性存储器,磁介质,多种半导体存储设备,硬盘,可移动存储,和光学媒体(例如,dvd,cd-rom)。存储器806存储代码806a和/或训练代码806b,所述代码实现了参照图1-7b和8-10所述方法的一个或多个行为和/或特征。102.计算设备804可以包括用于存储数据的数据存储设备822,例如,用检测到的物体注释的多种样本图像的至少一种注释数据集822a,如本文所述的至少一种机器学习模型822b和/或用于训练至少一机器学习模型822b的训练数据集822c,如本文所述。数据存储设备822可以实现为例如一个存储器、一个本地硬盘、一个可移动存储设备、一个光盘、一个存储设备,和/或作为一个远程服务器和/或计算云(例如,通过网络810存取)。注意到,存储在数据存储设备822中的数据的执行代码部分可以被加载到存储器806中以便由至少一处理器802执行。103.计算设备804可以包括数据接口824,可选地是一个网络接口,用于连接到网络810,例如,一个网络接口卡、用于连接到无线网络的一个无线接口、用于连接到用于网络连接的电缆的一个物理接口、在软件中实现的一个虚拟接口、提供更高层的网络连接的网络通信软件和/或其他实现方式中的一个或多个。计算设备804可以使用网络810存取一个或多个远程服务器818,例如,下载和/或提供多种图像、其他数据、至少一种机器学习模型822b的多种更新版本、代码806a、训练代码806b和/或至少一种训练数据集822c。104.计算设备804可以使用网络810(或另一通信渠道,例如通过一种直接链接(例如电缆、无线)和/或壹种间接链接(例如通过一种中间计算设备,例如一个服务器,和/或通过一个存储设备)与以下一个或多个进行通信:105.*运载工具850,例如,接收由至少一成像传感器812和/或至少一其他传感器826捕获的多种图像和/或其他数据。为了提供训练有素的ml模型822b,以安装在运载工具850上,供一个自动运载工具程序使用。106.*至少一客户终端808,例如,与运载工具850相关联。107.*服务器818,它可以存储由成像传感器812和/或至少一其他传感器826捕获的多种样本图像。108.需要注意的是,成像接口820和数据接口824可以作为两个独立的接口(例如,两个网络端口)、作为共同的物理接口上的两个虚拟接口(例如,共同的网络端口上的多种虚拟网络)和/或集成到单个接口(例如,网络接口)而存在。109.计算设备804包括或与用户界面826通信,所述用户界面包括为一个用户输入数据(例如,输入手动注释)和/或查看数据(例如,查看所述注释的数据集)而设计的机制。示例性的多种用户界面826包括,例如,一个触摸屏、一个显微镜、一个显示器、一个键盘、一个鼠标和使用多种扬声器和麦克风的语音激活软件中的一个或多个。110.现在回到图1,在一些实施例中,在101中,从一个或多个图像的多個序列中产生多个注册图像的一个序列。可选地,在102中,多个图像的一个序列被用来产生一个堆叠的场景。可选地,所述堆叠的场景被用于检测和注释,即对多个图像的一个或多个序列中的一个或多个物体进行分类和识别一个边界框。可选地,多个图像的所述序列是多个图像的一个或多个序列中的一个,用于产生101中的多个注册图像的所述序列。可选地,多个图像的所述序列是多个注册图像的所述序列。可选地,在103中,所述堆叠的场景被用于检测和注释多个图像的所述序列中的一个或多个静态物体,即在所述确定的时间范围内不移动的一个或多个物体。可选地,在104中,所述堆叠的场景被用来检测和注释多个图像的所述序列中的一个或多个动态物体,即在所述确定的时间范围内移动的一个或多个其他物体。可选的是,所述一个或多个动态物体是在所述一个或多个静态物体被检测和注释后被检测和注释的。111.现在还参考图2,示例性地表示根据一些实施例的多个操作的另一个可选的操作流程200的一个流程图,显示一些更多的多个细节。可选地,系统800的至少一个硬件处理器802执行方法200作为代码806a。可选地,在201中,用于创建所述堆叠场景的所述多个的密集深度图是使用多个图像的所述序列创建。可选地,在102中通过进一步使用在202中由一个slam过程产生的一个摄像机路径来创建所述堆叠的场景。可选地,在202中,所述slam过程被应用于多个数字图像的所述序列。可选地,在103中检测和分类所述一个或多个静态物体时,以及,替代或补充地,在104中检测和分类所述一个或多个动态物体时,使用由所述slam过程产生的多个注册图像的一个序列。112.现在还参考图3,示例性地表示根据一些实施例的多个操作300的又一可选流程的一个流程图,以显示进一步的多个细节。可选地,系统800的所述至少一个硬件处理器802执行方法300作为代码806a。为了检测和注释一个或多个静态物体,在一些实施例中,在301中从所述堆叠的场景中移除多个不稳定的点,以便在302中产生一个静态堆叠的场景,包括可能是一个或多个静态物体的一部分的多个点。可选地,所述多个不稳定的点根据它们相应的稳定性分数被识别。例如,一个不稳定的点可以是一个具有低于一个确定的稳定性阈值的一个稳定性分数的一个点。可选地,在301中使用统计分析来识别多个不稳定点,例如,使用聚集和聚类方法。可选地,每个被移除的点在所述静态叠加场景中被设置为未定义。113.可选地,所述静态叠加场景在103中被用于检测和注释图像序列的一个或多个图像中的一个或多个静态物体。可选地,一个或多个注释被用于从多个图像的所述序列中生成多个注释的图像的一个序列。可选地,对于多个图像的所述序列中的一个图像,通过从所述图像中提取根据所述静态叠加场景确定的多个静态像素,例如通过将所述静态叠加场景投射到所述图像上,产生一个相应的静态图像。可选地,在所述静态图像中检测出一个或多个静态物体,并替代或补充地进行注释,例如使用一个经过训练的分类机器学习模型来检测和替代或补充地对一个图像中的一个或多个物体进行分类,并替代或补充地识别所述物体的一个绑定框。114.可选地,当根据多个注册图像产生所述堆叠场景时,可将所述堆叠场景中识别的一个物体的一个二维边界框或一个三维边界框投射到多个注册图像所产生的多个图像的一个序列中的一个或多个图像中。可选地,将一个物体或一个物体的一个边界框投射到一个图像上使用跟踪,以预测对所述图像的一个投射。可选地,将所述物体的所述边界框投射到所述图像上被用来验证所述图像中所述物体的注释。可选地,根据所述物体的一个预期投影和一个物体在所述图像中检测到的一个位置和分类之间的一个差异,修改所述物体的注释。115.可选地,在一个图像中检测到的一个物体被识别为根据所述叠加场景在另一个图像中检测到的另一个物体,因为所述叠加场景是根据所述多个注册图像产生的。可选地,根据在另一图像中识别的所述物体的另一种分类,更新在一个图像中识别的所述物体的一个分类。116.现在还请参考图4a,它显示了根据一些实施例的用于注释一个物体的一个可选操作流程400。在这样的多个实施例中,在401中,在所述堆叠的场景中确定了一个物体。可选地,所述物体在所述静态堆叠场景中被识别。可选地,在402中,所述堆叠场景中的所述物体的一个边界框被投射到多个图像的所述序列的一个图像上。所述边界框可以是一个二维边界框。所述边界框可以是一个三维边界框。在403中,根据所述投射的边界框,一个第一物体被选择性地用一个第一注释在一个图像中进行注释。117.现在还请参考图4b,根据一些实施例,显示了用于投射到一个图像上的可选的多个操作的一个流程450。在这样的多个实施例中,在多个迭代中的一个中计算出多个置信度分数。可选地,在多个迭代中的每个迭代中,在451中,所述物体的所述边界框被投射到多个图像的所述序列的一个图像上,并且在452中,可选地在所述图像中对一个物体进行注释。可选地,所述注释有一个置信度分数,表示所述物体被正确注释的可能性。在453中,可选地确定多个置信度分数中的一个最高置信度分数。可选地,在454中,与所述最高置信度分数相关的一个图像被用作402和403的一个图像。118.现在再次参考图4a。可选地,在404中,所述边界框被投影到多个图像的所述序列的另一图像上。可选地,在405中,根据所述投影的边界框,在另一图像中用一个第二注释对一个第二物体进行注释。可选地,在406中,所述第一物体被识别为所述第二物体,可选地,因为两者都是根据在所述堆叠场景中识别的所述物体的所述边界框来注释的。可选地,在407中,所述第一注释根据所述第二注释被修改。可选地,在多个图像的所述序列中,所述一个图像先于所述另一个图像。可选地,在多个图像的所述序列中,所述另一图像先于所述一图像。可选地,402、403、404、405、406和407在所述物体的多个迭代中被重复。可选地,对于在所述堆叠场景中确定的另一个物体,在另一个多次迭代中重复方法400。119.可选地,从所述物体出现在其中的多个图像中建立所述物体的一个超分辨率图像,组成它所包含的多个物体的多个特征和多个细节,从而能够基于它们进行更好的分类。可选地,在407中,根据所述其他分类,更新图像中识别的所述物体的一个边界框。例如,如果一个物体在所述图像中被分类为一个自行车,后来在所述另一图像中被分类为一个摩托车,则所述图像中的所述物体的分类可选择地根据所述另一图像中的所述物体分类而改变为一个摩托车。可选地,所述图像中所述物体的所述边界框根据所述物体被分类为一个摩托车而不是一个自行车而改变。在另一个例子中,可以在一个第一幅图像中检测到一个交通标志,但是所述标志的细节可能无法从所述第一幅图像中获得,因此将所述标志分类为一个一般的交通标志。当所述交通标志在一个第二幅图像中被分类为一个限速标志时,所述标志可在所述第一幅图像中被重新分类为一个限速标志。同样地,从所述叠加场景中建立的一个超分辨率图像可用于更新所述第二种注释。120.可选地,根据在多个图像的所述序列中检测和注释的一个或多个静态物体,修改所述堆叠场景的一个或多个稳定性分数。例如,与一个静态物体中的一个像素相关的所述叠加场景中的一个点可以被赋予一个稳定性分数,指示所述点的一个静态物体。121.现在再次参考图3。122.提出了两个可选的迭代循环:123.1.利用所述多个静态物体的分类,通过提高所述slam对所述静态环境和多个物体的区分度,以提高多个其计算结果。124.2.跟踪动态物体的多个边界框,以提高其检测和分类。125.可选地,这个过程反复进行,修改一个或多个图像中的一个或多个物体的分类。可选地,这个过程被重复,直到达到稳定,可选地根据一个或多个测试来确定,例如当一个分类变化量低于一个确定的变化阈值时,和/或在确定的迭代量上确定变化的一个最小点。值得注意的是,其他图像可以在多个图像的所述序列中的所述图像之前,反之,所述其他图像可以在多个图像的所述序列中的所述图像之后。因此,所述迭代过程可以在多个图像的所述序列中向前和向后移动。可选的是,一个预期注释和一个注释之间的一个差异最小化是使用所述堆叠场景完成的,而不是将所述堆叠场景中识别的一个物体的一个模型或所述物体的边界框投射到多个所述图像本身。126.可选地,所述场景的所述堆叠场景表示被用于修改多个注册图像中的至少一些,以及替代或补充地修改与多个注册图像中的至少一个相关的至少一个摄像机位置和方向。可选的是,在表示所述场景的所述堆叠场景之外,还生成一个物体的一个三维模型。替代,或补充地,一个物体的一个三维模型被用来修改所述多个注册图像中的至少一些图像,以及,利用所述物体的所述三维模型和所述堆叠场景之间的一个误差的一个最小化,替代或补充地关联与所述多个注册图像中的至少一个注册图像相关的至少一个摄像机位置和方向。替代,或补充地,根据所述物体的一个分类选择的一个理想物体的一个理想三维模型被用来修改所述多个注册图像中的至少一些,替代或补充地修改与所述多个注册图像中的所述至少一个相关联的所述至少一个摄像机的位置和方向。可选地,对于在多个图像中的一个图像中识别的一个物体,根据所述堆叠的场景计算多个图像中的另一个图像的一个预期的边界框。可选地,所述预期的边界框是根据由于所述图像和另一所述图像之间的视点的一个差异造成预期的多个细节的损失或多个细节的变化来计算,例如,根据202中的所述slam过程的一个输出使用跟踪(tracking)。计算所述预期的边界框的多个其他考虑因素包括所述物体的预期截断、所述物体的预期遮挡、所述物体的预期尺寸和所述物体的预期位置。可选地,将所述预期的边界框与所述另一图像中确定的所述物件的一个边界框进行比较。可选地,根据所述识别的边界框和所述预期的边界框之间的一个差异,至少一些所述多个注册图像,以及替代或补充地,与多个注册图像中至少一个注册图像相关的至少一个摄像机位置和方向被修改。127.可选地,根据所述修改后的多个注册图像和所述修改后的至少一个摄像机位置和方向生成一个新的静态叠加场景。可选地,根据所述新的叠加场景,重新检测一个或多个静态物体,并替代或补充地重新注释。可选地,根据修改后的多张注册图像和修改后的至少一个摄像机位置和方向,更新新的静态堆叠场景的一个或多个稳定性分数。128.可选地,在多次迭代中的每一次中重复生成一个新的堆叠场景,更新一个或多个物体的多个分类和多个注释,以及更新多个注册图像中的至少一些,替代或补充地更新与所述多个注册图像中的至少一个相关的至少一个摄像机位置和方向。129.可选地,在所述堆叠的场景(或所述新堆叠的场景)中识别一个或多个静态物体。可选地,根据在所述堆叠场景中识别的一个或多个静态物体,更新一个或多个物体的所述序列中的一个或多个物体的分类。130.为了检测和注释一个或多个动态物体,在一些实施例中,在303中从所述叠加场景(或一个新的叠加场景)中移除多个稳定点,以便在304中产生一个动态叠加场景,即包含可能包多个含动态物体的多个点的一个叠加场景。可选地,所述多个稳定点根据它们相应的稳定性分数被识别。例如,一个稳定点可以是具有高于所述确定的一个稳定阈值的一个稳定分数的一个点,所述阈值例如是用多种聚集(aggregation)和聚类(clustering)方法定义的。替代或补充地,多个静态物体可以从所述堆叠的场景(或一个新的堆叠场景)中移除,以产生所述动态堆叠场景。可选的是,所述多个静态物体中的至少一些被检测出来,如上所述。可选地,每个被移除的点被设置为未定义。131.可选地,所述动态叠加场景被用来检测和注释多个图像的所述序列中的一个或多个图像中的一个或多个动态物体。可选地,所述一个或多个动态物体的一个或多个注释被进一步用于从多个图像的所述序列中生成多个注释图像的所述序列。可选地,对于多个图像的所述序列中的一个图像,通过从所述图像中提取根据所述动态叠加场景确定的多个动态像素,例如通过将所述动态叠加场景投射到所述图像上,产生一个相应的动态图像。可选地,在所述动态图像中检测出一个或多个动态物体,并替代或补充地进行注释,例如使用经过训练的一个分类机器学习模型来检测和替代或补充地对一个图像中的一个或多个物体进行分类,并替代或补充地识别所述物体的一个边界框。可选地,所述一个或多个动态物体的一个或多个注释被用来从多个图像的所述序列中产生多个注释图像的所述序列。可选地,通过使用在所述堆叠的场景上产生的所述物体的一个三维模型,并将所述三维模型投射到所述图像上,在动态图像中检测到一个或多个动态物体,并替代或补充地进行注释。可选地,对于在所述多个图像中的一个图像中识别的一个动态物体,根据所述动态堆叠场景计算多个图像中的另一个图像中的一个预期的边界框。可选地,所述预期的边界框是根据预期的多个细节损失或由于所述图像和所述其他图像之间的视点差异造成的多个细节变化来计算的。所述预期的多个细节损失或多个细节变化是由于所述动态物体的运动,例如使用对所述动态物体的所述运动的跟踪(tracking),以及替代或补充地由于所述堆叠场景中多个其他物体的运动而造成的。计算所述预期的边界框的多种其他考虑因素包括所述物体的预期截断、所述物体的预期遮挡、所述物体的预期尺寸和所述物体的预期位置。可选地,将所述预期的边界框与所述另一图像中识别的所述动态物体的一个识别边界框进行比较。可选地,根据所述识别的边界框和所述预期的边界框之间的差异,修改所述动态物体的一个分类和另外或备选的所述动态物体的一个边界框,其中所述差异被用作所述分类过程的一个误差参数,作为一个结果可能将所述物体分类为一个不同的物体,可选地使所述差异最小。替代或补充地,根据所述动态物体的一个分类选择的一个理想物体的一个理想的三维模型被用来计算所述预期的边界框,并且,替代或补充地,所述理想三维模型被用来修改所述动态物体的分类,替代或补充地,所述动态物体的所述边界框。132.可选地,方法400被执行,以便在401中识别所述动态堆叠场景中的所述物体。133.可选地,这个过程被反复地执行,修改一个或多个图像中一个或多个动态物体的一个或多个分类。可选地,这个过程被重复,直到达到稳定性,可选地根据一个或多个测试来确定,例如,当一个或多个动态物体的一个分类变化量低于另一个确定的变化阈值或在所述重复中具有一个最小的误差。需要注意的是,与多个静态物体的分类一样,其他图像可能在多个图像的所述序列中的所述图像之前,反之,所述其他图像可能在多个图像的所述序列的所述图像之后。因此,所述迭代过程考虑的是所述物体的三维模型在所述叠加场景上的所述二维投影,在多个图像的所述序列上的所述二维投影。134.使用多个密集深度图产生的所述叠加场景来识别一个或多个动态物体,有利于在多种恶劣的过渡条件下识别和注释一个或多个物体,例如,在隧道的一个入口处或一个出口处的过渡,该处的光照度突然变化,因此所述摄像机处于突然失明或过度曝光状态,替代或补充地注释一个或多个不在一个当前道路水平上的相关物体,例如在另一条道路上的一个运载工具,由于与通过其传感器产生图像的运载工具的所述水平相互连接,替代或补充地在多种城市道路与高速公路之间过渡。135.可选地,从上述多个图像的序列中产生的多个注释图像的序列被用于训练、验证、测试、核实或其任何组合于一种自主驾驶系统,例如一个ads或一个adas,或一个其组件。136.现在参考图9,它是根据一些实施例为训练一个ml模型而创建的一个注释的训练数据集的一种方法的流程图。137.在902,多个数字图像被存取。可选地,在用于创建相应记录的每个迭代中,接收一组数字图像。所述多个数字图像可选择地是一个序列的多个图像,例如,由一个摄像机和/或由一个静止摄像机按顺序捕获。138.所述多个数字图像可以在一个时间间隔内捕获,例如,约1秒、约2秒、约3秒、约0.5-5秒、约1-3秒,或其他多种值。139.所述多个数字图像可由位于多种运载工具上的一个机载摄像机捕获。不同的多种图像集可以由所述同一运载工具上的所述同一摄像机在不同的多个时间间隔内捕获,和/或由多种不同运载工具上的多个不同摄像机捕获。140.在904,多种密集深度图被存取。多种密集深度图可以如本文所述被捕获和/或计算,例如,使用从一个激光雷达(lidar)传感器获得的激光雷达数据。141.在906,可以存取来自其他多种传感器的其他数据,例如,gps、imu等,如本文所述。例如,所述其他传感器数据可被用于将所述slam方法应用于多个图像的所述序列,如本文所述。142.如本文所述,在908处,检测和/或分类多种物体。如本文所述,对所述多个数字图像的所述组的一个或多个图像,例如多个图像的所述序列的一个或多个图像,检测和分类的多个物体。143.检测和分类的多个物体的多个图像可以包括额外的多个图像,这些图像的多个物体不能用多种标准方法检测和分类,但这些多个物体可以用本文所述的多个实施例检测和分类。144.检测到的多个物体可以是多个静态和/或动态的物体,如本文所述。145.可以选择对多个不同的物体进行分类,例如,通过分配一个分类类别,如一个标签,例如,运载工具、标志、行人等。另外,多个物体被分类为一个单一类别,例如,"危险"表示任何危险。146.在910,创建一个记录。所述记录至少包括检测到的所述物体的至少一个图像,以及检测到的和分类物体的一个基准真相标签。所述基准真相可以是,例如,一个边界框,一个箭头,一个分割(segmentation),和一个元数据标签(metadatatag)(例如,分类类别)。147.记录可以包括额外的数据,例如,使用本文描述的多种实施例发现所述物体的所述序列的多个额外图像,没有发现物体的图像(对其而言,所述基准真相缺乏检测到的物体),多种密集深度图,以及其他传感器数据。额外的数据可以包括,例如,在推理过程中预期会发现这种数据的地方,例如,在安装有产生多个深度图的多个传感器的多个运载工具和/或安装有其他多种传感器的多个运载工具中。148.在912,参照902至910描述的一个或多个特征被迭代以创建多种记录。所述多种迭代可以是,例如,在多个时间间隔内和/或对于多个不同的摄像机和/或对于多个不同的运载工具。149.在914,创建包括多个记录的一个训练数据集。可以创建一个或多个训练数据集。多个训练数据集可以是一般的,例如,包括多个不同物体的多个不同图像。多个训练数据集可以是特定的,例如,多个特定场景和/或多个特定物体的多个图像,例如,不同多个国家有不同的多个标志,这些标志可能是多个不同的语言。150.在916,在所述训练数据集上训练一个或多个ml模型。所述训练ml模型是为了响应至少一个目标图像的一个输入,生成至少一个目标物体的一个结果。151.现在参考图10,它是根据一些实施例的由一个训练好的ml模型进行实时物体检测的方法的流程图。152.在1002处,提供所述ml模型。例如,所述ml模型被从一个服务器下载和/或预先安装。所述ml模型可以本地存储在所述运载工具的一个存储器和/或数据存储设备上。所述运载工具可以是全自动的、半自动的,和/或由一个人类驾驶员使用所述ml模型的adas来驾驶。153.例如,参考图9所述,所述ml模型被训练。154.在1004,存取一个或多个数字图像。至少一个数字图像可以使用安装在所述运载工具上的一个成像传感器实时获得。155.多个图像可以是多个单独的图像,或在一个时间间隔内获得的多个图像的一个序列。例如,约1秒、约2秒、约3秒、约0.5-5秒、约1-3秒,或其他数值。156.在1006,可以存取多个密集深度图。多个密集深度图可以使用多个机载传感器捕获和/或计算,例如,如本文所述。在一些实施方案中,没有获得多个深度图。157.在1008,可以存取来自其他多个传感器的其他数据。可以从安装在所述运载工具上的多个其他传感器捕获数据,例如,如本文所述。在一些实施方案中,没有获得其他传感器数据。158.在1010,所述多个数字图像和可选的多个密集地图和/或其他数据被送入所述ml模型。159.在1012,作为所述机器学习模型的一个结果,获得所述目标图像中描绘的至少一个目标物体的指示。160.在1014,可以根据目标对象生成指令。例如,目标物体的指示被另一个过程分析,和/或目标物体的指示被送入一个自动运载工具控制器。161.所述多个指令可以是用于由多个计算机控制器(例如,电路)执行的多个自动指令,例如,多个信号和/或代码。例如,多个生成指令用于自动操纵所述运载工具以避免与所述目标物体相撞,如刹车、减速和转向运载工具。在另一个例子中,生成的多个指令用于自动控制所述运载工具以遵守多个标志,例如,在一个停车标志前停车,根据所述标志上的速度限制减速或加速,等等。162.这些多个指令可以是供一个人类驾驶员执行的多个手动指令。例如,在一个用户界面上产生一个警告(例如,头戴显示器、通过多种扬声器播放的音频信息、一个屏幕上呈现的文本和/或多个图像),以警告所述运载工具的所述驾驶员检测到的目标物体和/或指示所述驾驶员遵守所述交通标志。163.在1016,自动和/或手动地执行多个指令,例如,操纵所述运载工具以避免碰撞到检测到的物体和/或服从多个交通标志。164.在1018,参考1002-1016描述的一个或多个特征被迭代,例如,随着时间的推移,使用连续获得的图像,以提供实时自主运载工具控制和/或实时的多个警告给驾驶员。165.实例166.下面的多个例子展示了上述的多种图像的多种类型。167.现在还请参考图5a和5b,其显示了根据一些实施例,由一个传感器捕获的两个示例性的连续的多个图像和它们相应的多个深度图。在相应的图5a和5b中,所述左半部分描述了由一个传感器在一个场景中捕获的一个图像,所述右半部分描述了所述图像的所述相应的深度图,其中亮度表示一个远处的像素,暗度表示一个近处的像素。在一些实施例中,颜色表示距离。168.现在还请参考图6,其显示了根据一些实施例描述图5a和5b中示例性图像的一个注册叠加的多个示例性图像。在所述图像的所述左侧可以看到一个运载工具的一个涂抹描述,在两个位置可以看到所述同一运载工具,表明它是动态和移动的。为了获得更好的可视性,所述叠加使用了图5a和5b中多个场景图像的jet颜色映射。169.现在还请参考图7a,根据一些实施例,显示一个示范性的静态图像。在此图像中,可能描述所述移动运载工具的多个非静态像素被移除,只留下很可能是稳定的、属于多个静态物体的多个像素。170.现在还请参考图7b,其显示了根据一个一些实施例描述一个重建三维场景的一个示例性图像,使用由一个移动摄像机捕获的多个注册图像生成。171.对各实施例的多种描述是为了说明问题,但并不意味着详尽无遗或仅限于所披露的实施例。对于本领域的普通技术人员来说,许多修改和变化是显而易见的,而不会偏离所述实施例的范围和精神。本文所使用的术语是为了最好地解释多个实施例的多个原理、所述实际应用或对所述市场上发现的多个技术的改进,或使本领域的普通技术人员能够理解本文所披露的多个实施例。172.预计在本技术一个成熟的专利有效期内,将开发出许多相关的注释,所述注释一词的范围旨在包括所有此类新技术的先验。173.本文所用的术语"约"是指±10%。174.多个术语"包括"、"包含"、"包括"、"具有"以及它们的多个连接词是指"包括但不限于"。此术语包括多个术语"由..."和"基本上由..."组成。175.所述短语"基本上由..."意味着所述组合物或方法可以包括额外的多个成分和/或多个步骤,但前提是这些额外的多个成分和/或多个步骤不会实质性地改变所要求的多个组合物或方法的多个所述基本和新颖的特性。176.正如本文所使用的,单数形式的"a"、"an"和"the"包括复数个参考,除非上下文有明确规定。例如,所述术语"一种化合物"或"至少一种化合物"可以包括多个化合物,包括其混合物。177.术语"示范性"在这里是指"作为一个例子、实例或说明"。任何被描述为"示范性"的实施例不一定被理解为比其他多个实施例更优选或更有利,并且/或者排除纳入其他多个实施例的多个特征。178.本文中使用的"可选择"一词是指"在某些实施例中提供,而在其他实施例中不提供"。任何特定的实施例都可以包括多个"可选的"特征,除非这些特征发生冲突。179.在本技术中,各种不同的实施例可以以一个范围的形式呈现。应该理解的是,以范围格式描述只是为了方便和简洁,不应该被理解为对多个实施例的范围的灵活限制。因此,对一个范围的所述描述应被视为已具体披露了所有可能的子范围以及所述范围内的单个数值。例如,对一个范围的描述,如从1到6,应被视为具体披露了子范围,如从1到3,从1到4,从1到5,从2到4,从2到6,从3到6等,以及该范围内的单个数字,例如,1,2,3,4,5,和6。无论所述范围的所述广度如何,这都适用。180.每当这里指出一个数字范围时,它的意思是包括所指出范围内的任何引用的数字(分数或积分)。"在第一指示数字和第二指示数字之间的范围",和“从第一指示数字到第二指示数字的范围”,在本文可以互换使用,并且意味着包括所述第一和所述第二指示数字以及其间的所有分数和积分数字。181.可以理解的是,为了清晰起见,在单独的实施例中描述的多个实施例的某些特征,也可以在一个单一的实施例中组合提供。反之,为简洁起见,在单个实施例的上下文中描述的实施例的各种特征,也可以单独提供,或以任何合适的子组合提供,或在任何其他描述的实施例中合适地提供。在各种实施例的上下文中描述的某些特征不应视为这些实施例的基本特征,除非所述实施例在没有这些要素的情况下是无法操作的。182.尽管已经结合具体的多个实施例对多个实施例进行了描述,但很明显,对于本领域的技术人员来说,许多替代方案、修改和变化都是显而易见的。因此,其目的是包含所有属于所附权利要求的精神和广泛范围内的此类替代方案、修改和变化。183.本说明书中提到的所有多个出版物、多个专利和多个专利申请在此通过引用全部并入本说明书,其程度与每个单独的出版物、专利或专利申请被具体和单独表明通过引用并入本说明书的程度相同。此外,本技术中对任何参考文献的引用或识别不应解释为一个承认所述参考文献可作为现有技术的多个实施例。在使用章节标题的情况下,它们不应该被解释为一定是限制性的。184.此外,本技术的所有优先权文件在此以供参照方式全部纳入。当前第1页12当前第1页12
技术特征:
1.一种用于注释多个数字图像的方法,包括:从多个数字图像和多个密集深度图,生成表示一个场景的一个对齐的三维叠加场景,其中所述多个密集深度图中的每个都与所述多个数字图像中的一个关联,其中所述多个数字图像由所述场景中的至少一个传感器捕获,并且所述三维叠加场景中的每个点都与指示所述点与所述场景中的一个静态物体关联的可能性的一个稳定性分数关联;从所述三维叠加场景中移除多个不稳定的点,以产生一个静态的三维叠加场景;根据所述静态的三维叠加场景,在所述多个数字图像的至少一个中检测出至少一个静态物体;以及对所述至少一个静态物体分类和注释。2.根据权利要求1所述的方法,其中根据所述静态的三维叠加场景检测出所述至少一个静态物体包括:通过将所述静态的三维叠加场景投射到至少一个图像上,在所述至少一个图像中识别一组静态像素;从所述至少一个图像中提取所述组静态像素,以创建一个静态图像;及检测所述静态图像中的所述至少一个静态物体。3.根据权利要求1所述的方法,进一步包括:根据所述静态的三维叠加场景,在所述多个数字图像中的至少一个其他数字图像中检测出至少一个其他静态物体;根据所述静态的三维叠加场景,识别所述至少一个静态物体是所述至少一个其他静态物体;及根据对所述至少一个静态物体的一个分类和注释,分类和注所述至少一个其他静态物体。4.根据权利要求3所述的方法,其中所述至少一个数字图像在多个数字图像的所述序列中先于所述至少一个其他数字图像。5.根据权利要求3所述的方法,其中所述至少一个所述其他数字图像在多个数字图像的所述序列中的所述至少一个数字图像之前。6.根据权利要求1所述的方法,其中根据所述静态的三维叠加场景检测所述至少一个静态物体包括检测所述静态的三维叠加场景中的所述至少一个静态物体。7.根据权利要求1所述的方法,进一步包括:将一个同步定位和映射(slam)方法应用于多个数字图像的所述序列,以产生多个注册的数字图像和包括与之关联的多个摄像机位置和多个摄像机方向的一个摄像机路径;其中,通过使用所述多个注册的数字图像和所述摄像机路径生成所述叠加场景。8.根据权利要求1所述的方法,进一步包括:从所述叠加场景中去除多个稳定点,以产生一个动态的三维叠加场景;根据所述动态的三维叠加场景,在所述多个数字图像中的至少另外一幅中检测出至少一个动态物体;以及对所述至少一个动态物体进行分类和注释。9.根据权利要求8所述的方法,其中根据所述动态的三维叠加场景检测所述至少一个动态物体包括:
通过将所述动态的三维叠加场景投射到所述至少一个额外的其他图像上,在所述至少一个额外的其他图像中识别一组动态像素;从至少一个所述其他图像中提取所述组动态像素,以创建一个动态图像;以及检测所述动态图像中的所述至少一个动态物体。10.根据权利要求8所述的方法,进一步包括:根据所述动态的三维叠加场景,在所述多个数字图像中的至少另一个其他数字图像中检测出至少一个其他动态物体;根据所述动态的三维叠加场景,识别所述至少一个动态物体是所述至少一个其他动态物体;及根据对所述至少一个动态物体的分类和注释,分类和注释所述至少一个其他动态物体。11.根据权利要求10所述的方法,其中所述至少一个额外的其他数字图像在多个数字图像的所述序列中先于所述至少另一个其他数字图像。12.根据权利要求10所述的方法,其中所述至少一个另一个其他数字图像在多个数字图像的所述序列中的所述至少一个额外的其他数字图像之前。13.根据权利要求1所述的方法,进一步包括创建包括多个记录的一个训练数据集,其中一个记录包括所述多个数字图像中的至少一个,以及所述至少一个静态物体的一个基准真相标签的指示。14.根据权利要求13所述的方法,其中所述记录进一步包括所述多个数字图像中的至少一个其他数字图像以及根据所述至少一个静态物体的一个分类和注释,对至少一个其他静态物体的一个基准真相标签的指示。15.根据权利要求13所述的方法,其中所述记录进一步包括与所述多个数字图像中的至少一张关联的所述密集深度图。16.根据权利要求13所述的方法,其中所述记录进一步包括所述多个数字图像中的至少一个额外的其他图像,以及至少一个动态物体的一个指示的一个基准真相标签。17.根据权利要求13所述的方法,进一步包括在所述训练数据集上训练一个机器学习模型,用于响应至少一个目标图像的一个输入而生成至少一个目标物体的一个结果。18.根据权利要求13所述的方法,其中,所述训练数据集的多个记录的多个图像是由位于至少一个运载工具上的至少一个摄像机捕获。19.一种一个运载工具为了实时物体识别而生成多个指令的方法,包括:将由位于移动的一个运载工具上的一个摄像机捕获的至少一个目标图像输入到在包括多个记录的一个训练数据集上训练的一个机器学习模型中,其中一个记录包括检测到至少一个静态物体的所述多个数字图像中的至少一个,以及所述至少一个静态物体的一个基准真相标签的指示,所述基准真相标签通过以下方式计算:从多个数字图像和多个密集深度图,生成表示一个场景的一个对齐的三维叠加场景,其中所述多个密集深度图中的每个都与所述多个数字图像中的一个关联,其中所述多个数字图像是由所述场景中的至少一个传感器捕获,并且所述三维叠加场景中的每个点都与指示所述点与所述场景中的一个静态物体关联的可能性的一个稳定性分数关联;从所述三维叠加场景中移除多个不稳定的点,以产生一个静态的三维叠加场景;
根据所述静态的三维叠加场景,在所述多个数字图像的至少一个中检测出至少一个静态物体;以及生成表明对所述至少一个静态物体进行分类和注释的所述基准真相标签;作为所述机器学习模型的一个结果,获得所述目标图像中描述的至少一个目标对象的一个指示;以及根据所述至少一个目标对象生成多个指令。20.根据权利要求19的方法,其中生成多个指令包括生成用于自动操纵所述运载工具以避免与所述至少一个目标物体碰撞的多个指令。21.根据权利要求19的方法,其中生成多个指令包括在一个用户界面上生成一个警告,以警告所述运载工具的一个驾驶员检测到的至少一个目标物体。22.一种一个运载工具为了实时物体识别而训练一个机器学习模型的方法,包括:创建一个包括多个记录的一个训练数据集,其中一个记录包括:由至少一个运载工具的至少一个车载摄像机捕获的多个数字图像中的至少一个;以及在所述多个数字图像中的至少一张中检测到的至少一个静态物体的基准真相标签的指示,所述基准真相标签通过以下方式计算:从多个数字图像和多个密集深度图,生成表示一个场景的一个对齐的三维叠加场景,其中所述多个密集深度图中的每个都与所述多个数字图像中的一个关联,其中所述多个数字图像是由所述场景中的至少一个传感器捕获,并且所述三维叠加场景中的每个点都与指示所述点与所述场景中的一个静态物体关联的可能性的一个稳定性分数关联;从所述三维叠加场景中移除多个不稳定的点,以产生一个静态的三维叠加场景;根据所述静态的三维叠加场景,在所述多个数字图像的至少一个中检测出至少一个静态物体;以及生成表示对所述至少一个静态物体进行分类和注释的一个基准真相标签;以及在所述训练数据集上训练一个机器学习模型,用于响应至少一个目标图像的一个输入而生成至少一个目标物体的一个结果;其中,至少一个目标图像中描绘的至少一个目标对象的所述结果被用来生成控制所述运载工具的多个指令。

技术总结
提供了一种为训练机器学习模型而注释多个数字图像的方法,包括:从多个数字图像和多个密集深度图(每个都与所述数字图像中的一个相关联)生成表示一个场景的一个对齐的三维叠加场景,其中所述多个数字图像由所述场景中的传感器捕获,并且其中所述三维叠加场景中的每个点都与指示所述点与所述场景中的一个静态物体关联的可能性的一个稳定性分数关联;从所述三维叠加场景中删除不稳定的点,以产生静态的三维叠加场景;根据所述静态的三维叠加场景检测至少一个数字图像中的静态物体;以及对所述静态物体进行分类和注释。所述机器学习模型可以在用所述静态物体的基准真相所注释的多个图像上进行训练。个图像上进行训练。个图像上进行训练。


技术研发人员:伊兰
受保护的技术使用者:柯尼亚塔有限公司
技术研发日:2021.09.14
技术公布日:2023/7/12
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐