一种增强场景表示学习的船舶自主航行决策方法与流程

未命名 10-18 阅读:124 评论:0


1.本发明涉及智能船舶领域,具体涉及一种增强场景表示学习的船舶自主航行决策方法。


背景技术:

2.智能船舶市场需求的不断增长,促使智能船舶技术快速发展,船舶自主航行技术是智能船舶的关键技术之一。规范要求符合智能航行功能标志的船舶必须能够在不同航行场景和复杂环境条件下实现船舶的自主航行。
3.目前大多数的船舶自主航行决策技术都假设先验环境已知,缺乏自主学习能力,在面临未知环境时,容易出现错误累积。基于强化学习的决策方法通过智能体(即船舶)与环境进行交互,设置奖惩机制,自动学习最优策略。相较于基于规则的决策方法,强化学习方法能够处理各种未知的环境和场景。
4.然而,由于海上航行环境和会遇场景的复杂性,船舶航行的状态表示应该涵盖异构信息,如与周围船舶的会遇态势、船舶自身的运动特性和航道内的各种静态或动态碍航物等。良好的场景表示对于智能体更好地理解复杂的环境和提高决策能力至关重要。
5.因此,面对复杂的海上航行环境,如何构建和编码船舶航行场景的状态表示,是将强化学习应用到智能船舶自主航行领域的瓶颈。有鉴于此,需要一种新的技术方案来解决上述存在的问题。


技术实现要素:

6.本发明的目的在于提供一种增强场景表示学习的船舶自主航行决策方法。通过增强场景表示,将学习到的本船与周围船舶之间的交互感知以及与计划航线之间的意图感知,运用于基于强化学习的决策方法中,能够大幅提升船舶自主航行决策的安全性与可靠性。
7.为实现上述目的,本发明的增强场景表示学习的船舶自主航行决策方法包括以下步骤:
8.(s1)对船舶航行状态向量化表示:t时刻的航行状态输入s
t
包含本船与周围船舶的历史运动轨迹和未来候选轨迹
9.(s2)搭建多级transformer网络学习航行场景的隐层表示:学习本船与周围船舶之间的交互感知,以及与计划航线之间的意图感知,采用多级结构对多模态信息进行编码,将航行场景状态s
t
映射到隐层表示h
t

10.(s3)采用增强强化学习船舶自主航行决策方法:输入航行场景的隐层表示h
t
,同时学习随机策略网络和双q函数网络,得到船舶自主航行最优策略,给定航行状态,输出最优船舶操纵动作。具体的:
11.步骤s1中,在t时刻,状态输入s
t
包含本船与周围船舶的历史运动轨迹和未来候选轨迹即向量化表示为
12.本船与周围船舶的历史运动轨迹向量化表示为:
[0013][0014]
其中,表示本船的历史运动轨迹,表示本船周围n艘船舶的历史运动轨迹。每个历史运动轨迹具体包括当前时刻t与前th时刻的运动状态序列,即t时刻的船舶运动状态m
t
,具体包括经纬度位置点(x
t
,y
t
)、横向与纵向速度(v
xt
,v
yt
)、航向ψ
t
,即m
t
=(x
t
,y
t
,v
xt
,v
yt

t
)。
[0015]
本船与周围船舶的未来候选轨迹集合向量化表示为:
[0016][0017]
其中,表示本船的候选轨迹集合,表示本船周围n艘船舶的候选轨迹集合。每个候选轨迹集合具体包括当前位置前方的候选路线序列个候选轨迹集合具体包括当前位置前方的候选路线序列每个候选轨迹由未来时间tk上的一系列航路点
[0018]
组成。t时刻的航路点k
t
具体包括经纬度位置与航向角即
[0019]
步骤s2中:学习本船与周围船舶之间的交互感知,以及与计划航线之间的意图感知,采用多级结构对多模态信息进行编码,将航行场景状态s
t
映射到隐层表示h
t

[0020]
多级transformer网络结构包含动态层、跨模态层、聚合层与输出层。
[0021]
动态层对本船与周围船舶的历史运动和候选路径进行编码。利用多头注意力mha、全局最大池化maxpool与多层感知器mlp组成的单层transformer,在时间轴上对本船与周围船舶的历史运动轨迹进行编码,输出船舶运动状态的潜在表示为区分本船与周围船舶的分类特征,将船舶特性emb嵌入由多头注意力mha、全连接层concat与多层感知器mlp组成单层transformer中,输出候选路径点的匹配潜在集其中,其中,为时间掩码。
[0022]
跨模态层仅针对周围船舶,输入由动态层得到的具有运动特性的潜在表示候选路径点的匹配潜在集和时间掩码利用多头注意力mha、全连接层concat与多层感知器mlp组成的单层transformer,输出周围船舶的交叉模态
[0023]
聚合层对本船历史轨迹编码以及周围船舶的交叉模态对本船的影响进行聚合,利用多头注意力mha、全连接层concat与多层感知器mlp组成的单层transformer,输出聚合交互场景表示ag
t

[0024]
输出层增加本船未来路径编码和聚合交互场景表示ag
t
特征,利用多头注意力mha、全连接层concat与多层感知器mlp组成的单层transformer,输出航行状态的潜在表示h
t

[0025]
步骤s3中:提出增强强化学习船舶航行决策方法。
[0026]
输入多级transformer航行场景得到的隐层表示h
t
,同时学习随机策略网络和双q函数网络,得到船舶自主航行最优策略。给定航行状态,输出最优船舶操纵动作。
[0027]
给定隐层表示h
t
,从经验回放数组中采样马尔科夫数组:
[0028]
τ=(s
t
,a
t
,r
t
,s
t+1
,γ)
[0029]
其中,s
t
,a
t
,r
t
分别为t时刻的状态、动作、奖励,s
t+1
为时刻的状态,γ为折扣率。
[0030]
利用当前策略π采样动作a

,计算时间差分目标:
[0031][0032]
其中,h
t+1
为状态s
t+1
经多级transformer得到的隐层表示,表示状态s
t+1
经每个梯度步上通过polyak平均动态更新的目标网络得到的隐层表示。
[0033]
接着,依据平均贝尔曼平方误差,最小化目标:
[0034][0035]
更新双q函数网络参数θ1,θ2。同时,通过soft-q最小化q最小化更新策略参数φ。
[0036]
最后根据得到船舶自主航行最优策略π
φ
,给定航行状态,输出最优船舶操纵动作。
[0037]
本发明与现有的船舶自主航行决策方法相比具有以下优点和效果:
[0038]
1.本发明提出多级transformer网络用于编码异构场景元素的信息,能够有效学习本船与周围船舶之间的交互感知以及与计划航线之间的意图感知,为强化学习生成场景的隐层表示。
[0039]
2.本发明设计了一种新的增强场景表示学习框架,能够有效增强基于强化学习的决策系统在海上复杂航行场景中的应用能力,提高航行决策的安全性和可解释性。
附图说明
[0040]
图1是为本发明的一种增强场景表示学习的船舶自主航行决策方法的框架图。
[0041]
图2为本发明提供的多级transformer算法框架图。
具体实施方式
[0042]
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
[0043]
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图示中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
[0044]
为了阐释的目的而描述了本发明的一些示例性实施例,需要理解的是,本发明可通过附图中没有具体示出的其他方式来实现。
[0045]
如图1、图2所示,本发明提供的一种增强场景表示学习的船舶自主航行决策方法,所述方法包括以下步骤:
[0046]
步骤一:对船舶航行状态向量化表示。
[0047]
在t时刻,状态输入s
t
包含本船与周围船舶的历史运动轨迹和未来候选轨迹向量化表示为:
[0048]
[0049]
本船与周围船舶的历史运动轨迹向量化表示为:
[0050][0051]
其中,表示本船的历史运动轨迹,表示本船周围n艘船舶的历史运动轨迹。每个历史运动轨迹具体包括当前时刻t与前th时刻的运动状态序列:
[0052][0053]
其中,t时刻的船舶运动状态m
t
具体包括经纬度位置点(x
t
,y
t
)、横向与纵向速度(v
xt
,v
yt
)、航向ψ
t

[0054]mt
=(x
t
,y
t
,v
xt
,v
yt

t
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)本船与周围船舶的未来候选轨迹集合向量化表示为:
[0055][0056]
其中,表示本船的候选轨迹集合,表示本船周围n艘船舶的候选轨迹集合。每个候选轨迹集合具体包括当前位置前方的候选路线序列个候选轨迹集合具体包括当前位置前方的候选路线序列
[0057]
每个候选轨迹由未来时间tk上的一系列航路点组成。t时刻的航路点k
t
具体包括经纬度位置与航向角
[0058][0059]
步骤二:搭建多级transformer网络学习航行场景的隐层表示。
[0060]
学习本船与周围船舶之间的交互感知,以及与计划航线之间的意图感知,采用多级结构对多模态信息进行编码,将航行场景状态s
t
映射到隐层表示h
t

[0061]
多级transformer网络结构包含动态层、跨模态层、聚合层与输出层。
[0062]
动态层对本船与周围船舶的历史运动和候选路径进行编码。利用多头注意力mha、全局最大池化maxpool与多层感知器mlp组成的单层transformer,在时间轴上对本船与周围船舶的历史运动轨迹进行编码,输出船舶运动状态的潜在表示:
[0063][0064]
为提取候选路径的时间特性,区分本船与周围船舶的分类特征,将船舶特性emb嵌入由多头注意力mha、全连接层concat与多层感知器mlp组成单层transformer中,输出候选路径点的匹配潜在集:
[0065][0066]
其中,为时间掩码,i=0,1,2,

,n。
[0067]
跨模态层仅针对周围船舶,输入由动态层得到的具有运动特性的潜在表示候选路径点的匹配潜在集和时间掩码利用多头注意力mha、全连接层concat与多层感知器mlp组成的单层transformer,输出周围船舶的交叉模态:
[0068][0069]
聚合层对本船历史轨迹编码以及周围船舶的交叉模态对本船的影响进行聚合,利用多头注意力mha、全连接层concat与多层感知器mlp组成的单层transformer,输出聚合交互场景表示:
[0070]
[0071]
输出层增加本船未来路径编码和聚合交互场景表示ag
t
特征,利用多头注意力mha、全连接层concat与多层感知器mlp组成的单层transformer,输出航行状态的潜在表示:
[0072][0073]
步骤三:提出增强强化学习船舶自主航行决策方法。
[0074]
输入多级transformer航行场景的隐层表示h
t
,同时学习随机策略网络和双q函数网络,得到船舶自主航行最优策略。给定航行状态,输出最优船舶操纵动作。
[0075]
给定隐层表示h
t
,从经验回放数组中采样马尔科夫数组:
[0076]
τ=(s
t
,a
t
,r
t
,s
t+1
,γ)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(12)
[0077]
其中,s
t
,a
t
,r
t
分别为t时刻的状态,动作,奖励,s
t+1
为时刻的状态,γ为折扣率。
[0078]
利用当前策略采样动作计算时间差分目标:
[0079][0080]
其中,a

表示从当前策略π中采样的动作,h
t+1
为状态s
t+1
经多级transformer得到的隐层表示,表示状态s
t+1
经每个梯度步上通过polyak平均动态更新的目标网络得到的隐层表示。
[0081]
接着依据平均贝尔曼平方误差,最小化目标:
[0082][0083]
更新双q函数网络参数θ1,θ2。
[0084]
同时,通过soft-q最小化:
[0085][0086]
更新策略参数φ。
[0087]
最后根据得到船舶自主航行最优策略π
φ
,给定航行状态,输出最优船舶操纵动作。
[0088]
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。

技术特征:
1.一种增强场景表示学习的船舶自主航行决策方法,其特征在于,所述方法包括以下步骤:(s1)对船舶航行状态向量化表示:t时刻的航行状态输入s
t
包含本船与周围船舶的历史运动轨迹和未来候选轨迹(s2)搭建多级transformer网络学习航行场景的隐层表示:学习本船与周围船舶之间的交互感知,以及与计划航线之间的意图感知,采用多级结构对多模态信息进行编码,将航行场景状态s
t
映射到隐层表示h
t
;(s3)采用增强强化学习船舶自主航行决策方法:输入航行场景的隐层表示h
t
,同时学习随机策略网络和双q函数网络,得到船舶自主航行最优策略,给定航行状态,输出最优船舶操纵动作。2.根据权利要求1所述的一种增强场景表示学习的船舶自主航行决策方法,其特征在于:将本船与周围船舶的历史运动轨迹表示为表示为其中,表示本船的历史运动轨迹,表示本船周围n艘船舶的历史运动轨迹;每个历史运动轨迹具体包括当前时刻t与前t
h
时刻的运动状态序列单个时刻的运动状态m
t
具体包括船舶的经纬度位置点(x
t
,y
t
)、横向与纵向速度(v
xt
,v
yt
)、航向ψ
t
。3.根据权利要求1所述的一种增强场景表示学习的船舶自主航行决策方法,其特征在于:将本船与周围船舶的未来候选轨迹集合表示为表示为其中,表示本船的候选轨迹集合,表示本船周围n艘船舶的候选轨迹集合;每个候选轨迹集合具体包括当前位置前方的候选路线序列每个候选轨迹由未来时间t
k
上的一系列航路点组成单个时刻的航路点k
t
具体包括经纬度位置与航向角4.根据权利要求1所述的一种增强场景表示学习的船舶自主航行决策方法,其特征在于:所述多级transformer网络的多级结构包含动态层、跨模态层、聚合层与输出层。5.根据权利要求4所述的一种增强场景表示学习的船舶自主航行决策方法,其特征在于:在多级transformer网络的动态层中,利用分离式时序transformer分别对本船与周围船舶的历史运动和候选路径进行编码表示输出与其中,i=0,1,2,

,n。6.根据权利要求4所述的一种增强场景表示学习的船舶自主航行决策方法,其特征在于:在多级transformer网络的跨模态层中,抽象周围船舶的运动状态,输出周围船舶的交叉模态7.根据权利要求4所述的一种增强场景表示学习的船舶自主航行决策方法,其特征在于:在多级transformer网络的聚合层中,对本船历史轨迹编码以及周围船舶的交叉模态对本船的影响进行聚合,输出聚合交互场景表示ag
t
。8.根据权利要求7所述的一种增强场景表示学习的船舶自主航行决策方法,其特征在于:在多级transformer网络的输出层中,增加本船未来路径编码和聚合交互场景表示ag
t
特征,输出航行状态的潜在表示h
t
。9.根据权利要求1所述的一种增强场景表示学习的船舶自主航行决策方法,其特征在于:在双q函数网络中,给定隐层表示h
t
,从经验回放数组中采样马尔科夫数组τ=(s
t
,a
t
,r
t
,s
t+1
,γ),其中,s
t
,a
t
,r
t
分别为t时刻的状态、动作和奖励,s
t+1
为时刻的状态,γ为折扣
率;利用当前策略采样动作计算时间差分目标y
q
,最后依据平均贝尔曼平方误差,最小化目标标进而更新双q函数网络参数θ1,θ2;将双q函数网络中的时间差分目标y
q
表示为:其中,a

表示从当前策略π中采样的动作,h
t+1
为状态s
t+1
经多级transformer得到的隐层表示,表示状态s
t+1
经每个梯度步上通过polyak平均动态更新的目标网络得到的隐层表示。10.根据权利要求9所述的一种增强场景表示学习的船舶自主航行决策方法,其特征在于:在随机策略网络中,通过soft-q最小化q最小化更新策略参数φ。

技术总结
本发明公开了一种增强场景表示学习的船舶自主航行决策方法,突破将强化学习应用到船舶自主航行领域的瓶颈。首先,对船舶航行状态进行向量化表示;接着搭建多级Transformer网络,对复杂的航行场景中多模态信息进行编码,学习航行场景的隐层表示;最后,提出增强强化学习的船舶自主航行决策方法,同时训练随机策略网络和双Q函数网络,得到船舶自主航行最优策略。本发明通过增强场景表示,将学习到的本船与周围船舶之间的交互感知以及与计划航线之间的意图感知,运用于基于强化学习的船舶自主航行决策方法中,能够大幅提升船舶自主航行决策的安全性与可靠性,推动智能船舶自主航行技术的发展。技术的发展。技术的发展。


技术研发人员:王胜正
受保护的技术使用者:王胜正
技术研发日:2023.08.30
技术公布日:2023/10/15
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐