基于行为对比学习的无监督技能学习方法及系统与流程

未命名 07-15 阅读：92 评论：0

1.本发明总的来说涉及强化学习技术领域。具体而言，本发明涉及一种基于行为对比学习的无监督技能学习方法及系统。

背景技术：

2.在主动强化学习算法中，智能体可以通过主动的环境探索来学习技能，由于智能体在技能学习的过程中不依赖于环境给予的外在奖励，因此该方法被称为无监督技能发现方法。
3.无监督技能发现方法的目的是使智能体在没有奖励信号的情况下，通过与环境交互进行主动的技能发现，被发现的技能可以用于特定的下游任务，并且可以加速下游任务的学习。技能发现可以帮助智能体从环境中自主地学习有用的技能，而不需要手动设定奖励函数或者进行人工干预，例如四足机器人可以在没有专家奖励的情况下通过学习可区分的技能，产生例如站立、行走、跳跃、奔跑等动作。
4.现有的无监督技能发现方法通常通过最大化状态和技能之间的互信息，使用神经网络判别器来近似计算状态和技能之间互信息的变分下界，该方法可以鼓励特定技能产生相似的行为，在不同技能之间产生多样性的行为。此外，现有技术还通过在最大化互信息的基础上增加额外机制来增加技能的多样性，例如通过增加额外的探索机制、利用多个神经网络判别器来评估状态与技能之间的互信息等方法来帮助智能体产生更加多样化的技能。
5.然而现有技术中的智能体在复杂环境中容易产生单一和静态的技能，这些技能的状态覆盖度低，无法提升下游任务的表现。增加额外的机制虽然可以部分解决上述问题，然而也会引入了额外的计算时间开销和模块，对应用系统造成负担。
6.具体来说，现有技术目前局限在低维状态空间的简单场景中(例如二维迷宫和简单的导航任务)，而无法拓展到高维状态空间中(例如机器人的连续控制任务)。主要原因在于现有技术利用最大化状态空间和技能空间之间的互信息来训练智能体多样化的技能行为，然而在复杂任务环境中，状态空间的维度往往很大，该互信息仅仅提供鼓励行为多样化的奖励，而无法提供有效的探索奖励来鼓励智能体覆盖整个状态空间。因此学习得到的技能往往仅局限在状态空间中的一小块区域，限制了智能体在复杂环境中的应用。例如现有技术中，四足机器人难以学习到例如平躺、跪立、原地站立等单一静态的动作。一些现有技术通过引入额外的机制来鼓励覆盖状态空间，然而这些额外的机制同时引入了额外的计算时间开销和模块，有一定的局限性。

技术实现要素：

7.为至少部分解决现有技术中的上述问题，本发明提出一种基于行为对比学习的无监督技能学习方法，包括下列步骤：
8.由智能体与环境进行交互；
9.收集智能体与环境交互过程中的样本，并且将所述样本保存在数据集中，其中所
述样本包括状态、动作以及技能；
10.基于行为对比学习对所述样本进行奖励标记；以及
11.使用奖励标记后的样本对所述智能体进行更新。
12.在本发明一个实施例中规定，所述智能体包括：
13.值函数网络，其被配置为衡量智能体在状态动作对下可以获得的奖励的预期值；以及
14.策略网络，其被配置为基于值函数的预期值选择可以最大化所述预期值的动作。
15.在本发明一个实施例中规定，由智能体与环境进行交互包括：
16.由所述策略网络观察所述环境给予的状态；
17.由所述策略网络从技能先验分布中采样技能；
18.由所述值函数网络向所述策略网络提供预期值；
19.由所述策略网络根据所述状态、所述技能、所述预期值生成动作；以及
20.由所述环境根据所述动作转化生成下一状态。
21.在本发明一个实施例中规定，使用奖励标记后的样本对所述智能体进行更新包括：
22.随机采样奖励标记后的样本(s，a，r，s
′
)，其中s表示状态、a表示动作、r表示奖励、s
′
表示下一时刻状态；
23.基于反向传播算法更新值函数网络的参数，其中将值函数网络的预测值和实际值之间的差异最小化，值函数网络的实际值y表示为下式：
[0024][0025]
其中，γ表示折扣因子、s
′
表示下一个状态、a
′
表示下一个动作、q表示目标值函数网络的参数；以及
[0026]
基于反向传播算法更新策略网络的参数，其中策略网络的损失函数是奖励的期望值。
[0027]
在本发明一个实施例中规定，基于行为对比学习对所述样本进行奖励标记包括：
[0028]
对所述样本进行对比以构造正样本以及负样本；以及
[0029]
根据对比学习损失计算奖励函数损失。
[0030]
在本发明一个实施例中规定，对所述样本进行对比以构造正样本以及负样本包括：
[0031]
将所述样本中技能相同的样本作为正样本，并且将所述样本中技能不同的样本作为负样本。
[0032]
在本发明一个实施例中规定，根据对比学习损失计算奖励函数损失，其中奖励函数表示为下式：
[0033][0034]
其中，f表示对比学习网络，分别表示特定的样本，κ表示超参数；
[0035]
其中分子项中的表示正样本对的内积，最大化该项表示鼓励相同技能产生相同的动作行为；分母项中的表示负样本之间的指数内积的和，最大化该项表示鼓励不同技能产生的不相似的行为。
[0036]
本发明还提出一种基于行为对比学习的无监督技能学习系统，包括：
[0037]
技能发现模块，其被配置为执行下列动作：
[0038]
由智能体与环境进行交互；
[0039]
收集智能体与环境交互过程中的样本，并且将所述样本保存在数据集中，其中所述样本包括状态、动作以及技能；以及
[0040]
使用奖励标记后的样本对所述智能体进行更新；以及
[0041]
行为对比奖励模块，其被配置为基于行为对比学习对所述样本进行奖励标记。
[0042]
本发明还提出一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序在被处理器执行时执行根据所述方法的步骤。
[0043]
本发明还提出一种计算机系统，包括：
[0044]
处理器，其被配置为执行机器可执行指令；以及
[0045]
存储器，其上存储有机器可执行指令，所述机器可执行指令在被处理器执行时执行根据所述的方法的步骤。
[0046]
本发明至少具有如下有益效果：本发明通过提供能够鼓励主动探索的奖励来引导智能体进行技能发现，从而提升技能对状态动作空间的覆盖程度和下游任务的表现。所述基于行为对比学习的无监督技能学习方法，基于对比学习的思想构造奖励函数以鼓励智能体在训练过程中兼顾探索和技能学习，在不额外引入探索模块的情况下学习有足够探索能力的技能，因此可以节省了存储空间以及运算资源，并且不同技能之间的行为能够保持多样化与不同。
[0047]
在复杂迷宫和机器人连续控制任务中的实验结果表明，本发明相比于目前最先进的现有技术可以产生多样化和有意义的技能，并且在下游任务中表现更优，由此节省存储空间和运算资源，同时提高智能体的性能。同时，本发明可以隐式地增加状态熵以获得更好的状态覆盖，在理论上能推导出状态和技能之间的互信息的上限。
附图说明
[0048]
为进一步阐明本发明的各实施例中具有的及其它的优点和特征，将参考附图来呈现本发明的各实施例的更具体的描述。可以理解，这些附图只描绘本发明的典型实施例，因此将不被认为是对其范围的限制。在附图中，为了清楚明了，相同或相应的部件将用相同或类似的标记表示。
[0049]
图1示出了实现根据本发明的系统和/或方法的计算机系统。
[0050]
图2示出了本发明一个实施例中一个基于行为对比学习的无监督技能学习方法的流程示意图。
[0051]
图3示出了本发明一个实施例中一个基于行为对比学习的无监督技能学习方法的框架示意图。
[0052]
图4示出了本发明一个实施例中行为对比学习方法的示意图。
[0053]
图5示出了本发明一个实施例中一个基于本发明和现有技术的仿真实验中机器人行为的对比示意图。
[0054]
图6示出了本发明一个实施例中一个基于本发明和现有技术的仿真实验中迷宫环境内的状态覆盖度示意图。
具体实施方式
[0055]
应当指出，各附图中的各组件可能为了图解说明而被夸大地示出，而不一定是比例正确的。在各附图中，给相同或功能相同的组件配备了相同的附图标记。
[0056]
在本发明中，除非特别指出，“布置在
…
上”、“布置在
…
上方”以及“布置在
…
之上”并未排除二者之间存在中间物的情况。此外，“布置在
…
上或上方”仅仅表示两个部件之间的相对位置关系，而在一定情况下、如在颠倒产品方向后，也可以转换为“布置在
…
下或下方”，反之亦然。
[0057]
在本发明中，各实施例仅仅旨在说明本发明的方案，而不应被理解为限制性的。
[0058]
在本发明中，除非特别指出，量词“一个”、“一”并未排除多个元素的场景。
[0059]
在此还应当指出，在本发明的实施例中，为清楚、简单起见，可能示出了仅仅一部分部件或组件，但是本领域的普通技术人员能够理解，在本发明的教导下，可根据具体场景需要添加所需的部件或组件。另外，除非另行说明，本发明的不同实施例中的特征可以相互组合。例如，可以用第二实施例中的某特征替换第一实施例中相对应或功能相同或相似的特征，所得到的实施例同样落入本技术的公开范围或记载范围。
[0060]
在此还应当指出，在本发明的范围内，“相同”、“相等”、“等于”等措辞并不意味着二者数值绝对相等，而是允许一定的合理误差，也就是说，所述措辞也涵盖了“基本上相同”、“基本上相等”、“基本上等于”。以此类推，在本发明中，表方向的术语“垂直于”、“平行于”等等同样涵盖了“基本上垂直于”、“基本上平行于”的含义。
[0061]
另外，本发明的各方法的步骤的编号并未限定所述方法步骤的执行顺序。除非特别指出，各方法步骤可以以不同顺序执行。
[0062]
下面结合具体实施方式参考附图进一步阐述本发明。
[0063]
图1示出了实现根据本发明的系统和/或方法的计算机系统100.如非特殊说明，根据本发明的方法和/或系统可以在图1所示的计算机系统100中执行以实现本发明目的，或者本发明可以在多个根据本发明的计算机系统100中通过网络、如局域网或因特网分布式地实现。本发明的计算机系统100可以包括各种类型的计算机系统、例如手持式设备、膝上型计算机、个人数字助理(pda)、多处理器系统、基于微处理器或可编程消费者电子设备、网络pc、小型机、大型机、网络服务器、平板计算机等等。
[0064]
如图1所示，计算机系统100包括处理器111、系统总线101、系统存储器102、视频适配器105、音频适配器107、硬盘驱动器接口109、光驱接口113、网络接口114、通用串行总线(usb)接口112。系统总线101可以是若干种总线结构类型的任一种，例如存储器总线或存储器控制器、外围总线以及使用各类总线体系结构的局部总线。系统总线101用于各个总线设备之间的通信。除了图1中所示的总线设备或接口以外，其它的总线设备或接口也是可设想的。系统存储器102包括只读存储器(rom)103和随机存取存储器(ram)104，其中rom 103例
如可以存储用于在启动时实现信息传输的基本例程的基本输入/输出系统(bl 0s)数据，而ram 104用于为系统提供存取速度较快的运行内存。计算机系统100还包括用于对硬盘110进行读写的硬盘驱动器109、用于对诸如cd-rom之类的光介质进行读写光驱接口113等等。硬盘110例如可以存储有操作系统和应用程序。驱动器及其相关联的计算机可读介质为计算机系统100提供了计算机可读指令、数据结构、程序模块和其它数据的非易失性存储。计算机系统100还可以包括用于图像处理和/或图像输出的视频适配器105，其用于连接显示器106等输出设备。计算机系统100还可以包括用于音频处理和/或音频输出的音频适配器107，其用于连接扬声器108等输出设备。此外，计算机系统100还可以包括用于网络连接的网络接口114，其中网络接口114可以通过诸如路由器115之类的网络装置连接到因特网116，其中所述连接可以是有线或无线的。另外，此外，计算机系统100还可以包括用于连接外围设备的通用串行总线接口(usb)112，其中所述外围设备例如包括键盘117、鼠标118以及其它外围设备、例如麦克风、摄像头等。
[0065]
当本发明在图1所述的计算机系统100上实现时，可以鼓励主动探索的奖励来引导智能体进行技能发现，从而提升技能对状态动作空间的覆盖程度和下游任务的表现。所述基于行为对比学习的无监督技能学习方法，基于对比学习的思想构造奖励函数以鼓励智能体在训练过程中兼顾探索和技能学习，在不额外引入探索模块的情况下学习有足够探索能力的技能，因此可以节省了存储空间以及运算资源，并且不同技能之间的行为能够保持多样化与不同。
[0066]
此外，可以把各实施例提供为可包括其上存储有机器可执行指令的一个或多个机器可读介质的计算机程序产品，这些指令在由诸如计算机、计算机网络或其他电子设备等的一个或多个机器执行时，可以引起一个或多个机器执行根据本发明的各实施例的操作。机器可读介质可以包括但不限于软盘、光盘、cd-rom(紧致盘只读存储器)和磁光盘、rom(只读存储器)、ram(随机存取存储器)、eprom(可擦除可编程只读存储器)、eeprom(电可擦除可编程只读存储器)、磁或光卡、闪速存储器或适用于存储机器可执行指令的其他类型的介质/机器可读介质。
[0067]
此外，可以作为计算机程序产品下载各实施例，其中可以经由通信链路(例如，调制解调器和/或网络连接)由载波或其他传播介质实现和/或调制的一种或多种数据信号把程序从远程计算机(例如，服务器)传输给请求计算机(例如，客户机)。因此，在此所使用的机器可读介质可以包括这样的载波，但这不是必需的。
[0068]
在本发明中，根据本发明的系统的各模块可以使用软件、硬件、固件或其组合来实现。当模块使用软件来实现时，可以通过计算机程序流程来实现模块的功能，例如模块可以通过存储在存储设备(如硬盘、内存等)中的代码段(如c、c++等语言的代码段)来实现，其中当所述代码段被处理器执行时能够实现模块的相应功能。当模块使用硬件来实现时，可以通过设置相应硬件结构来实现模块的功能，例如通过对现场可编程逻辑门阵列(fpga)等可编程器件进行硬件编程来实现模块的功能，或者通过设计包括多个晶体管、电阻和电容等电子器件的专用集成电路(asic)来实现模块的功能。当模块使用固件来实现时，可以将模块的功能以程序代码形式写入设备的诸如eprom或eeprom之类的只读存储器中，并且当所述程序代码被处理器执行时能够实现模块的相应功能。另外，模块的某些功能可能需要由单独的硬件来实现或者通过与所述硬件协作来实现，例如检测功能通过相应传感器(如接
近传感器、加速度传感器、陀螺仪等)来实现，信号发射功能通过相应通信设备(如蓝牙设备、红外通信设备、基带通信设备、w i-f i通信设备等)来实现，输出功能通过相应输出设备(如显示器、扬声器等)来实现，以此类推。
[0069]
图2示出了本发明一个实施例中一个基于行为对比学习的无监督技能学习方法的流程示意图。如图2所示，该方法可以包括下列步骤：
[0070]
步骤201、由智能体与环境进行交互。
[0071]
步骤202、收集智能体与环境交互过程中的样本，并且将所述样本保存在数据集中，其中所述样本包括状态、动作以及技能。
[0072]
步骤203、基于行为对比学习对所述样本进行奖励标记。
[0073]
步骤204、使用奖励标记后的样本对所述智能体进行更新。
[0074]
本发明通过提供能够鼓励主动探索的奖励来引导智能体进行技能发现，从而提升技能对状态动作空间的覆盖程度和下游任务的表现。所述基于行为对比学习的无监督技能学习方法，基于对比学习的思想构造奖励函数以鼓励智能体在训练过程中兼顾探索和技能学习。在复杂迷宫和连续控制任务中的实验结果表明，本发明相比目前最先进的现有技术可以产生多样化和有意义的技能，并且在下游任务中表现更优。同时，本发明可以隐式地增加状态熵以获得更好的状态覆盖，在理论上能推导出状态和技能之间的互信息的上限。下面结合实施例具体说明本方法，
[0075]
图3示出了本发明一个实施例中一个基于行为对比学习的无监督技能学习方法的框架示意图。如图3所示，该方法包括技能发现和行为对比奖励标记两个阶段。
[0076]
在技能发现阶段，智能体需要与环境进行交互得到训练数据。智能体包括策略网络以及值函数网络，其中值函数网络被配置为衡量智能体在状态动作对下能够获得的奖励的预期值，策略网络被配置为基于值函数的预期值选择能够最大化预期值的动作。
[0077]
在每个时间步中，智能体观察当前环境给予的状态，从技能先验分布中采样技能值，并且将状态和技能值作为策略网络的输入。策略网络将输出值作为动作传递给环境，环境接收该动作并计算转化为下一个状态，依次循环。
[0078]
在网络更新时，采样器从数据集中随机采样一批样本(s，a，r，s
′
)，其中每个样本包括状态s、动作a、奖励r和下一时刻状态s
′
。随后计算值函数网络以及策略网络的损失函数。
[0079]
可以通过反向传播算法更新值函数网络的参数，其中通过最小化预测值和实际值之间的差异来更新值函数网络的参数。具体来说，值函数网络的实际值y可以表示为下式：
[0080][0081]
其中，γ表示折扣因子、s
′
表示下一个状态、a
′
表示下一个动作、q表示目标值函数网络的参数。
[0082]
策略网络的目标是学习状态到动作的映射关系，并最大化奖励的期望值，因此策略网络的损失函数是奖励的期望值，其中通过反向传播算法来优化策略网络的参数。
[0083]
在行为对比奖励标记阶段需要计算数据集中样本的奖励，与传统强化学习过程不同的是，由于在无监督强化学习中，环境不会返回任务奖励信号给智能体以更新策略，因此需要通过构造奖励函数来标记数据集中的样本。
[0084]
在行为对比奖励标记阶段首先将技能发现阶段收集到的样本(状态，动作，技能)进行对比。图4示出了本发明一个实施例中行为对比学习方法的示意图。如图4所示，其中可以针对不同的技能来划分正样本和负样本。具体来说，针对某一个样本，技能相同的样本作为正样本，将不同技能产生的样本作为负样本。例如状态1、状态2是来自技能zi行为的采样，状态3、状态4是来自技能zj行为的采样，因此对于状态1样本而言，(状态1，状态2)作为该状态1的正样本对，而(状态1，状态3)和(状态1，状态4)作为该状态1的负样本对。
[0085]
在构造完正负样本之后，可以根据对比学习损失来计算对应的奖励函数损失，其中奖励函数表示为下式：
[0086][0087]
其中，f表示对比学习网络，分别表示特定的样本(如状态1)，κ表示超参数。其中，分子项中的表示正样本对的内积，最大化该项意味着鼓励相同技能产生相同的动作行为。分母项中的表示负样本之间的指数内积的和，最大化该项意味着鼓励不同技能产生的不相似的行为。
[0088]
通过行为对比方法对状态动作对进行奖励的计算，智能体在技能发现阶段使用该奖励信号来更新自己的策略，在下一个时间步中可以做出更好的动作选择。
[0089]
本发明还提出一种基于行为对比学习的无监督技能学习系统，包括：
[0090]
技能发现模块，其被配置为执行下列动作：
[0091]
由智能体与环境进行交互；
[0092]
收集智能体与环境交互过程中的样本，并且将所述样本保存在数据集中，其中所述样本包括状态、动作以及技能；以及
[0093]
使用奖励标记后的样本对所述智能体进行更新；以及
[0094]
行为对比奖励模块，其被配置为基于行为对比学习对所述样本进行奖励标记。
[0095]
图5示出了本发明一个实施例中一个基于本发明和现有技术的仿真实验中机器人行为的对比示意图。如图5所示，在真实物理仿真器(deepmind control suite)上基于本发明和现有技术对多个机器人相关的任务进行训练，结果显示，本发明的方法取得的效果优于目前其他相关技术方法，在机器人行为上更具多样性。图6示出了本发明一个实施例中一个基于本发明和现有技术的仿真实验中迷宫环境内的状态覆盖度示意图。如图6所示，相比于现有技术，本发明在迷宫环境内可以获得更高的状态覆盖率。
[0096]
尽管上文描述了本发明的各实施例，但是，应该理解，它们只是作为示例来呈现的，而不作为限制。对于相关领域的技术人员显而易见的是，可以对其做出各种组合、变型和改变而不背离本发明的精神和范围。因此，此处所公开的本发明的宽度和范围不应被上述所公开的示例性实施例所限制，而应当仅根据所附权利要求书及其等同替换来定义。

技术特征：
1.一种基于行为对比学习的无监督技能学习方法，其特征在于，包括下列步骤：由智能体与环境进行交互；收集智能体与环境交互过程中的样本，并且将所述样本保存在数据集中，其中所述样本包括状态、动作以及技能；基于行为对比学习对所述样本进行奖励标记；以及使用奖励标记后的样本对所述智能体进行更新。2.根据权利要求1所述的基于行为对比学习的无监督技能学习方法，其特征在于，所述智能体包括：值函数网络，其被配置为衡量智能体在状态动作对下可以获得的奖励的预期值；以及策略网络，其被配置为基于值函数的预期值选择可以最大化所述预期值的动作。3.根据权利要求2所述的基于行为对比学习的无监督技能学习方法，其特征在于，由智能体与环境进行交互包括：由所述策略网络观察所述环境给予的状态；由所述策略网络从技能先验分布中采样技能；由所述值函数网络向所述策略网络提供预期值；由所述策略网络根据所述状态、所述技能、所述预期值生成动作；以及由所述环境根据所述动作转化生成下一状态。4.根据权利要求3所述的基于行为对比学习的无监督技能学习方法，其特征在于，使用奖励标记后的样本对所述智能体进行更新包括：随机采样奖励标记后的样本(s，a，r，s
′
)，其中s表示状态、a表示动作、r表示奖励、s
′
表示下一时刻状态；基于反向传播算法更新值函数网络的参数，其中将值函数网络的预测值和实际值之间的差异最小化，值函数网络的实际值y表示为下式：其中，γ表示折扣因子、s
′
表示下一个状态、a
′
表示下一个动作、q表示目标值函数网络的参数；以及基于反向传播算法更新策略网络的参数，其中策略网络的损失函数是奖励的期望值。5.根据权利要求4所述的基于行为对比学习的无监督技能学习方法，其特征在于，基于行为对比学习对所述样本进行奖励标记包括：对所述样本进行对比以构造正样本以及负样本；以及根据对比学习损失计算奖励函数损失。6.根据权利要求5所述的基于行为对比学习的无监督技能学习方法，其特征在于，对所述样本进行对比以构造正样本以及负样本包括：将所述样本中技能相同的样本作为正样本，并且将所述样本中技能不同的样本作为负样本。7.根据权利要求6所述的基于行为对比学习的无监督技能学习方法，其特征在于，根据对比学习损失计算奖励函数损失，其中奖励函数表示为下式：
其中，f表示对比学习网络，分别表示特定的样本，κ表示超参数；其中分子项中的表示正样本对的内积，最大化该项表示鼓励相同技能产生相同的动作行为；分母项中的表示负样本之间的指数内积的和，最大化该项表示鼓励不同技能产生的不相似的行为。8.一种基于行为对比学习的无监督技能学习系统，其特征在于，包括：技能发现模块，其被配置为执行下列动作：由智能体与环境进行交互；收集智能体与环境交互过程中的样本，并且将所述样本保存在数据集中，其中所述样本包括状态、动作以及技能；以及使用奖励标记后的样本对所述智能体进行更新；以及行为对比奖励模块，其被配置为基于行为对比学习对所述样本进行奖励标记。9.一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序在被处理器执行时执行根据权利要求1-7之一所述的方法的步骤。10.一种计算机系统，包括：处理器，其被配置为执行机器可执行指令；以及存储器，其上存储有机器可执行指令，所述机器可执行指令在被处理器执行时执行根据权利要求1-7之一所述的方法的步骤。

技术总结
本发明总的来说涉及强化学习技术领域，提出一种基于行为对比学习的无监督技能学习方法及系统。该方法包括下列步骤：由智能体与环境进行交互；收集智能体与环境交互过程中的样本，并且将所述样本保存在数据集中；基于行为对比学习对所述样本进行奖励标记；以及使用奖励标记后的样本对所述智能体进行更新。本发明通过提供能够鼓励主动探索的奖励来引导智能体进行技能发现，从而提升技能对状态动作空间的覆盖程度和下游任务的表现，其中基于对比学习构造奖励函数以鼓励智能体在训练过程中兼顾探索和技能学习，在不额外引入探索模块的情况下学习有足够探索能力的技能，节省了存储空间以及运算资源，并且使不同技能之间的行为保持多样化和不同。持多样化和不同。持多样化和不同。

技术研发人员：李学龙白辰甲杨如帅赵斌王震
受保护的技术使用者：上海人工智能创新中心
技术研发日：2023.04.13
技术公布日：2023/7/12

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

基于行为对比学习的无监督技能学习方法及系统与流程

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

基于行为对比学习的无监督技能学习方法及系统与流程

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表