一种面向应急资源调度的智能评估方法和系统与流程

未命名 09-14 阅读：261 评论：0

1.本技术涉及应急处理技术领域，特别是涉及一种面向应急资源调度的智能评估方法和系统。

背景技术：

2.应急资源调度问题，通常指在有应急资源需求产生时，应急指挥中心如何根据现有的资源储备位置、资源储备情况，结合产生应急资源需求位置情况、需求情况，结合运载装置、路况/海域/空域等信息，快速反应，以综合效能最佳为目的将资源派送到需求位置。
3.应急资源调度问题是典型的多约束下的单目标或者多目标的优化问题，通常采用遗传算法等优化算法求解，以得到满足特定硬件条件下以及在特定时间要求内的可行解，该可行解即为求解得到的资源分配调度方案。
4.对于设计出的优化算法是否能满足实际应用需求，通常采用指标评价方法，通过构建相应的指标体系，设计试验样例对优化算法生成的资源分配调度方案进行评价，进而间接评价优化算法及参数的有效性。
5.基于指标体系的评价方法是一种相对比较客观的方法，然而其只能对已经得到的资源分配调度方案进行相对的评价和比较，却无法对方案的优化程度进行比较。具体而言，假设在优化问题的解空间存在若干最优解，而优化算法求解得到的资源分配调度方案通常为解空间中的可行解，由于不存在“最优解”可供比较，因此无法得知资源分配调度方案方案与最优解的差距，进而难以对资源分配调度方案的优化程度进行有效评估。

技术实现要素：

6.本技术提供一种面向应急资源调度的智能评估方法和系统，以解决相关技术难以对资源分配调度方案的优化程度进行有效评估的问题。
7.为了解决上述问题，本技术采用了以下的技术方案：第一方面，本技术实施例提供了一种面向应急资源调度的智能评估方法，所述方法包括：获取待评价资源分配调度方案以及用于生成所述待评价资源分配调度方案的源数据；所述源数据包括目标问题输入、目标问题输出、目标约束条件和优化目标，其中，所述目标问题输入包括资源需求点信息、资源储备点信息和载具运输信息；所述目标问题输出表征所述待评价资源分配调度方案的格式要求；确定所述待评价资源分配调度方案对应的目标深度学习网络模型、目标强化学习算法和目标仿真推演模型；基于所述源数据，通过所述目标强化学习算法和所述目标仿真模型，对所述目标深度学习网络模型进行迭代优化，直到所述目标深度学习网络模型满足收敛条件，得到评估智能体；将所述目标问题输入、所述目标问题输出、所述目标约束条件和所述优化目标输
入所述评估智能体，输出得到目标资源分配调度方案；针对至少一个方案评价指标，通过所述目标资源分配调度方案，对所述待评价资源分配调度方案进行评估，得到所述待评价资源分配调度方案针对至少一个所述方案评价指标各自对应的方案评价结果。
8.在本技术一实施例中，确定所述待评价资源分配调度方案对应的目标深度学习网络模型、目标强化学习算法和目标仿真推演模型的步骤，包括：基于所述源数据，在预设的深度学习网络模型库中，确定所述目标深度学习网络模型；基于所述待评价资源分配调度方案对应的建模方式、性能指标、硬件资源信息、动作空间类型和调参信息，在预设的强化学习算法库中，确定所述目标强化学习算法；基于所述待评价资源分配调度方案对应的多个仿真元素，构建多个所述仿真元素各自对应的数学模型，得到所述目标仿真推演模型。
9.在本技术一实施例中，基于所述源数据，通过所述目标强化学习算法和所述目标仿真模型，对所述目标深度学习网络模型进行迭代优化，直到所述目标深度学习网络模型满足收敛条件，得到评估智能体的步骤，包括：基于所述源数据，生成多个训练样本；在多个所述训练样本中选取任一训练样本，将该训练样本输入所述目标深度学习网络模型，得到初始资源分配调度方案；通过所述目标仿真模型对所述初始资源分配调度方案进行仿真推演，确定所述初始资源分配调度方案对应的评价分数；在所述评价分数小于分数阈值的情况下，通过所述目标强化学习算法对所述目标深度学习网络模型进行迭代优化，以得到更新后模型；将所述更新后模型作为所述目标深度学习网络模型，并执行在多个所述训练样本中选取任一训练样本，将该训练样本输入所述目标深度学习网络模型，得到初始资源分配调度方案的步骤，直到所述评价分数大于或者等于所述分数阈值，确定所述目标深度学习网络模型满足所述收敛条件，得到所述评估智能体。
10.在本技术一实施例中，基于所述源数据，生成多个训练样本的步骤，包括：基于所述资源需求点信息、所述资源储备点信息和所述载具运输信息，确定模型静态输入信息；分别对所述优化目标和所述约束条件进行采样，得到多个模型动态输入信息；每个所述模型动态输入信息包括各自对应的优化目标和约束条件；将多个所述模型动态输入信息分别与所述模型静态输入信息组合，得到多个所述训练样本。
11.在本技术一实施例中，针对至少一个方案评价指标，通过所述目标资源分配调度方案，对所述待评价资源分配调度方案进行评估，得到所述待评价资源分配调度方案针对至少一个所述方案评价指标各自对应的方案评价结果的步骤，包括：确定所述目标资源分配调度方案针对至少一个所述方案评价指标各自对应的基准评价指标；确定所述待评价资源分配调度方案针对至少一个所述方案评价指标各自对应的
待评价指标；针对至少一个所述方案评价指标中的任一方案评价指标，基于该方案评价指标对应的基准评价指标和待评价指标，确定所述待评价资源分配调度方案针对该方案评价指标的方案评价结果。
12.在本技术一实施例中，针对至少一个方案评价指标，通过所述目标资源分配调度方案，对所述待评价资源分配调度方案进行评估，得到所述待评价资源分配调度方案针对至少一个所述方案评价指标各自对应的方案评价结果的步骤之后，所述方法还包括：在任一方案评价指标对应的方案评价结果不满足该方案评价指标对应的指标差异阈值的情况下，输出该方案评价指标对应的提示信息。
13.第二方面，基于相同发明构思，本技术实施例提供了一种面向应急资源调度的智能评估系统，所述系统包括：信息获取模块，用于获取待评价资源分配调度方案以及用于生成所述待评价资源分配调度方案的源数据；所述源数据包括目标问题输入、目标问题输出、目标约束条件和优化目标，其中，所述目标问题输入包括资源需求点信息、资源储备点信息和载具运输信息；所述目标问题输出表征所述待评价资源分配调度方案的格式要求；模型确定模块，用于确定所述待评价资源分配调度方案对应的目标深度学习网络模型、目标强化学习算法和目标仿真推演模型；迭代优化模块，用于基于所述源数据，通过所述目标强化学习算法和所述目标仿真模型，对所述目标深度学习网络模型进行迭代优化，直到所述目标深度学习网络模型满足收敛条件，得到评估智能体；方案输出模块，用于将所述目标问题输入、所述目标问题输出、所述目标约束条件和所述优化目标输入所述评估智能体，输出得到目标资源分配调度方案；方案评价模块，用于针对至少一个方案评价指标，通过所述目标资源分配调度方案，对所述待评价资源分配调度方案进行评估，得到所述待评价资源分配调度方案针对至少一个所述方案评价指标各自对应的方案评价结果。
14.在本技术一实施例中，所述模型确定模块包括：第一模型确定子模块，用于基于所述源数据，在预设的深度学习网络模型库中，确定所述目标深度学习网络模型；第二模型确定子模块，用于基于所述待评价资源分配调度方案对应的建模方式、性能指标、硬件资源信息、动作空间类型和调参信息，在预设的强化学习算法库中，确定所述目标强化学习算法；仿真推演模型构建子模块，用于基于所述待评价资源分配调度方案对应的多个仿真元素，构建多个所述仿真元素各自对应的数学模型，得到所述目标仿真推演模型。
15.在本技术一实施例中，所述迭代优化模块包括：样本生成子模块，用于基于所述源数据，生成多个训练样本；样本输入子模块，用于在多个所述训练样本中选取任一训练样本，将该训练样本输入所述目标深度学习网络模型，得到初始资源分配调度方案；仿真推演子模块，用于通过所述目标仿真模型对所述初始资源分配调度方案进行仿真推演，确定所述初始资源分配调度方案对应的评价分数；
模型更新子模块，用于在所述评价分数小于分数阈值的情况下，通过所述目标强化学习算法对所述目标深度学习网络模型进行迭代优化，以得到更新后模型；迭代优化子模块，用于将所述更新后模型作为所述目标深度学习网络模型，并执行在多个所述训练样本中选取任一训练样本，将该训练样本输入所述目标深度学习网络模型，得到初始资源分配调度方案的步骤，直到所述评价分数大于或者等于所述分数阈值，确定所述目标深度学习网络模型满足所述收敛条件，得到所述评估智能体。
16.在本技术一实施例中，所述样本生成子模块包括：第一信息确定单元，用于基于所述资源需求点信息、所述资源储备点信息和所述载具运输信息，确定模型静态输入信息；第二信息确定单元，用于分别对所述优化目标和所述约束条件进行采样，得到多个模型动态输入信息；每个所述模型动态输入信息包括各自对应的优化目标和约束条件；样本生成单元，用于将多个所述模型动态输入信息分别与所述模型静态输入信息组合，得到多个所述训练样本。
17.在本技术一实施例中，所述方案评价模块包括：基准评价指标确定子模块，用于确定所述目标资源分配调度方案针对至少一个所述方案评价指标各自对应的基准评价指标；待评价指标确定子模块，用于确定所述待评价资源分配调度方案针对至少一个所述方案评价指标各自对应的待评价指标；方案评价子模块，用于针对至少一个所述方案评价指标中的任一方案评价指标，基于该方案评价指标对应的基准评价指标和待评价指标，确定所述待评价资源分配调度方案针对该方案评价指标的方案评价结果。
18.在本技术一实施例中，所述面向应急资源调度的智能评估系统还包括：提示模块，用于在任一方案评价指标对应的方案评价结果不满足该方案评价指标对应的指标差异阈值的情况下，输出该方案评价指标对应的提示信息。
19.与现有技术相比，本技术包括以下优点：本技术实施例提供的一种面向应急资源调度的智能评估方法，通过获取待评价资源分配调度方案以及用于生成待评价资源分配调度方案的源数据，并确定待评价资源分配调度方案对应的目标深度学习网络模型、目标强化学习算法和目标仿真推演模型，进而基于源数据，通过目标强化学习算法和目标仿真模型，对目标深度学习网络模型进行迭代优化，直到目标深度学习网络模型满足收敛条件，得到评估智能体；再将目标问题输入、目标问题输出、目标约束条件和优化目标输入评估智能体，输出得到目标资源分配调度方案，进而能够针对至少一个方案评价指标，通过目标资源分配调度方案，对待评价资源分配调度方案进行评估，得到待评价资源分配调度方案针对至少一个方案评价指标各自对应的方案评价结果。本技术实施例能够充分利用深度强化学习技术在面向复杂优化问题时在求解速度和优化程度上的优势，通过基于深度强化学习技术训练得到的评估智能体，生成目标资源分配调度方案，能够实现对待评价资源分配调度方案的各项方案评价指标的全面评估，进而更加全面准确地评估待评价资源分配调度方案的优化程度和有效性。
附图说明
20.为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
21.图1是本技术一实施例中一种面向应急资源调度的智能评估方法的步骤流程图。
22.图2是本技术一实施例中一种面向应急资源调度的智能评估系统的模块示意图。
具体实施方式
23.下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
24.需要说明的是，应急资源调度问题可以细分为应急资源测算、资源匹配和资源分配调度等三个部分。每个部分的概念内涵如下：1、应急资源测算，指应急资源需求产生后，应急调度人员先根据应急任务需求和应急资源储备点的情况，初算可以调用的某一个或多个应急资源储备点是否能够满足应急任务的需求，若满足，则基于这些应急资源储备点建立面向本次应急救援任务的临时指挥调度关系，然后进入下一步，根据任务需求开展实际的应急资源分配调度；若不满足，则需要快速补充资源，例如补充资源或者增加可调用的应急资源储备点等，直至满足要求，进而开展下一步实际的应急资源分配调度。
25.2、资源匹配，指根据应急需求点的具体需求，根据可以调用的资源储备点以及其储备的相应资源、资源类型、规格和数量等，运行资源匹配方法，得到每个应急需求点对应的资源类型、规格和数量，得到资源匹配方案，即资源数量、类型和需求的匹配关系。
26.3、资源分配调度，指基于资源匹配方案，结合资源储备点、资源需求点的情况、运输载具和路/海/空域情况，计算从哪些资源储备点运送给哪些资源给每个应急需求点，以及运载的时序关系等，得到具体的资源分配调度方案。
27.应急资源调度问题是典型的多约束下的单目标或者多目标的优化问题，通常采用优化算法求解，典型的优化算法包括分支定界、动态规划、贪心算法、回溯算法等在内的确定性算法，以及模拟退火、遗传算法、粒子群算法、蚁群算法、拍卖法等启发式算法。对于优化算法，通常可以根据具体业务需求、运行算法的硬件条件、求解速度要求等，设计算法、选择算法的参数，满足应用需求和条件，例如可通过调整优化算法的参数指标，控制算法的收敛速度，满足在特定硬件条件下以及在特定时间要求内得到可行解。
28.由于优化算法求解得到的资源分配调度方案通常为解空间中的可行解，而在实际运用中，不存在“最优解”可供比较，因此无法得知资源分配调度方案方案与最优解的差距，进而难以对资源分配调度方案的优化程度进行有效评估。
29.本技术发明人经过研究发现，深度强化学习技术虽然不大适用于应急资源调度问题的实际应用阶段，但可用于测试评估阶段的寻优，具体而言：人工智能技术，特别是深度强化学习技术，已经在优化问题，例如在工业控制、对
抗游戏中，展示出了非常大的应用潜力，深度强化学习技术构建决策智能体，在与应用环境中一致或基本等价的训练环境中，进行训练，训练好的决策智能体就能够应对实际优化问题，给智能体输入，智能体能够快速输出优化方案。在训练环境足够拟真、深度强化学习算法和神经网络模型设计的足够好的前提下，与传统优化算法相比，在复杂的优化问题中，深度强化学习技术构建的决策智能体在求解速度和方案优化程度方面展示了比较大的优势。
30.然而，在应急资源调度这类问题中，深度强化学习技术应用的成功实例较少，最大的问题在于应急资源调度问题的复杂性，采用深度强化学习技术构建的决策智能体泛化性能较差，只能在其训练过的问题中取得好的效果，即输入要求、输出要求、约束条件、优化目标及其他相关的规则等等都需要一致，否则决策智能体无法支持生成有效方案，然而对于应急资源调度问题非常复杂，若采用深度强化学习技术，则需要通过考虑各种要素变化的环境构建、增加模型规模、增加训练时长，通过大代价在一定程度上提升智能体的泛化能力，并且在实际应用需求发生变化时，仍重新构建和训练决策智能体，暂时无法完全满足应急资源调度快速求解需求。
31.虽然深度强化学习技术不大适用于应急资源调度问题，但其仍有其独特的优势：在训练环境足够拟真、深度强化学习算法和神经网络模型设计的足够好的前提下，与传统优化算法相比，在复杂的优化问题中，深度强化学习技术构建的决策智能体在求解速度和方案优化程度方面展示了比较大的优势。
32.因此，针对相关技术难以对资源分配调度方案的优化程度进行有效评估的问题，本技术旨在提供一种面向应急资源调度的智能评估方法，利用深度强化学习技术在面向复杂优化问题时在求解速度和优化程度上的优势，不将其应用于应急资源调度问题的实际应用阶段，转而将其应用于应急资源调度问题的测试评估阶段，以实现对应急资源调度系统所生成的待评价资源分配调度方案的各项方案评价指标的全面评估，进而更加全面地评估应急资源调度系统的优化程度和有效性。
33.参照图1，示出了本技术一种面向应急资源调度的智能评估方法，该方法可以包括以下步骤：s101：获取待评价资源分配调度方案以及用于生成待评价资源分配调度方案的源数据。
34.在本实施方式中，源数据包括目标问题输入、目标问题输出、目标约束条件和优化目标，其中，目标问题输入包括资源需求点信息、资源储备点信息和载具运输信息；目标问题输出表征待评价资源分配调度方案的格式要求。
35.需要说明的是，待评价资源分配调度方案即为待评估的应急资源调度系统基于源数据所生成的。也就是说，通过将源数据输入待评估应急资源调度系统，待评估应急资源调度系统能够基于源数据，通过指定的优化算法针对优化目标进行优化计算，以得到满足优化需求的待评价资源分配调度方案。
36.需要进一步说明的是，资源需求点信息具体可以包括资源需求点的位置、种类、数量和优先级等信息。资源储备点信息具体可以包括源储备点位置、数量、种类和优先级等信息。载具运输信息具体可以包括载具的数量、种类、运输能力、油耗和实际交通情况等信息。目标问题输出则表示可以理解为规定的优化算法输出的待评价资源分配调度方案的格式要求，示例性的，初始资源分配调度策略可以包括指定种类的载具从指定资源储备点通过
指定路线将指定资源运往指定资源需求点，以及结束本次任务后，对该载具有无下阶段需求（如是否空载返程执行下阶段任务、还是继续往下一资源需求点继续派送剩余资源）。优化计算即是对上述的“指定种类”、“指定资源储备点”、“指定路线”、“指定资源”和“指定资源需求点”中的一个或者多个进行求解的过程，在经过优化算法的优化计算后，将会针对每个优化目标，按照目标问题输出对应的格式要求，为上述的“指定种类”、“指定资源储备点”、“指定路线”、“指定资源”和“指定资源需求点”中的一个或者多个分别赋予各自对应的实际含义，最终得到每个优化目标各自对应的待评价资源分配调度方案。
37.在本实施方式中，待评价资源分配调度方案即为优化算法求解得到的能够在一定程度上满足应急资源调度需求的可行解，其满足实际应用中必须满足的强约束，但由于不存在“最优解”可供比较，因此通常对优化程度水平不做要求，也导致应急调度人员无法知晓其优化程度。
38.s102：确定待评价资源分配调度方案对应的目标深度学习网络模型、目标强化学习算法和目标仿真推演模型。
39.在本实施方式中，针对待评价资源分配调度方案，将会在预设的深度学习网络模型库中匹配合适的目标深度学习网络模型，在预设的强化学习算法库中匹配合适的目标强化学习算法，并构建能够满足待评价资源分配调度方案的仿真需求的目标仿真推演模型。
40.需要说明的是，目标深度学习网络模型用于在经过训练后生成用以评估待评价资源分配调度方案有效性的目标资源分配调度方案；而目标强化学习算法则是用于在训练阶段实现对目标深度学习网络模型的迭代优化；目标仿真推演模型则是在训练阶段对目标深度学习网络模型输出的方案进行仿真推演，以判断方案是否满足要求。
41.在本实施方式中，通过预先构建深度学习网络模型库和强化学习算法库，并通过仿真推演验证方案有效性，能够有效满足各类待评价资源分配调度方案的评估需求，不仅适用性强，还能有效提高目标深度学习网络模型的训练效率和训练效果。
42.s103：基于源数据，通过目标强化学习算法和目标仿真模型，对目标深度学习网络模型进行迭代优化，直到目标深度学习网络模型满足收敛条件，得到评估智能体。
43.在具体实现中，可以根据源数据，生成训练样本，进而在目标深度学习网络模型的模型训练阶段，将由目标深度学习网络模型基于训练样本，生成初始资源分配调度方案，再调用目标仿真模型对初始资源分配调度方案进行仿真推演，以验证初始资源分配调度方案的有效性，若检测到初始资源分配调度方案不满足预设要求，则通过目标强化学习算法对目标深度学习网络模型进行迭代优化，以更新目标深度学习网络模型的模型参数，重复上述过程，直到目标深度学习网络模型收敛，得到训练好的评估智能体。
44.s104：将目标问题输入、目标问题输出、目标约束条件和优化目标输入评估智能体，输出得到目标资源分配调度方案。
45.在本实施方式中，通过将目标问题输入、目标问题输出、目标约束条件和优化目标输入目标深度学习网络模型中训练好的评估智能体，能够通过评估智能体输出相应的目标资源分配调度方案。
46.需要说明的是，目标资源分配调度方案具有与待评价资源分配调度方案相同的格式要求，但在具体参数上与待评价资源分配调度方案可能不同，例如，和优化算法求解得到的“指定种类”、“指定资源储备点”、“指定路线”、“指定资源”和“指定资源需求点”中的一个
或者多个可能存在不同。
47.在本实施方式中，虽然评估智能体难以直接应用于问题复杂程度高且边界不确定的应急资源调度问题的寻优问题当中，但是在面临具体明确的目标问题输入、目标问题输出、目标约束条件和优化目标的待评价资源分配调度方案的有效性评估时，能够针对待评价资源分配调度方案对应的具体应用问题，生成优化效果较好的目标资源分配调度方案，进而实现对待评价资源分配调度方案的全面有效评估。
48.s105：针对至少一个方案评价指标，通过目标资源分配调度方案，对待评价资源分配调度方案进行评估，得到待评价资源分配调度方案针对至少一个方案评价指标各自对应的方案评价结果。
49.在本实施方式中，通过比较评估智能体生成的目标资源分配调度方案和待评价资源分配调度方案之间的差异，能够实现对待评价资源分配调度方案的优化程度的有效评估。
50.具体而言，若针对某一方案评价指标，待评价资源分配调度方案与目标资源分配调度方案差距较小甚至优于目标资源分配调度方案，则认为待评价资源分配调度方案满足该方案评价指标；若待评价资源分配调度方案与目标资源分配调度方案差距较大，则认为待评价资源分配调度方案不满足该方案评价指标，即针对该方案评价指标的优化程度不足，需要对应急资源调度系统进行调整。
51.示例性地，设某一方案评价指标为资源分配调度方案实施完成的总时长，针对该方案评价指标，待评价资源分配调度方案为t1，目标资源分配调度方案为t2，则针对“资源分配调度方案实施完成的总时长”的指标差异为t3=t1-t2，若t3≤0，则说明待评价资源分配调度方案实施完成的总时长小于或者目标资源分配调度方案实施完成的总时长，此时可确定该项方案评价指标的方案评价结果为达标；若t3＞0，则说明待评价资源分配调度方案实施完成的总时长大于目标资源分配调度方案实施完成的总时长，此时可确定该项方案评价指标的方案评价结果为不达标。或者，还可以设置方案评价指标为满足资源分配调度方案实施完成的总时长的程度值，进而若t3≤0，则说明待评价资源分配调度方案“满足资源分配调度方案实施完成的总时长的程度值”为100%，此时，方案评价结果为达标；若t3＞0，则计算待评价资源分配调度方案“满足资源分配调度方案实施完成的总时长的程度值”具体为1-|t1-t2|/t2，若该程度值大于或者等于预设阈值，则同样可以认为待对应的方案评价结果为达标；若该程度值小于预设阈值，则认为对应的方案评价结果为不达标。需要说明的是，方案评价指标可以根据实际的资源分配调度需求进行设置，本实施方式不对其作出具体限制。
52.本技术实施例能够充分利用深度强化学习技术在面向复杂优化问题时在求解速度和优化程度上的优势，通过基于深度强化学习技术训练得到的评估智能体，生成目标资源分配调度方案，并根据实际资源分配调度需求，设置各项方案评价指标，能够实现对待评价资源分配调度方案的各项方案评价指标的全面评估，进而更加全面准确地评估待评价资源分配调度方案的优化程度和有效性，使得在检测到待评价资源分配调度方案的优化程度不足时，能够对资源分配调度系统进行及时调整和优化。
53.在一个可行的实施方式中，s102具体可以包括以下子步骤：s102-1：基于源数据，在预设的深度学习网络模型库中，确定目标深度学习网络模
型。
54.在本实施方式中，由于目标深度学习网络模型生成的目标资源分配调度方案需要用于评估待评价资源分配调度方案，因此，为保证方案在形式上的一致性以便于后续的对比评估，在具体实现中，将根据用于生成评估待评价资源分配调度方案的源数据，在预设的深度学习网络模型库中匹配合适的目标深度学习网络模型，以使目标深度学习网络模型的模型输入、模型输出、约束条件、优化目标等模型参数与源数据的目标问题输入、目标问题输出、目标约束条件和优化目标在形式上保持统一，进而使得目标深度学习网络模型输出的方案与待评价资源分配调度方案具有可比性。
55.s102-2：基于待评价资源分配调度方案对应的建模方式、性能指标、硬件资源信息、动作空间类型和调参信息，在预设的强化学习算法库中，确定目标强化学习算法。
56.在本实施方式中，为实现对目标强化学习算法的快速适配，将根据建模方式、性能指标、硬件资源信息、动作空间类型和调参信息构建决策树，用于选择待评价资源分配调度方案对应的目标强化学习算法。
57.具体而言，决策树包含五层子节点，第1层子节点根据待评价资源分配调度方案的建模方式，分为单智能体建模方式和多智能体建模方式两类；第2层子节点根据性能指标，分为算法训练速度要求高和算法训练速度要求一般两类；第3层子节点根据可用的硬件资源，分为硬件资源充足和硬件资源不充足两类；第4层子节点根据问题的动作空间，分为离散动作空间和连续动作空间两类；第5层子节点根据算法设计开发人员对算法调参经验是否支持复杂调参，分支持复杂调参和不支持复杂调参两类。经过上述5层决策，可得到对应的目标强化学习算法。
58.在具体实现中，可以按照以下步骤进行目标强化学习算法的匹配：步骤1：在第1层子节点，基于应急资源调度问题的数学建模，确定该问题决策主体建模方式属于单智能体建模方式或者多智能体建模方式，进行算法的初选。
59.步骤2：在第2层子节点，依据对算法训练速度提出的性能指标进行算法的优选，对于单智能体建模方式，如果对算法训练速度要求高，则进入第3层子节点，否则跳转至第5层子节点；对于多智能体建模方式，如果对算法训练速度要求高，则进入第3层子节点，否则直接选出对应的目标强化学习算法。
60.步骤3：在第3层子节点，根据可用的硬件资源情况进行算法的进一步优选，对于单智能体建模方式，如果硬件资源不足，则进入第4层子节点，否则跳转至第5层子节点；对于多智能体建模方式如果硬件资源不足，则进入第4层子节点，否则直接选出对应的目标强化学习算法。
61.步骤4：在第4层子节点，根据问题的动作空间对算法进行优选，对于单智能体建模方式，如果动作空间为连续动作空间，则进入第5层子节点，否则直接选出对应的目标强化学习算法；对于多智能体建模方式，可根据动作空间类型直接选出对应的目标强化学习算法。
62.步骤5：在第5层子节点，根据算法设计开发人员对算法调参经验进行算法的最终筛选，得到对应的目标强化学习算法，例如选择支持复杂调参的目标强化学习算法或者选择不支持复杂调参的目标强化学习算法。
63.在本实施方式中，通过构建决策树，能够基于待评价资源分配调度方案对应的建
模方式、性能指标、硬件资源信息、动作空间类型和调参信息，在预设的强化学习算法库中快速匹配合适的目标强化学习算法，进而提高对目标深度学习网络模型的优化效率和优化效果。
64.s102-3：基于待评价资源分配调度方案对应的多个仿真元素，构建多个仿真元素各自对应的数学模型，得到目标仿真推演模型。
65.在本实施方式中，针对待评价资源分配调度方案可能涉及的仿真元素，可以预先构建各个仿真元素对应的数学模型，例如资源需求点模型（包含资源需求点的位置、种类、数量和/或优先级等信息）、资源储备点模型（源储备点的位置、数量、种类和/或优先级等信息）和载具模型（载具的数量、种类、运输能力、电耗、油耗和/或实际交通情况等信息）等数学模型，进而在获取到待评价资源分配调度方案对应的多个仿真元素，能够直接调用相应的数学模型，得到目标仿真推演模型。
66.示例性地，待评价资源分配调度方案对应的多个仿真元素包含两个资源需求点（设为a点和b点），一个资源储备点（设为c点）和若干载具（包括货车x辆，无人机y辆），则可以基于a点和b点的位置、种类、数量和/或优先级等信息，分别构建a点对应的a资源需求点模型以及b点对应的b资源需求点模型；基于c点的位置、数量、种类和/或优先级等信息构建c点对应的c资源储备点模型；基于货车的数量、种类、运输能力、油耗和/或实际交通情况，构建x辆货车对应的货车载具模型，基于无人机的数量、种类、运输能力、电耗和/或实际交通情况，构建y辆无人机对应的无人机载具模型。进而基于a资源需求点模型、b资源需求点模型、c资源储备点模型、货车载具模型和无人机载具模型，便可得到目标仿真推演模型。
67.在本实施方式中，在目标深度学习网络模型的训练过程中，在得到目标深度学习网络模型输出的初始资源分配调度方案之后，便可根据初始资源分配调度方案具有的目标仿真元素，在目标仿真推演模型中调用目标仿真元素对应的目标数学模型，进而在仿真空间中，运行目标数学模型，实现对初始资源分配调度方案的仿真推演。
68.在一个可行的实施方式中，s103具体可以包括以下子步骤：s103-1：基于源数据，生成多个训练样本。
69.在本实施方式中，为使训练得到的评估智能体具有和初始资源分配调度方案相同或者相似的问题边界，将会通过对源数据进行采样，得到用于训练目标深度学习网络模型的训练样本。
70.具体而言，每个训练样本均包含模型静态输入信息和动态输入信息。其中，模型静态输入信息用以明确问题边界；动态输入信息则是为提高评估智能体的泛化能力，实现在问题边界内对各种可能的应急调度问题的求解。
71.在具体实现中，针对模型静态输入信息，可以将源数据中的资源需求点信息、资源储备点信息和载具运输信息，确定为模型静态输入信息；针对动态输入信息，则可以分别对优化目标和约束条件进行采样，得到多个模型动态输入信息，每个模型动态输入信息包括各自对应的优化目标和约束条件；最终，将多个模型动态输入信息分别与模型静态输入信息组合，便可得到多个训练样本。
72.示例性的，源数据中的优化目标和约束条件均为多个，分别为x个优化目标和y个约束条件，则通过对x个优化目标进行采样，可以得到n种由不同优化目标构成的优化目标组合，通过对y个约束条件进行采样，可以得到m种由不同约束条件构成的约束条件组合；再
对n种优化目标组合和m种约束条件组合进行组合，可得到n*m个模型动态输入信息；最终将n*m个模型动态输入信息分别叠加模型静态输入信息，便可得到n*m个训练样本。
73.s103-2：在多个训练样本中选取任一训练样本，将该训练样本输入目标深度学习网络模型，得到初始资源分配调度方案。
74.在本实施方式中，可以通过随机函数，在n*m个训练样本中随机选取一个训练样本输入到目标深度学习网络模型，并输出得到初始资源分配调度方案。由于此时目标深度学习网络模型的模型参数为默认参数，因此，首次训练得到的该初始资源分配调度方案通常无法满足要求。
75.s103-3：通过目标仿真模型对初始资源分配调度方案进行仿真推演，确定初始资源分配调度方案对应的评价分数。
76.在本实施方式中，在得到初始资源分配调度方案之后，将调用目标仿真模型在仿真空间对初始资源分配调度方案进行仿真推演，根据仿真推演结果，确定初始资源分配调度方案对应的评价分数。
77.s103-4：在评价分数小于分数阈值的情况下，通过目标强化学习算法对目标深度学习网络模型进行迭代优化，以得到更新后模型。
78.在本实施方式中，将会通过判断评价分数是否大于分数阈值，确定目标深度学习网络模型是否满足收敛条件。具体而言，在评价分数小于分数阈值时，确定目标深度学习网络模型不满足收敛条件，进而通过目标强化学习算法对目标深度学习网络模型进行一次迭代优化，对目标深度学习网络模型的模型参数进行更新，以得到更新后模型。
79.s103-5：将更新后模型作为目标深度学习网络模型，并执行在多个训练样本中选取任一训练样本，将该训练样本输入目标深度学习网络模型，得到初始资源分配调度方案的步骤，直到评价分数大于或者等于分数阈值，确定目标深度学习网络模型满足收敛条件，得到评估智能体。
80.在本实施方式中，在得到更新后模型之后，会将更新后模型作为目标深度学习网络模型，并回到步骤s103-2，再次执行s103-2~s103-5的步骤，通过重复上述过程，直到目标深度学习网络模型满足收敛条件，即评价分数大于或者等于分数阈值，则结束训练，得到训练好的评估智能体。
81.在一个可行的实施方式中，s105具体可以包括以下子步骤：s105-1：确定目标资源分配调度方案针对至少一个方案评价指标各自对应的基准评价指标。
82.在本实施方式中，至少一个方案评价指标具体可以包括：资源分配调度方案与资源需求的偏离程度、资源分配调度方案满足资源调度时长要求的程度、资源分配调度方案实施完成的总时长、应急资源运送到资源需求点的平均时间、资源分配调度方案实施完成的总资源花费、资源分配调度方案实施完成的总运载花费、资源分配调度方案实施完成的总花费、资源分配调度方案实施中的风险、使用的资源储备点的数目和使用载具的数目。
83.需要说明的是，可以根据实际的应急调度需求和要求，对方案评价指标进行设置，本实施方式不对方案评价指标的数量和具体内容作出具体限制。
84.在本实施方式中，针对至少一个方案评价指标，可以将目标资源分配调度方案针对各项方案评价指标的具体参数设置为基准评价指标。示例性的，针对资源分配调度方案
与资源需求的偏离程度，可以将目标资源分配调度方案中运往各个资源需求点的资源数量确定为基准评价指标；针对资源分配调度方案实施完成的总花费，可以将目标资源分配调度方案实施完成的总花费确定为基准评价指标。
85.s105-2：确定待评价资源分配调度方案针对至少一个方案评价指标各自对应的待评价指标。
86.在本实施方式中，待评价指标相当于在待评价资源分配调度方案中，针对各项方案评价指标的具体参数。示例性的，针对资源分配调度方案与资源需求的偏离程度，对应的待评价指标即为待评价资源分配调度方案中运往各个资源需求点的资源数量；针对资源分配调度方案实施完成的总花费，对应的待评价指标即为待评价资源分配调度方案实施完成的总花费。
87.s105-3：针对至少一个方案评价指标中的任一方案评价指标，基于该方案评价指标对应的基准评价指标和待评价指标，确定待评价资源分配调度方案针对该方案评价指标的方案评价结果。
88.在本实施方式中，通过针对至少一个方案评价指标中的任一方案评价指标，比较基准评价指标和待评价指标之间的差异，并对差异进行量化，便可得到待评价资源分配调度方案针对各项方案评价指标的方案评价结果。
89.在具体实现中，针对方案评价指标“资源分配调度方案与资源需求的偏离程度”（以下简称为a指标），可以按照以下公式，确定待评价资源分配调度方案针对a指标的方案评价结果：s1={[(（w1*z1)^2+（w2*z2)^2+
…
+（wn*zn)^2)]/n}^0.5（1）；（2）；w1+w2+
…
+wn=1（3）；其中，s1表示待评价资源分配调度方案针对a指标的方案评价结果；n表示资源需求点的数量；wn表示第n个资源需求点对应的权重；xn表示待评价资源分配调度方案针对a指标的待评价指标（即待评价资源分配调度方案中运往第n个资源需求点的资源数量）；yn表示目标资源分配调度方案针对a指标的基准评价指标（即目标资源分配调度方案中运往第n个资源需求点的资源数量）；zn表示在第n个资源需求点待评价指标与基准评价指标的偏离值。
[0090]
需要说明的是，若xn≥yn，说明待评价资源分配调度方案能够满足第n个资源需求点的资源数量需求，此时zn取0；若xn＜yn，说明待评价资源分配调度方案不能满足第n个资源需求点的资源数量需求，此时zn取实际差值。
[0091]
需要进一步说明的是，s1越小，说明待评价资源分配调度方案针对a指标与目标资源分配调度方案的偏离程度越小，在最理想情况下，s1为0，此时，待评价资源分配调度方案能够满足每个资源需求点的资源需求。
[0092]
在具体实现中，针对方案评价指标“资源分配调度方案满足资源调度时长要求的程度”（以下简称为b指标），可以按照以下公式，确定待评价资源分配调度方案针对b指标的方案评价结果：
（4）；其中，s2表示待评价资源分配调度方案针对b指标的方案评价结果；t1表示目标资源分配调度方案针对b指标的基准评价指标（即目标资源分配调度方案中的资源调度时长）；t2表示待评价资源分配调度方案针对b指标的待评价指标（即待评价资源分配调度方案中的资源调度时长）。
[0093]
需要说明的是，s2越大，说明待评价资源分配调度方案针对b指标与目标资源分配调度方案的偏离程度越小，在最理想情况下，s2为100%，此时，待评价资源分配调度方案的资源调度时长小于或者等于目标资源分配调度方案中的资源调度时长。
[0094]
在本实施方式中，针对其他方案评价指标，例如资源分配调度方案实施完成的总时长、应急资源运送到资源需求点的平均时间、资源分配调度方案实施完成的总资源花费、资源分配调度方案实施完成的总运载花费、资源分配调度方案实施完成的总花费、资源分配调度方案实施中的风险、使用的资源储备点的数目和使用载具的数目，均可参照上述公式，确定待评价资源分配调度方案与目标资源分配调度方案之间的指标差异，该指标差异可以通过数值绝对差异和数值差异百分比的形式进行数值化体现，进而根据指标差异，直观体现待评价资源分配调度方案针对该方案评价指标的方案评价结果。
[0095]
在具体实现中，可以通过图表的形式，分别列出目标资源分配调度方案的各项基准评价指标、待评价资源分配调度方案的各项待评价指标以及各项方案评价指标对应的方案评价结果。例如，在进行表格化展示时，可以在表格的第一列输出目标资源分配调度方案的各项基准评价指标，在表格的第二列输出待评价资源分配调度方案的各项待评价指标，在表格的第三列输出各项待评价指标与对应的基准评价指标的指标差异；在表格的第四列输出各项方案评价指标对应的方案评价结果。
[0096]
在一个可行的实施方式中，s105之后，面向应急资源调度的智能评估方法还可以包括以下子步骤：s106：在任一方案评价指标对应的方案评价结果不满足该方案评价指标对应的指标差异阈值的情况下，输出该方案评价指标对应的提示信息。
[0097]
在本实施方式中，针对至少一个方案评价指标中的任一方案评价指标，还设置有对应的指标差异阈值，通过设置指标差异阈值，能够自动判断待评价资源分配调度方案的方案评价结果是否满足实际的资源分配调度要求。
[0098]
示例性地，针对a指标（即资源分配调度方案与资源需求的偏离程度），可以设置其对应的指标差异阈值为10%，即在s1＞10%时，认为待评价资源分配调度方案与资源需求的偏离程度较大，输出a指标对应的提示信息，以提示待评价资源分配调度方案无法满足a指标。
[0099]
示例性地，针对b指标（即资源分配调度方案满足资源调度时长要求的程度）可以设置其对应的指标差异阈值为90%，即在s2＜90%时，认为待评价资源分配调度方案无法满足资源调度时长要求，则输出b指标对应的提示信息，以提示待评价资源分配调度方案无法满足b指标。
[0100]
第二方面，基于相同发明构思，参照图2，本技术实施例提供了一种面向应急资源
调度的智能评估系统200，该面向应急资源调度的智能评估系统200包括：信息获取模块201，用于获取待评价资源分配调度方案以及用于生成待评价资源分配调度方案的源数据；源数据包括目标问题输入、目标问题输出、目标约束条件和优化目标，其中，目标问题输入包括资源需求点信息、资源储备点信息和载具运输信息，目标问题输出表征待评价资源分配调度方案的格式要求。
[0101]
模型确定模块202，用于确定待评价资源分配调度方案对应的目标深度学习网络模型、目标强化学习算法和目标仿真推演模型。
[0102]
迭代优化模块203，用于基于源数据，通过目标强化学习算法和目标仿真模型，对目标深度学习网络模型进行迭代优化，直到目标深度学习网络模型满足收敛条件，得到评估智能体。
[0103]
方案输出模块204，用于将目标问题输入、目标问题输出、目标约束条件和优化目标输入评估智能体，输出得到目标资源分配调度方案。
[0104]
方案评价模块205，用于针对至少一个方案评价指标，通过目标资源分配调度方案，对待评价资源分配调度方案进行评估，得到待评价资源分配调度方案针对至少一个方案评价指标各自对应的方案评价结果。
[0105]
在本技术一实施例中，模型确定模块202包括：第一模型确定子模块，用于基于源数据，在预设的深度学习网络模型库中，确定目标深度学习网络模型。
[0106]
第二模型确定子模块，用于基于待评价资源分配调度方案对应的建模方式、性能指标、硬件资源信息、动作空间类型和调参信息，在预设的强化学习算法库中，确定目标强化学习算法。
[0107]
仿真推演模型构建子模块，用于基于待评价资源分配调度方案对应的多个仿真元素，构建多个仿真元素各自对应的数学模型，得到目标仿真推演模型。
[0108]
在本技术一实施例中，迭代优化模块203包括：样本生成子模块，用于基于源数据，生成多个训练样本。
[0109]
样本输入子模块，用于在多个训练样本中选取任一训练样本，将该训练样本输入目标深度学习网络模型，得到初始资源分配调度方案。
[0110]
仿真推演子模块，用于通过目标仿真模型对初始资源分配调度方案进行仿真推演，确定初始资源分配调度方案对应的评价分数。
[0111]
模型更新子模块，用于在评价分数小于分数阈值的情况下，通过目标强化学习算法对目标深度学习网络模型进行迭代优化，以得到更新后模型。
[0112]
迭代优化子模块，用于将更新后模型作为目标深度学习网络模型，并执行在多个训练样本中选取任一训练样本，将该训练样本输入目标深度学习网络模型，得到初始资源分配调度方案的步骤，直到评价分数大于或者等于分数阈值，确定目标深度学习网络模型满足收敛条件，得到评估智能体。
[0113]
在本技术一实施例中，样本生成子模块包括：第一信息确定单元，用于基于资源需求点信息、资源储备点信息和载具运输信息，确定模型静态输入信息。
[0114]
第二信息确定单元，用于分别对优化目标和约束条件进行采样，得到多个模型动
态输入信息；每个模型动态输入信息包括各自对应的优化目标和约束条件。
[0115]
样本生成单元，用于将多个模型动态输入信息分别与模型静态输入信息组合，得到多个训练样本。
[0116]
在本技术一实施例中，方案评价模块205包括：基准评价指标确定子模块，用于确定目标资源分配调度方案针对至少一个方案评价指标各自对应的基准评价指标。
[0117]
待评价指标确定子模块，用于确定待评价资源分配调度方案针对至少一个方案评价指标各自对应的待评价指标。
[0118]
方案评价子模块，用于针对至少一个方案评价指标中的任一方案评价指标，基于该方案评价指标对应的基准评价指标和待评价指标，确定待评价资源分配调度方案针对该方案评价指标的方案评价结果。
[0119]
在本技术一实施例中，面向应急资源调度的智能评估系统200还包括：提示模块，用于在任一方案评价指标对应的方案评价结果不满足该方案评价指标对应的指标差异阈值的情况下，输出该方案评价指标对应的提示信息。
[0120]
需要说明的是，本技术实施例的面向应急资源调度的智能评估系统200的具体实施方式参照前述本技术实施例第一方面提出的面向应急资源调度的智能评估方法的具体实施方式，在此不再赘述。
[0121]
本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0122]
本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。
[0123]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。
[0124]
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。
[0125]
尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为
包括优选实施例以及落入本发明实施例范围的所有变更和修改。
[0126]
最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
[0127]
以上对本发明所提供的一种面向应急资源调度的智能评估方法和系统，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上，本说明书内容不应理解为对本发明的限制。

技术特征：
1.一种面向应急资源调度的智能评估方法，其特征在于，所述方法包括：获取待评价资源分配调度方案以及用于生成所述待评价资源分配调度方案的源数据；所述源数据包括目标问题输入、目标问题输出、目标约束条件和优化目标，其中，所述目标问题输入包括资源需求点信息、资源储备点信息和载具运输信息，所述目标问题输出表征所述待评价资源分配调度方案的格式要求；确定所述待评价资源分配调度方案对应的目标深度学习网络模型、目标强化学习算法和目标仿真推演模型；基于所述源数据，通过所述目标强化学习算法和所述目标仿真模型，对所述目标深度学习网络模型进行迭代优化，直到所述目标深度学习网络模型满足收敛条件，得到评估智能体；将所述目标问题输入、所述目标问题输出、所述目标约束条件和所述优化目标输入所述评估智能体，输出得到目标资源分配调度方案；针对至少一个方案评价指标，通过所述目标资源分配调度方案，对所述待评价资源分配调度方案进行评估，得到所述待评价资源分配调度方案针对至少一个所述方案评价指标各自对应的方案评价结果。2.根据权利要求1所述的面向应急资源调度的智能评估方法，其特征在于，确定所述待评价资源分配调度方案对应的目标深度学习网络模型、目标强化学习算法和目标仿真推演模型的步骤，包括：基于所述源数据，在预设的深度学习网络模型库中，确定所述目标深度学习网络模型；基于所述待评价资源分配调度方案对应的建模方式、性能指标、硬件资源信息、动作空间类型和调参信息，在预设的强化学习算法库中，确定所述目标强化学习算法；基于所述待评价资源分配调度方案对应的多个仿真元素，构建多个所述仿真元素各自对应的数学模型，得到所述目标仿真推演模型。3.根据权利要求1所述的面向应急资源调度的智能评估方法，其特征在于，基于所述源数据，通过所述目标强化学习算法和所述目标仿真模型，对所述目标深度学习网络模型进行迭代优化，直到所述目标深度学习网络模型满足收敛条件，得到评估智能体的步骤，包括：基于所述源数据，生成多个训练样本；在多个所述训练样本中选取任一训练样本，将该训练样本输入所述目标深度学习网络模型，得到初始资源分配调度方案；通过所述目标仿真模型对所述初始资源分配调度方案进行仿真推演，确定所述初始资源分配调度方案对应的评价分数；在所述评价分数小于分数阈值的情况下，通过所述目标强化学习算法对所述目标深度学习网络模型进行迭代优化，以得到更新后模型；将所述更新后模型作为所述目标深度学习网络模型，并执行在多个所述训练样本中选取任一训练样本，将该训练样本输入所述目标深度学习网络模型，得到初始资源分配调度方案的步骤，直到所述评价分数大于或者等于所述分数阈值，确定所述目标深度学习网络模型满足所述收敛条件，得到所述评估智能体。4.根据权利要求3所述的面向应急资源调度的智能评估方法，其特征在于，基于所述源
数据，生成多个训练样本的步骤，包括：基于所述资源需求点信息、所述资源储备点信息和所述载具运输信息，确定模型静态输入信息；分别对所述优化目标和所述约束条件进行采样，得到多个模型动态输入信息；每个所述模型动态输入信息包括各自对应的优化目标和约束条件；将多个所述模型动态输入信息分别与所述模型静态输入信息组合，得到多个所述训练样本。5.根据权利要求1所述的面向应急资源调度的智能评估方法，其特征在于，针对至少一个方案评价指标，通过所述目标资源分配调度方案，对所述待评价资源分配调度方案进行评估，得到所述待评价资源分配调度方案针对至少一个所述方案评价指标各自对应的方案评价结果的步骤，包括：确定所述目标资源分配调度方案针对至少一个所述方案评价指标各自对应的基准评价指标；确定所述待评价资源分配调度方案针对至少一个所述方案评价指标各自对应的待评价指标；针对至少一个所述方案评价指标中的任一方案评价指标，基于该方案评价指标对应的基准评价指标和待评价指标，确定所述待评价资源分配调度方案针对该方案评价指标的方案评价结果。6.根据权利要求1所述的面向应急资源调度的智能评估方法，其特征在于，针对至少一个方案评价指标，通过所述目标资源分配调度方案，对所述待评价资源分配调度方案进行评估，得到所述待评价资源分配调度方案针对至少一个所述方案评价指标各自对应的方案评价结果的步骤之后，所述方法还包括：在任一方案评价指标对应的方案评价结果不满足该方案评价指标对应的指标差异阈值的情况下，输出该方案评价指标对应的提示信息。7.一种面向应急资源调度的智能评估系统，其特征在于，所述系统包括：信息获取模块，用于获取待评价资源分配调度方案以及用于生成所述待评价资源分配调度方案的源数据；所述源数据包括目标问题输入、目标问题输出、目标约束条件和优化目标，其中，所述目标问题输入包括资源需求点信息、资源储备点信息和载具运输信息，所述目标问题输出表征所述待评价资源分配调度方案的格式要求；模型确定模块，用于确定所述待评价资源分配调度方案对应的目标深度学习网络模型、目标强化学习算法和目标仿真推演模型；迭代优化模块，用于基于所述源数据，通过所述目标强化学习算法和所述目标仿真模型，对所述目标深度学习网络模型进行迭代优化，直到所述目标深度学习网络模型满足收敛条件，得到评估智能体；方案输出模块，用于将所述目标问题输入、所述目标问题输出、所述目标约束条件和所述优化目标输入所述评估智能体，输出得到目标资源分配调度方案；方案评价模块，用于针对至少一个方案评价指标，通过所述目标资源分配调度方案，对所述待评价资源分配调度方案进行评估，得到所述待评价资源分配调度方案针对至少一个所述方案评价指标各自对应的方案评价结果。
8.根据权利要求7所述的面向应急资源调度的智能评估系统，其特征在于，所述模型确定模块包括：第一模型确定子模块，用于基于所述源数据，在预设的深度学习网络模型库中，确定所述目标深度学习网络模型；第二模型确定子模块，用于基于所述待评价资源分配调度方案对应的建模方式、性能指标、硬件资源信息、动作空间类型和调参信息，在预设的强化学习算法库中，确定所述目标强化学习算法；仿真推演模型构建子模块，用于基于所述待评价资源分配调度方案对应的多个仿真元素，构建多个所述仿真元素各自对应的数学模型，得到所述目标仿真推演模型。9.根据权利要求7所述的面向应急资源调度的智能评估系统，其特征在于，所述迭代优化模块包括：样本生成子模块，用于基于所述源数据，生成多个训练样本；样本输入子模块，用于在多个所述训练样本中选取任一训练样本，将该训练样本输入所述目标深度学习网络模型，得到初始资源分配调度方案；仿真推演子模块，用于通过所述目标仿真模型对所述初始资源分配调度方案进行仿真推演，确定所述初始资源分配调度方案对应的评价分数；模型更新子模块，用于在所述评价分数小于分数阈值的情况下，通过所述目标强化学习算法对所述目标深度学习网络模型进行迭代优化，以得到更新后模型；迭代优化子模块，用于将所述更新后模型作为所述目标深度学习网络模型，并执行在多个所述训练样本中选取任一训练样本，将该训练样本输入所述目标深度学习网络模型，得到初始资源分配调度方案的步骤，直到所述评价分数大于或者等于所述分数阈值，确定所述目标深度学习网络模型满足所述收敛条件，得到所述评估智能体。10.根据权利要求9所述的面向应急资源调度的智能评估系统，其特征在于，所述样本生成子模块包括：第一信息确定单元，用于基于所述资源需求点信息、所述资源储备点信息和所述载具运输信息，确定模型静态输入信息；第二信息确定单元，用于分别对所述优化目标和所述约束条件进行采样，得到多个模型动态输入信息；每个所述模型动态输入信息包括各自对应的优化目标和约束条件；样本生成单元，用于将多个所述模型动态输入信息分别与所述模型静态输入信息组合，得到多个所述训练样本。

技术总结
本申请提供了一种面向应急资源调度的智能评估方法和系统，属于应急处理技术领域。本申请实施例通过获取待评价资源分配调度方案和源数据，能够通过目标强化学习算法和目标仿真模型，对目标深度学习网络模型进行迭代优化，以得到评估智能体，并利用该评估智能体生成目标资源分配调度方案，进而通过目标资源分配调度方案，对待评价资源分配调度方案的至少一个方案评价指标进行评估，得到方案评价结果。本申请实施例充分利用深度强化学习技术在面向复杂优化问题上的优势，通过评估智能体生成目标资源分配调度方案，实现对待评价资源分配调度方案的各项方案评价指标的全面评估，能够更加全面准确地评估待评价资源分配调度方案的优化程度和有效性。案的优化程度和有效性。案的优化程度和有效性。

技术研发人员：曹扬吕乃冰王才红吴京辉贾思雨贾帅楠许馨月
受保护的技术使用者：北京航天晨信科技有限责任公司
技术研发日：2023.08.16
技术公布日：2023/9/13

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

上一篇：一种极异方形磁环的制作方法 下一篇：一种外置弹性装置的健腹器的制作方法

一种面向应急资源调度的智能评估方法和系统与流程

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

一种面向应急资源调度的智能评估方法和系统与流程

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表