一种不确定环境下再制造可重入柔性车间调度方法

未命名 09-07 阅读：129 评论：0

1.本技术属于再制造技术领域，尤其涉及一种不确定环境下再制造可重入柔性车间调度方法。

背景技术：

2.作为一种资源节约型和环境友好型的制造范式，再制造是指通过拆卸、再加工和重组等一系列操作将废旧产品修复到全新状态的生产过程。然而，废旧产品的使用状况、失效形式和程度存在显著差异，导致再制造具有复杂的内在不确定性。在实际再制造过程中，由于工人操作水平、加工环境等外部因素的影响，导致加工时间和加工成本也呈现出很大的外在不确定性，且与前述的内在不确定性形成叠加影响，最终呈现出复杂的双重不确定性。此外，由于再制造操作具有可重入性(即废旧产品因存在加工前无法检测到的某些缺陷而导致部分加工操作需要反复进行多次)和机器柔性的特点，使得再制造调度问题更具挑战性。
3.目前有关不确定环境下再制造调度问题的研究成果主要涉及简单模糊理论和随机优化方法。然而，受制于再制造过程中复杂的双重不确定性，上述方法并不能对其进行全面准确的描述。尽管有少量学者尝试采用更为完备的双模糊理论来描述双重不确定性，但是并未阐明双重不确定性与双模糊理论之间的映射关系。此外，现有技术没有针对不确定性所造成的再制造操作可重入性进行研究。

技术实现要素：

4.本技术的目的是提供一种不确定环境下再制造可重入柔性车间调度方法，以解决目前再制造中双重不确定性环境下可重入操作所带来的调度方案无法到达最优的问题。
5.为了实现上述目的，本技术技术方案如下
6.一种不确定环境下再制造可重入柔性车间调度方法，所述不确定环境下再制造可重入柔性车间调度方法，包括：
7.步骤1、针对不确定环境下再制造可重入柔性车间调度优化问题，采用双模糊数表示加工时间和加工成本，以最小化最大完工时间、总成本和机器总负荷为目标构建调度优化模型，并采用期望值算子方法将调度优化模型转化为等效确定模型；
8.步骤2、采用二维编码来表示等效确定模型的解，所述二维编码的第一维表示操作顺序，第二维度表示执行每个操作所选择的机器，并生成初始种群；
9.步骤3、基于强化学习获得交叉率，对当前种群执行交叉变异操作；
10.步骤4、对执行交叉变异操作得到的种群执行局部搜索策略；
11.步骤5、对执行局部搜索策略后得到的种群进行快速非支配排序，计算拥挤度，然后基于精英保留策略生成新一代种群；
12.步骤6、判断是否达到迭代终止条件，如果是则结束迭代输出最优调度方案，否则返回步骤3继续进行迭代。
13.进一步的，所述生成初始种群，采用了包括随机规则、局部时间最小规则和局部成本最小规则的混合种群初始化策略，其中：
14.所述随机规则随机生成一组操作顺序向量，然后每个操作从备选机器集中随机选择一台机器进行加工；
15.所述局部时间最小规则随机生成一组操作顺序向量，然后每个操作都从备选机器集中选择加工时间最小的机器；
16.所述局部成本最小规则随机生成一组操作顺序向量，然后每个操作从备选机器集中选择加工成本最小的机器。
17.进一步的，所述等效确定模型，用公式表示为：
[0018][0019][0020][0021]
其中，表示完成所有产品的再制造所需的双模糊时间期望值，表示第n台机器执行操作的双模糊结束时间期望值，表示再制造pi过程中第k次进行oj操作，pi表示废旧产品种类，oj表示再制造操作种类，表示完成所有产品的再制造所需的双模糊成本期望值，表示第n台机器执行操作所需的双模糊成本期望值，表示二进制变量，表示完成所有产品的再制造所需的双模糊机器总负荷期望值，表示第n台机器执行操作所需的双模糊加工时间期望值，废旧产品种类总共有i种，再制造操作种类总共有j种，k
ij
表示再制造pi过程中进行oj操作的总次数，n
ij
表示执行操作的机器总数量。
[0022]
进一步的，所述强化学习以当前种群作为输入环境状态，输出动作交叉率。
[0023]
进一步的，所述对当前种群执行交叉变异操作时，还包括：
[0024]
对不满足交叉条件的父代和母代基因均使用逆转变异算子。
[0025]
进一步的，所述对当前种群执行交叉变异操作时，还包括：
[0026]
对交叉后产生的不可行解采用修复算子进行修复。
[0027]
进一步的，所述对不满足交叉条件的父代和母代基因均使用逆转变异算子之后，还包括：
[0028]
对变异后产生的不可行解采用修复算子进行修复。
[0029]
本技术提出的一种不确定环境下再制造可重入柔性车间调度方法，采用双模糊理
论对再制造过程中的双重不确定性进行二维模糊化处理并构建了二者的映射关系，进而建立了以最小化最大完工时间、总成本和机器总负荷为目标的再制造可重入柔性车间调度模型，在此基础上提出了一种高效的rlnsga-ii求解算法。首先，rlnsga-ii算法通过q-learning技术在迭代过程中对交叉率进行动态优化，从而充分利用算法进化过程中生成的帕累托非支配解集的收敛性、均匀性等重要信息来改进种群的多样性并加快算法的收敛速度。此外，还设计了一种新的二维编码方案以提高算法效率，并嵌入了混合种群初始化策略以生成高质量的初始种群，采用了局部搜索策略以增强局部搜索能力。本技术技术方案提升了在不确定环境下再制造可重入柔性车间调度的效率，提高了调度方案的质量。
附图说明
[0030]
图1为本技术不确定环境下再制造可重入柔性车间调度方法流程图。
[0031]
图2为本技术实施例四种废旧产品的再制造过程甘特图。
[0032]
图3为本技术实施例调度方案编码示意图。
[0033]
图4为本技术实施例求解调度优化模型算法流程图。
[0034]
图5为本技术实施例交叉算子示意图。
[0035]
图6为本技术实施例逆转变异算子示意图。
[0036]
图7为本技术实施例局部搜索策略示意图。
[0037]
图8为本技术求解调度优化模型算法在不同实例上与传统算法性能实验结果图。
具体实施方式
[0038]
为了使本技术的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本技术进行进一步详细说明。应当理解，此处描述的具体实施例仅用以解释本技术，并不用于限定本技术。
[0039]
本技术针对不确定环境下再制造可重入柔性车间调度问题(uncertain remanufacturing re-entrant flexible job-shop scheduling problem,urrfjsp)，在引入双模糊理论对双重不确定性进行二维模糊化处理的同时，建立了二者之间的映射关系，构建了以最小化最大完工时间、总成本和机器总负荷为目标的再制造可重入柔性车间调度问题优化模型，并提出了一种基于强化学习的改进型nsga-ii算法(areinforcement learning based nsga-ii algorithm,rlnsga-ii)以高效求解上述模型。最后，通过仿真实验验证了该算法的有效性和优越性。
[0040]
在一个实施例中，如图1所示，提出了一种不确定环境下再制造可重入柔性车间调度方法，包括：
[0041]
步骤s1、针对不确定环境下再制造可重入柔性车间调度优化问题，采用双模糊数表示加工时间和加工成本，以最小化最大完工时间、总成本和机器总负荷为目标构建调度优化模型，并采用期望值算子方法将调度优化模型转化为等效确定模型。
[0042]
假设有i种废旧产品需要在j个操作上完成再制造，且每个操作的备选机器中有一台或多台机器，不同机器所需要的加工时间和加工成本各不相同，一种废旧产品再制造过程中可能会重复进行某一个操作，同一操作执行顺序不同备选机器所对应的机器加工时间和加工成本各不相同。此时不确定环境下再制造可重入柔性车间调度优化问题(urrfjsp问
题)可以描述为求解i种废旧产品的最优再制造顺序，使所设定的目标达到最优。如表面处理操作的备选机器中有电镀铬机器和冷焊机器，对应机器的加工时间和加工成本都有所不同；废旧产品完成表面处理操作后通常需要重复进行一次表面处理以满足实际再制造中废旧产品达到全新状态的要求，第二次执行表面处理操作时备选机器集对应的机器加工时间和加工成本与第一次也都有所不同。
[0043]
本实施例所提出的调度优化模型，采用双模糊数表示加工时间和加工成本，也称为基于双模糊理论的调度优化模型，涉及如下符号：
[0044]
pi废旧产品种类，i＝1,2,3,
…
,i；
[0045]
oj再制造操作种类，j＝1,2,3,
…
,j；
[0046]
再制造pi过程中第k次进行oj操作，k＝1,2,3,
…
,k
ij
；
[0047]
选择第n台机器执行操作，n＝1,2,3,
…
,n
ij
；
[0048]
第n台机器执行操作所需的双模糊加工时间；
[0049]
第n台机器执行操作的双模糊开始时间；
[0050]
第n台机器执行操作的双模糊结束时间；
[0051]
第n台机器执行操作所需的双模糊成本；
[0052]
完成所有产品的再制造所需的双模糊时间；
[0053]
完成所有产品的再制造所需的双模糊成本；
[0054]
完成所有产品的再制造所需的双模糊机器总负荷；
[0055]
二进制变量，若选择第n台机器来加工则否则
[0056]
每个操作的双模糊开始时间和结束时间可由公式(2)和(3)计算得到：
[0057][0058][0059]
其中表示pi完成前一个操作或机器n第(k-1)次完成操作oj的双模糊结束时间的最大值，表示在pi之前在加工其他p
i'
的双模糊结束时间。
[0060]
本技术的优化目标为最小化最大完工时间、总成本和机器总负荷，最大完工时间、总成本和机器总负荷分别由公式(4)、(5)和(6)计算得到：
[0061]
[0062][0063][0064]
公式(2)-(6)受约束(7)-(9)所限制：
[0065][0066][0067][0068]
其中约束(7)表示一定存在一台机器可以用来执行操作；约束(8)和约束(9)表示只有在前一个操作完成后才能进行下一个操作。
[0069]
考虑到基于双模糊理论的调度优化模型很难直接进行求解，因此通常会选用合适的方法将其转化为等效确定模型，本实施例采用期望值算子方法将基于双模糊理论的调度优化模型转化为等效确定模型。
[0070]
双模糊数的期望值算子定义如下：若为二维模糊化处理后的双模糊数，则的期望值可由公式(10)计算得出。
[0071][0072]
且公式(10)的积分至少有一个是有限的。
[0073]
若为二维模糊化处理后的双模糊数，则可通过三角模糊数进行描述，如公式11所示：
[0074][0075]
其中为三角模糊数，和分别为最小值、最可能值和最大值，双模糊数的期望值可由公式(12)和(13)计算得到。
[0076][0077][0078]
其中wi为权重。
[0079]
基于以上双模糊数的期望值算子，本实施例构建了再制造双重不确定性与双模糊数之间的映射关系，双重不确定性的内在不确定性部分由三角模糊数，即进行描述，um为外在不确定性映射于双模糊数上的具象化，可以理解为双模糊数取的可能性。例如，的可能性um表示受双重不确定性影响，随机变量(即加工时间、加工成本)取值为的可能性为um。
[0080]
假设和均为二维模糊化处理后的双模糊数，且和的期望值都有限，同时和相互独立，则和的期望值和也相互独立，并满足等式(14)。
[0081][0082]
其中a、b为任意实数。
[0083]
根据上述公式，双模糊开始时间和结束时间的期望值计算如公式(15)、(16)和(17)所示：
[0084][0085][0086][0087]
因此，本技术的优化目标可转化为公式(18)、(19)和(20)，用以表示等效确定模型：
[0088][0089][0090][0091]
其中，表示完成所有产品的再制造所需的双模糊时间期望值，表示第n台机器执行操作的双模糊结束时间期望值，表示再制造pi过程中第k次进行oj操作，pi表示废旧产品种类，oj表示再制造操作种类，表示完成所有产品的
再制造所需的双模糊成本期望值，表示第n台机器执行操作所需的双模糊成本期望值，表示二进制变量，表示完成所有产品的再制造所需的双模糊机器总负荷期望值，表示第n台机器执行操作所需的双模糊加工时间期望值，废旧产品种类总共有i种，再制造操作种类总共有j种，k
ij
表示再制造pi过程中进行oj操作的总次数，n
ij
表示执行操作的机器总数量。
[0092]
步骤s2、采用二维编码来表示等效确定模型的解，所述二维编码的第一维表示操作顺序，第二维度表示执行每个操作所选择的机器，并生成初始种群。
[0093]
本技术通过对等效确定模型进行求解，以达到求解调度优化模型的目的，以下关于求解的描述中所称调度优化模型即对等效确定模型进行求解。本实施例采用了改进型rlnsga-ii(a reinforcement learning based nsga-ii algorithm)求解算法，如图4所示，集成了强化学习技术对种群交叉率进行动态优化以提升种群多样性。此外，还提出了一种新的二维编码方案以提高算法效率，嵌入了混合种群初始化策略以提高初始种群质量，采用了局部搜索策略以增强局部搜索能力。
[0094]
对于建立的调度优化模型，任意一种可行的调度方案可以理解为调度优化模型的解。而解的合理的编码方式是连接数学模型和优化算法的纽带。因此，本技术根据urrfjsp模型的特点，设计了一种能体现出产品种类、操作顺序和机器分配信息的二维编码方式。
[0095]
为清楚地说明该编码方式，以图2所示的4种废旧产品的再制造过程为例进行说明，如2显示了4种废旧产品再制造的甘特图，假设产品2(即p2)所需的再制造操作为{5，3，5，2}，操作5为重入操作且备选机器集为(1，2)，机器3既可以执行操作3也可以执行操作2，则p2依次经过机器1、3、2、3加工后即可达到全新状态。
[0096]
图3为上述示例的二维编码方式，其中产品2所需的再制造操作为{5，3，5，2}，操作5为可重入操作。第一维表示操作顺序，即4种废旧产品{1，2，3，4}按怎样的顺序进行操作；第二维表示为执行每个操作所选择的机器。例如，前三列表示加工顺序为和当第一维的{2}第一次出现时表示机器1正在进行产品2的第一个操作(即操作5)，当{2}第二次出现时则表示机器3正在进行产品2的第二个操作(即操作3)，当{2}第三次出现时则表示机器2正在进行产品2的第三个操作(即重入执行操作5)。
[0097]
考虑到初始种群的质量会对算法的收敛速度产生显著的影响，本实施例采用了包括随机规则、局部时间最小规则和局部成本最小规则的混合种群初始化策略，三种规则的比例通过实验来确定，以提高初始种群的质量，加快算法收敛速度。
[0098]
在一个具体的实施例中，初始种群的40％由随机规则生成，30％由局部时间最小规则生成，其余则由局部成本最小规则生成。三种规则的具体描述如下：
[0099]
1)随机规则：随机生成一组操作顺序向量，然后每个操作从备选机器集中随机选择一台机器进行加工。
[0100]
2)局部时间最小规则：随机生成一组操作顺序向量，然后每个操作都从备选机器集中选择加工时间最小的机器。
[0101]
3)局部成本最小规则：随机生成一组操作顺序向量，然后每个操作从备选机器集中选择加工成本最小的机器。
[0102]
步骤s3、基于强化学习获得交叉率，对当前种群执行交叉变异操作。
[0103]
q-learning是一种简单而高效的强化学习技术，q-learning由代理、环境、动作集、状态集和奖励五个部分(即a,ε,as,s,r)组成，可以有效地利用优化算法在迭代过程中生成的各类信息，进而提升算法性能。代理基于环境在t时刻的状态s
t
，执行动作a
t
，然后代理将获得一个奖励r
t+1
。通常，代理会选择q值最大的动作以获得最大的奖励，它的状态也会随之变成s
t+1
。q值将根据公式(21)进行更新：
[0104]
q(s
t
,a
t
)
←
(1-α)q(s
t
,a
t
)+α[r
t+1
+γ
×
maxq(s
t+1
,a
t+1
)](21)
[0105]
其中q(s
t
,a
t
)是在状态s
t
时采取动作a
t
的q值；r
t+1
是在状态s
t
时采取动作a
t
所获得的奖励值；maxq(s
t+1
,a
t+1
)表示在状态s
t+1
时执行动作a
t+1
在q值表中所能得到的最高期望q值；α是学习率，γ是折扣因子，其取值均位于[0,1]。
[0106]
本实施例的环境等同于rlnsga-ii算法每次迭代所生成的帕累托非支配解集，q-learning自身可视为代理。每次迭代时，代理都会基于环境(即帕累托非支配解集)在当前时刻的状态来选择最适合的动作(即交叉率)。基于预实验结果，本实施例将动作集定为[0.8,0.85,0.9,0.95]，动作集中的每个值均代表交叉率。为充分利用每次迭代时生成的帕累托非支配解集的收敛性、均匀性等重要信息，本实施例根据多目标优化算法的性能评估指标定义了状态集。评估指标的计算方法如公式(22)-(26)所示：
[0107][0108][0109][0110]
gd＝gd
i-gd
i-1
(25)
[0111]
sm＝sm
i-sm
i-1
(26)
[0112]
其中公式(22)和公式(23)是收敛性和均匀性评估指标，p是每一次迭代时所求得的帕累托非支配解集，p
*
是一组从p上采样而来的均匀分布参考点，dis(x,y)2表示p中的点y和p*中的点x之间的欧式距离，|p|为所求得的帕累托非支配解集个数，di是p中第i个解到其他解的最小距离，为di的平均值。公式(24)的fm(i)为第i个解的第m个目标值。gd(p,p
*
)值越小，表明收敛性越好；sm值越小，表明均匀性越好。因此，每进行一次迭代都能得到一组δgd值和δsm值，故本实施例的环境有以下四种状态：1)δgd≥0和δsm≥0；2)δgd≥0和δsm≤0；3)δgd≤0和δsm≥0；4)gd≤0和δsm≤0。
[0113]
代理每执行一个动作后，都会基于环境当前时刻的状态而得到一个奖励值，根据每次迭代的奖励值更新q值表，具体计算方法如公式(27)所示：
[0114][0115]
本实施例采用的交叉方式为两点交叉，操作流程如图5所示，从父代基因中随机选择两个点a和b，将两点之间的第一维元素和第二维元素复制到子代2对应的位置。同时在母代基因中按从左往右顺序依次找到数量相等的与父代基因a和b两点之间第一维相同的元素(即父代基因中第一维的{3，1，2，4，1}，对应母代基因中第一维的{1，2，4，3，1})，并将它们对应的第一维和第二维元素从母代基因中移出(即移出母代基因中的)。然后，将母代基因剩余的元素按顺序移动到子代2的空位置上。同理，子代1是基于母代基因a和b两点之间的元素所生成的。最后，对交叉后产生的不可行解采用修复算子进行修复。
[0116]
为防止rlnsga-ii算法过早陷入局部最优，本实施例对不满足交叉条件的父代和母代基因均使用逆转变异算子。如图6所示，随机选择一个基因片段，然后翻转这个片段中的元素顺序。最后，对变异后产生的不可行解采用修复算子进行修复。
[0117]
步骤s4、对执行交叉变异操作得到的种群执行局部搜索策略。
[0118]
为提高rlnsga-ii算法的局部搜索能力，获得质量更优的帕累托非支配解集，本实施例对交叉变异后生成的帕累托非支配解集执行了基于交换算子、插入算子和随机最小时间或最小成本算子的局部搜索策略。交换算子和插入算子如图7所示。
[0119]
随机最小时间或最小成本算子的具体操作流程如下：
[0120]
1)随机选择基因的一个点；
[0121]
2)判断该点对应的产品种类、操作和备选机器集，若该操作的备选机器集中仅有一台机器则结束，否则进行下一个步骤；
[0122]
3)随机从该操作的备选机器集中选择一台加工时间最小或加工成本最小的机器，替换原有机器。
[0123]
步骤s5、对执行局部搜索策略得到的种群进行快速非支配排序，计算拥挤度，然后基于精英保留策略生成新一代种群。
[0124]
在多目标优化算法nsga
‑ⅱ
中，对当前种群进行快速非支配排序，计算拥挤度，然后基于精英保留策略生成新一代种群，是比较成熟的技术方案，这里不再赘述。
[0125]
步骤s6、判断是否达到迭代终止条件，如果是则结束迭代输出最优调度方案，否则返回步骤s3继续进行迭代。
[0126]
本实施例设置迭代终止条件是达到最大迭代次数，如果未达到则返回步骤s3进行下一次迭代，如果达到最大迭代次数，则输出帕累托非支配解集，结束迭代，从而得到一组帕累托最优调度方案。
[0127]
本技术还提供了仿真实验数据，通过与基础型nsga-ii算法、多目标粒子群优化(multi-objective particle swarm optimization,mopso)算法和基于分解的多目标进化算法(multi-objective evolutionary algorithm based on decomposition,moea/d)的比较，评估了rlnsga-ii算法在求解urrfjsp模型时的性能。
[0128]
实验中，随机生成了一组规模不同的实例，以模拟实际的再制造场景。每个实例的产品种类数、总操作数和总机器数分别在7-80、6-30和5-23区间随机生成。所有实例的详细信息均可从figshare数据库公开获取，每个实例的命名均由产品种类数、总操作数和总机器数构成。例如，ins(35/16/9)表明产品种类数是35个，总操作数为16个，总机器数为9台。此外，为保证实验的公平性和稳定性，所有实验都独立运行10次，实验结果为10次实验的平均值。
[0129]
实验选取了set coverage(sc)和hypervolume(hv)两个指标以评估rlnsga-ii算法的性能。sc指标可以评估多目标优化算法生成的帕累托非支配解集的收敛性，hv指标可以综合评估多目标优化算法生成的帕累托非支配解集的收敛性和多样性，上述两个指标均为本领域已知的技术指标，这里不再赘述。
[0130]
为了验证rlnsga-ii算法中基于强化学习的交叉变异策略的有效性，本技术将对比算法设定为基于固定值交叉变异策略的nsga-ii算法。四种对比算法的交叉率分别设定为固定值0.8、0.85、0.9、0.95(迭代过程中不满足交叉条件的基因会进行变异)，并命名为nsga-ii(0.8)，nsga-ii(0.85)，nsga-ii(0.9)，nsga-ii(0.95)。实验结果如图8所示，表明rlnsga-ii算法在不同规模实例下的hv值都优于四种对比算法，表明本技术所提出的基于强化学习的交叉变异策略能提升算法的性能，从而获得质量更优的调度方案。
[0131]
然后，本技术通过比较rlnsga-ii算法与另外三种对比算法(基础型nsga-ii算法、mopso算法和moea/d算法)在15种不同规模实例下的sc指标和hv指标，进一步验证rlnsga-ii算法在求解urrfjsp模型的优越性，实验结果如表2和表3所示。
[0132]
表1列出了rlnsga-ii算法与三种对比算法的sc指标。sc值为0，表明对比算法生成的解集中没有一个解可以支配rlnsga-ii算法生成的解集的解；sc值为1，表明rlnsga-ii算法生成的解集的任意解均可支配对比算法生成的解集的解。例如，求解ins(45/18/16)时，三种对比算法生成的解集中没有一个解可以支配rlnsga-ii算法生成的解集的解；求解ins(50/30/8)时，rlnsga-ii算法生成的解集的任意解均可支配moea/d算法生成的解集的解。第9列rlnsga-ii算法的sc值大于mopso算法且不为1，表明rlnsga-ii算法在求解ins(45/18/16)时，所得到的解集中至少有一个解可以支配mopso算法，同时三种对比算法的sc值均为0，表明三种对比算法的解集中没有一个解可以支配rlnsga-ii算法解集的解。上述实验结果表明，rlnsga-ii算法在求解urrfjsp模型时得到的帕累托非支配解集的收敛性要优于对比算法。
[0133]
表2列出了rlnsga-ii算法和三种对比算法的hv指标值。可以直观地看出，rlnsga-ii算法在所有实例下的hv值都要优于三种对比算法。因此，所提出的rlnsga-ii算法在求解urrfjsp模型时的收敛性和多样性要优于对比算法。
[0134]
通过对比不同规模实例下四种算法独立运行一次后得到的帕累托非支配解集分布情况，实验结果表明大部分实例下对比算法所得到的帕累托非支配解集会被rlnsga-ii算法的解集中至少一个解所支配。
[0135]
综上所述，本技术所提出的rlnsga-ii算法在求解urrfjsp模型时优于对比算法。
[0136]
表1不同规模实例下所有算法的sc指标值
[0137][0138]
表2不同规模实例下所有算法的hv指标值
[0139][0140]
本技术采用双模糊理论对再制造过程中的双重不确定性进行二维模糊化处理并构建了二者的映射关系，进而建立了以最小化最大完工时间、总成本和机器总负荷为目标的再制造可重入柔性车间调度模型，在此基础上提出了一种高效的rlnsga-ii求解算法。首先，rlnsga-ii算法通过q-learning技术在迭代过程中对交叉率进行动态优化，从而充分利用算法进化过程中生成的帕累托非支配解集的收敛性、均匀性等重要信息来改进种群的多样性并加快算法的收敛速度。此外，还设计了一种新的二维编码方案以提高算法效率，并嵌入了混合种群初始化策略以生成高质量的初始种群，采用了局部搜索策略以增强局部搜索能力。最后，通过不同规模实例的仿真实验，验证了q-learning技术的有效性和rlnsga-ii算法的优越性。
[0141]
以上所述实施例仅表达了本技术的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本技术构思的前提下，还可以做出若干变形和改进，这些都属于本技术的保护范围。因此，本技术专利的保护范围应以所附权利要求为准。

技术特征：
1.一种不确定环境下再制造可重入柔性车间调度方法，其特征在于，所述不确定环境下再制造可重入柔性车间调度方法，包括：步骤1、针对不确定环境下再制造可重入柔性车间调度优化问题，采用双模糊数表示加工时间和加工成本，以最小化最大完工时间、总成本和机器总负荷为目标构建调度优化模型，并采用期望值算子方法将调度优化模型转化为等效确定模型；步骤2、采用二维编码来表示等效确定模型的解，所述二维编码的第一维表示操作顺序，第二维度表示执行每个操作所选择的机器，并生成初始种群；步骤3、基于强化学习获得交叉率，对当前种群执行交叉变异操作；步骤4、对执行交叉变异操作得到的种群执行局部搜索策略；步骤5、对执行局部搜索策略后得到的种群进行快速非支配排序，计算拥挤度，然后基于精英保留策略生成新一代种群；步骤6、判断是否达到迭代终止条件，如果是则结束迭代输出最优调度方案，否则返回步骤3继续进行迭代。2.根据权利要求1所述的不确定环境下再制造可重入柔性车间调度方法，其特征在于，所述生成初始种群，采用了包括随机规则、局部时间最小规则和局部成本最小规则的混合种群初始化策略，其中：所述随机规则随机生成一组操作顺序向量，然后每个操作从备选机器集中随机选择一台机器进行加工；所述局部时间最小规则随机生成一组操作顺序向量，然后每个操作都从备选机器集中选择加工时间最小的机器；所述局部成本最小规则随机生成一组操作顺序向量，然后每个操作从备选机器集中选择加工成本最小的机器。3.根据权利要求1所述的不确定环境下再制造可重入柔性车间调度方法，其特征在于，所述等效确定模型，用公式表示为：用公式表示为：用公式表示为：其中，表示完成所有产品的再制造所需的双模糊时间期望值，表示第n台机器执行操作的双模糊结束时间期望值，表示再制造p
i
过程中第k次进行o
j
操作，p
i
表示废旧产品种类，o
j
表示再制造操作种类，表示完成所有产品的再制造所需的双模糊成本期望值，表示第n台机器执行操作所需的双模糊成本
期望值，表示二进制变量，表示完成所有产品的再制造所需的双模糊机器总负荷期望值，表示第n台机器执行操作所需的双模糊加工时间期望值，废旧产品种类总共有i种，再制造操作种类总共有j种，k
ij
表示再制造p
i
过程中进行o
j
操作的总次数，n
ij
表示执行操作的机器总数量。4.根据权利要求1所述的不确定环境下再制造可重入柔性车间调度方法，其特征在于，所述强化学习以当前种群作为输入环境状态，输出动作交叉率。5.根据权利要求1所述的不确定环境下再制造可重入柔性车间调度方法，其特征在于，所述对当前种群执行交叉变异操作时，还包括：对不满足交叉条件的父代和母代基因均使用逆转变异算子。6.根据权利要求1所述的不确定环境下再制造可重入柔性车间调度方法，其特征在于，所述对当前种群执行交叉变异操作时，还包括：对交叉后产生的不可行解采用修复算子进行修复。7.根据权利要求5所述的不确定环境下再制造可重入柔性车间调度方法，其特征在于，所述对不满足交叉条件的父代和母代基因均使用逆转变异算子之后，还包括：对变异后产生的不可行解采用修复算子进行修复。

技术总结
本发明公开了一种不确定环境下再制造可重入柔性车间调度方法，针对不确定环境下再制造可重入柔性车间调度优化问题，采用双模糊数表示加工时间和加工成本，以最小化最大完工时间、总成本和机器总负荷为目标构建调度优化模型，并采用期望值算子方法将调度优化模型转化为等效确定模型。然后采用二维编码来表示等效确定模型的解，并提出了一种高效的RLNSGA-II求解算法，通过Q-learning技术在迭代过程中对交叉率进行动态优化，从而充分利用算法进化过程中生成的帕累托非支配解集的收敛性、均匀性等重要信息来改进种群的多样性并加快算法的收敛速度。本发明提升了在不确定环境下再制造可重入柔性车间调度的效率，提高了调度方案的质量。质量。质量。

技术研发人员：张文宇王军黄小玲
受保护的技术使用者：浙江财经大学
技术研发日：2023.06.05
技术公布日：2023/9/5

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

上一篇：检测肝癌的标志基因组合物、试剂盒和用途的制作方法 下一篇：一种粗轧R2打滑识别及防打滑自动控制的方法与流程

一种不确定环境下再制造可重入柔性车间调度方法

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

一种不确定环境下再制造可重入柔性车间调度方法

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表