融合强化学习和差分进化的产品变更路径多目标优选方法

未命名 07-23 阅读：100 评论：0

1.本发明涉及产品设计技术领域，尤其是涉及融合强化学习和差分进化的产品变更路径多目标优选方法。

背景技术：

2.设计变更在复杂产品研发过程中不可避免。由于客户需求、供应链中断、法律法规变化等原因，现实生产经常需要重新设计整个产品或其关键零部件。由于产品零部件之间复杂的依赖关系，一个零部件的设计变更可能导致其他零部件发生连锁变更，从而引发变更传播。如果不能有效控制产品设计变更过程，变更的不断传播会对产品综合性能、成本和研发工期产生负面影响。因此，研究复杂产品的设计变更问题十分必要。
3.现有的常见产品设计变更方案优选方法和工具，通常只考虑产品变更时的成本或工期，没有考虑产品变更时的产品综合性能影响程度，少数学者给出了多目标进化求解方法，但是大都是基于nsga-ii，依然存在收敛速度慢、易于局部收敛等问题。
4.因此，需要一种技术，同时考虑多个优化目标如产品综合性能影响程度、变更成本、变更工期等建立多目标优化模型，并针对当前求解方法的不足进行优化。

技术实现要素：

5.本发明的目的是提供融合强化学习和差分进化的产品变更路径多目标优选方法，当产品零件发生变更时，可以精准地找到一个变更成本、变更工期、产品综合性能影响较小的变更方案，解决现有方法中收敛速度慢、易于局部收敛等问题。
6.为实现上述目的，本发明提供了融合强化学习和差分进化的产品变更路径多目标优选方法，包括以下步骤：
7.s1、建立复杂产品网络模型，表明设计变更在产品网络模型中的传播过程；
8.s2、建立设计变更传播路径的多目标优化模型；
9.s3、利用双深度q-网络帮助种群在不同阶段选择适合的进化策略，建立强化学习引导的差分进化算法即ddqn-de算法，进行多目标优化模型的求解。
10.优选的，所述步骤s1中复杂产品网络模型建立过程包括如下步骤：
11.s1-1、根据复杂产品的组成，将其分解为部件的集合，将每个部件进一步分解为零件的集合，最终获得产品零件集合；
12.s1-2、根据区间直觉模糊集理论从节点之间的功能关系、节点间的物理结构关系、用户参与程度以及产品的可持续性和适应性方面计算零件之间的关联强度值；
13.s1-3、根据关联强度值和零件集合，建立问题的复杂产品网络模型。
14.优选的，所述步骤s1-2中综合关联强度值具体公式如下：
[0015][0016]
其中，表示关联强度值，和hs分别表示两个节点之间的物理结构相关强度及
其权重，和hf分别表示两个节点之间的功能相关强度及其权重，和h
cs
分别表示设计节点时用户的参与程度及其权重，和ha分别表示产品的可持续性和适应性及其权重。
[0017]
优选的，所述步骤s2中设计变更传播路径的多目标优化模型建立过程包括如下步骤：
[0018]
s2-1、根据步骤s1中建立的复杂产品网络模型，求出每个产品零件的变更传播指数、加权聚集系数以及pagerank评分，根据产品设计变更数据库获取变更传播概率，对变更传播指数、加权聚集系数、pagerank评分和变更传播概率进行加权求和量化产品设计变更传播强度，从而间接描述产品零件变更对产品综合性能的影响程度；
[0019]
s2-2、根据产品设计任务数据库，获得产品零件的变更工期和成本；
[0020]
s2-3、对产品设计变更传播强度、变更成本和变更工期进行加权求和处理，构建多目标优化模型。
[0021]
优选的，所述步骤s2-1中变更传播指数ki的计算公式为
[0022][0023]
式中代表节点vi的出度，即节点vi变更影响到的其它节点的个数；代表节点vi的入度，即变更会影响到节点vi的其它节点的个数；
[0024]
加权聚集系数的计算公式为
[0025][0026]
式中，di表示节点vi的度，w
ij
、w
jh
和w
hi
分别表示节点vi、vj和vh之间的三边权重；w
max
是产品网络中最大的连边权重值；
[0027]
pagerank评分即节点vi的重要性pri计算公式为
[0028][0029]
式中，节点vj是节点vi的下游节点，dsi是节点vi的下游节点集合，q∈(0,1)是阻尼因子，表示用户在任何时候向下访问的概率，n是节点总数；
[0030]
变更传播概率p
ij
的计算公式为
[0031][0032]
式中，p(vi)和p(vj)分别为节点vi和vj发生变更的概率，p(vi∩vj)为两个节点同时发生变更的概率；当vj和vi之间无连接边时，p
ij
＝p
ji
＝0。
[0033]
优选的，所述步骤s3中多目标优化模型的求解包括如下步骤：
[0034]
s3-1、初始化相关参数，包括传统de算法所需参数、ddqn网络所需参数，同时初始化种群中个体的位置，并根据初始种群评估强化学习的初始状态；
[0035]
s3-2、在每次算法迭代过程中，使用ε贪心策略自主选择合适的强化学习动作，并
根据选择的差分进化策略更新种群；
[0036]
s3-3、当算法迭代次数大于阈值时，ddqn-de算法依据当前动作的奖励值和种群下一时刻状态等信息动态更新主q-网络，并以一定的频率更新目标q-网络；
[0037]
s3-4、重复执行步骤s3-1至s3-3，直到算法运行结束，输出产品设计变更方案。
[0038]
本发明所述的融合强化学习和差分进化的产品变更路径多目标优选方法的优点和积极效果是：
[0039]
1、本发明在考虑最小化变更成本和变更工期等常用指标的情况下，利用变更传播强度评价变更对产品综合性能的影响，建立产品变更路径的多目标优化模型，与已有的优化模型想比，产品综合性能的引入能够确保变更方案的可行性。
[0040]
2、本发明通过定义基于超体积测度的奖励函数，利用双深度q-网络帮助自主切换不同进化策略，提出一种强化学习引导的差分进化算法，由于能够使种群在不同阶段选择适合的进化搜索策略，该算法显著提升了种群的寻优能力。
[0041]
下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。
附图说明
[0042]
图1为本发明实施例1中复杂产品网络模型建立示意图；
[0043]
图2为本发明实施例1中多目标优化模型建立示意图；
[0044]
图3为本发明实施例1中多目标优化模型的求解图；
[0045]
图4为本发明实施例1中强化学习网络模型图；
[0046]
图5为本发明实施例1中新个体生成方法示意图；
[0047]
图6为本发明实施例2中零件关联强度矩阵图；
[0048]
图7为本发明实施例2中某型号创维电视网络模型图；
[0049]
图8为本发明实施例2中ddqn-de算法与dqn-de算法对比图；
[0050]
图9为本发明实施例2中改进aco算法的最优变更路径；
[0051]
图10为本发明实施例2中lrcpp算法的最优变更路径；
[0052]
图11为本发明实施例2中ddqn-de算法的pareto最优解集；
[0053]
图12为本发明实施例2中ddqn-de算法的某最优变更路径示意图。
具体实施方式
[0054]
以下通过附图和实施例对本发明的技术方案作进一步说明。
[0055]
除非另外定义，本发明使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。
[0056]
实施例1
[0057]
融合强化学习和差分进化的产品变更路径多目标优选方法，包括以下步骤：
[0058]
s1、建立复杂产品网络模型，表明设计变更在产品网络模型中的传播过程。如图1所示。
[0059]
具体为：
[0060]
s1-1、根据复杂产品的组成，将其分解为组件的集合，将每个组件进一步分解为零件的集合，最终获得产品零件集合。
[0061]
s1-2、根据区间直觉模糊集理论从节点之间的功能关系、节点间的物理结构关系、用户参与程度以及产品的可持续性和适应性方面计算零件之间的关联强度值。其中，关联强度值具体公式如下：
[0062][0063]
其中，表示关联强度值，和hs分别表示两个节点之间的物理结构相关强度及其权重，和hf分别表示两个节点之间的功能相关强度及其权重，和h
cs
分别表示设计节点时用户的参与程度及其权重，和ha分别表示产品的可持续性和适应性及其权重。
[0064]
s1-3、根据关联强度值和零件集合，建立问题的复杂产品网络模型。
[0065]
s2、建立设计变更传播路径的多目标优化模型，如图2所示，具体公式如下：
[0066]
minf＝{cpi,cost,time}
[0067]
式中，cpi表示产品变更传播强度，cost表示产品变更经济成本，time表示产品变更时间成本。
[0068]
具体步骤为：s2-1、根据步骤s1中建立的复杂产品网络模型，求出每个产品零件的变更传播指数、加权聚集系数以及pagerank评分，根据产品设计变更数据库获取变更传播概率，对变更传播指数、加权聚集系数、pagerank评分和变更传播概率进行加权求和量化产品设计变更传播强度cpi，从而间接描述产品零件变更对产品综合性能的影响程度。
[0069]
其中，变更传播指数ki的计算公式为
[0070][0071]
式中代表节点vi的出度，即节点vi变更影响到的其它节点的个数；代表节点vi的入度，即变更会影响到节点vi的其它节点的个数；
[0072]
加权聚集系数的计算公式为
[0073][0074]
式中，di表示节点vi的度，w
ij
、w
jh
和w
hi
分别表示节点vi、vj和vh之间的三边权重；w
max
是产品网络中最大的连边权重值；
[0075]
pagerank评分即节点vi的重要性pri计算公式为
[0076][0077]
式中，节点vj是节点vi的下游节点，dsi是节点vi的下游节点集合，q∈(0,1)是阻尼因子，表示用户在任何时候向下访问的概率，n是节点总数；
[0078]
变更传播概率p
ij
的计算公式为
[0079]
[0080]
式中，p(vi)和p(vj)分别为节点vi和vj发生变更的概率，p(vi∩vj)为两个节点同时发生变更的概率；当vj和vi之间无连接边时，p
ij
＝p
ji
＝0。
[0081]
s2-2、根据产品设计任务数据库，获得产品零件的变更工期和成本。
[0082]
s2-3、对产品设计变更传播强度、变更成本和变更工期进行加权求和处理，构建多目标优化模型。
[0083]
s3、利用双深度q-网络帮助种群在不同阶段选择适合的进化策略，建立强化学习引导的差分进化算法即ddqn-de算法，进行多目标优化模型的求解。如图3所示。多目标优化模型的求解包括双深度q-网络的实现和强化学习动作模块的实现。如图4所示。
[0084]
其中，双深度q-网络(ddqn)的实现包括如下步骤：
[0085]
a、通过tensorflow构建双深度q网络，包括主q-网络以及目标q-网络，主q-网络以及目标q-网络均由两层dnn组成，如图2所示。
[0086]
b、分别实现经验池、动作选择机制、双深度q-网络更新机制。其中，经验池是用来存储强化学习每次执行结束的样本，样本由四元组组成(s
t
,a
t
,r
t
,s
t+1
)包括强化学习在当前时刻的状态s
t
、动作a
t
、奖励值r
t
以及下一时刻的状态s
t+1
，在实现经验池时，通过调用numpy中的hstack实现；动作选择机制采用ε贪心策略；双深度q-网络的更新机制通过如下公式不断更新：
[0087]
q(s
t
,a
t
；θ
t
)
←
q(s
t
,a
t
；θ
t
)+α(y
tddqn-q(s
t
,a
t
；θ
t
))
[0088][0089]
式中，y
tddqn
表示ddqn的目标函数，α是学习率，表示新信息覆盖旧信息的比率；θ
t
和θ
t-分别是主q-网络和目标q-网络在当前时刻的参数，s
t
表示强化学习在当前时刻的状态，a
t
表示动作，r
t
表示奖励值，s
t+1
表示下一时刻的状态。
[0090]
强化学习动作模块的实现包括如下步骤：
[0091]
a、在不同阶段采取不同的进化策略，使用三种不同的差分进化策略，包括de/rand/1、de/current to rand/1和de/best/2。其中，de/rand/1可以提升种群的局部搜索能力，de/current to rand/1可以使种群获得较好的全局探索能力，de/best/2有利于提升种群的快速收敛。由此，ddqn的动作空间a可以表示为：
[0092]
a＝{de/rand/1,de/best/2,de/current to rand/1}
[0093]
b、在传统差分进化算法中，个体经过差分进化策略后，即个体执行加法、减法和乘法运算后，会出现小数、重复及缺失的元素，无法直接应用于产品设计变更路径问题中。因此，提出了基于整数编码且重新定义算术运算符的差分进化策略。以de/rand/1为例，具体定义如下：
[0094][0095]
式中，h
i,g
表示在g次迭代时，生成的第i个新个体；x
r1,g
、x
r2,g
、x
r3,g
表示在g次迭代时，从种群中随机选择的三个个体。的执行规则为：首先，创建差异信息存储列表lis；接着，获取主导个体，即求出个体x
r2,g
、x
r3,g
中的非支配解，如果个体之间相互支配则从个体x
r2,g
、x
r3,g
中随机选择主导个体；最后，将主导个体和辅助个体进行比较，找出两者不同的差异分量，将分量存储到lis中。和的执行规则为：首先，根据lis中的分量个数生成相应数量的随机数rand；接着，将依次生成的rand与缩放因子f进行比较，如果rand＞f时，将lis
中的分量替换个体x
r1,g
相应位置的分量，从而生成新个体h
i,g
；最后，根据上述操作规则生成新的子代个体。新个体生成方法如图5所示。
[0096]
综上，多目标优化模型求解的具体流程为：
[0097]
s3-1、初始化相关参数，包括传统de算法所需参数、ddqn网络所需参数，同时初始化种群中个体的位置，并根据初始种群评估强化学习的初始状态。
[0098]
s3-2、在每次算法迭代过程中，使用ε贪心策略自主选择合适的强化学习动作，并根据选择的差分进化策略更新种群。
[0099]
s3-3、当算法迭代次数大于阈值时，ddqn-de算法依据当前动作的奖励值和种群下一时刻状态等信息动态更新主q-网络，并以一定的频率更新目标q-网络。
[0100]
s3-4、重复执行步骤s3-1至s3-3，直到算法运行结束，输出产品设计变更方案。
[0101]
实施例2
[0102]
以某型号创维电视的设计变更问题为例，说明本发明所述多目标优化方法的有效性和优越性
[0103]
某型号创维电视包括101个零件，图6为其产品零件关联强度矩阵，根据图6所示的矩阵创建创维电视网络模型，如图7所示。
[0104]
根据企业历史变更信息，选取5个易变更的零件作为初始变更节点进行实验，如表1所示。
[0105]
表1初始变更节点
[0106]
节点零件名称1电子线18机壳组件36插件肖特基二极管85dc-dc97pwm控制ic
[0107]
(一)为了研究本发明所述多目标优化方法的有效性，采用hv作为指标评估ddqn-de算法的性能。hv的参考点被设置为[1，1，1]。为了保证实验的公平性和合理性，所有算法均在python 3.6、amd ryzen 55600h cpu、16.00gb ram环境中重复运行20次。ddqn-de算法种群大小设置为200，迭代次数设置为100，交叉概率设置为0.1，缩放因子设置为0.7，初始设计变更影响均设置为0.4。
[0108]
首先将ddqn-de算法与3种单一搜索机制的变体算法进行对比，以验证强化学习引导进化策略的有效性。进一步，将ddqn-de算法与带有dqn引导的差分进化策略的多目标差分进化算法进行对比，以验证ddqn引导进化策略的有效性。4种变体算法如下：
[0109]
(1)将de/rand/1作为多目标差分进化算法中的差分进化策略，构成算法de/rand/1。
[0110]
(2)将de/best/2作为多目标差分进化算法中的差分进化策略，构成算法de/best/2。
[0111]
(3)将de/current to rand/1作为多目标差分进化算法中的差分进化策略，构成算法de/current/1。
[0112]
(4)将dqn引导进化策略和多目标差分进化算法结合,构成算法dqn-de.
[0113]
为了评估强化学习引导进化策略的性能，首先使用3种单一搜索机制的变体算法作为对比算法，并采用t检验方法分析算法之间的差异性。实验结果如表2所示，其中，加粗的数据表示最好的值，“+”表示ddqn-de算法所取得的实验结果显著优于对比算法。
[0114]
表2ddqn-de算法和单一搜索机制的变体算法的hv值(平均值/标准差)
[0115][0116]
从表2中可以看出：(1)对于表1中所有的初始变更节点，ddqn-de算法均获得了最好的平均hv值；(2)由t检验结果可知，对于所有的初始变更节点，ddqn-de算法所得的hv值显著优于其它对比算法。综上，ddqn-de算法能够显著地提升种群的多样性和收敛性，有效地提高了解决产品设计变更传播路径问题的能力，从而验证了强化学习引导进化策略的有效性。
[0117]
进一步，将ddqn-de算法和dqn-de算法进行对比，验证ddqn引导进化策略的有效性。实验结果如图8所示。从图8可以看出：(1)对于表1中所有的初始变更节点，ddqn-de算法的hv值均优于dqn-de算法：(2)相比于dqn-de算法，ddqn-de算法的箱体更窄，说明数据波动性更小，算法更稳定。因此，ddqn引导进化策略在改进算法即ddqn-de算法性能方面比dqn更加有效。
[0118]
(二)为了研究本发明所述多目标优化方法的优越性，将ddqn-de算法与4种典型的求解产品变更传播路径的算法进行比较，验证ddqn-de算法在解决多目标问题和求解方案方面的优越性。4种对比算法及其关键参数设置如下：
[0119]
(1)nsga-ii算法，设置种群大小为200，迭代次数为100，交叉概率为0.8，变异概率为0.1。
[0120]
(2)moea/d算法，设置种群大小为200，迭代次数为100，交叉概率为0.8，变异概率为0.1，聚合方法使用切比雪夫距离。
[0121]
(3)改进蚁群算法(改进aco)，设置种群大小为200，迭代次数为100，信息素重要程度因子为0.5，启发函数重要程度因子为1，挥发速度为0.1。
[0122]
(4)lrcpp算法。
[0123]
将ddqn-de算法分别与两种多目标进化算法nsga-ii和moea/d进行对比，验证算法在解决多目标优化问题上的优越性。为了将nsga-ii和moea/d应用到产品设计变更路径求解问题中，采用交叉和变异策略作为算法的更新策略。实验结果如表3所示，从上述结果可以看出：(1)对于表1中所有的初始变更节点，ddqn-de算法所得的平均hv值均优于nsga-ii和moea/d；(2)由t检验结果可知，ddqn-de算法所得的hv值明显优于nsga-ii和moea/d。因此，在解决多目标优化问题方面，所提算法具有一定的竞争力。
[0124]
表3 ddqn-de算法和多目标优化算法的hv值(平均值/标准差)
[0125]
算法节点1节点18节点36节点85节点97
ddqn-de0.895/0.0240.891/0.020.873/0.0360.822/0.0180.854/0.015nsga-ii0.866/0.027(+)0.852/0.034(+)0.858/0.027(+)0.792/0.016(+)0.837/0.016(+)moea/d0.817/0.032(+)0.841/0.045(+)0.778/0.055(+)0.789/0.020(+)0.774/0.024(+)
[0126]
进一步，将ddqn-de算法分别与改进aco算法和lrcpp算法进行对比，验证算法在求解变更方案方面的优越性。在实验中，选择表1中的零件1(电子线)作为初始变更节点；将三个优化目标值归一化，作为对比算法的优化目标值。图9和图10中的粗线节点分别是通过改进aco和lrcpp算法获得的最优变更传播路径。图11展示了通过ddqn-de算法获得的pareto最优解集。具体路径信息如表4所示，其中p1-p3是从图11 pareto最优解集中选取的三个变更方案；图12为ddqn-de算法的其中一种最优变更路径示意图；p4和p5分别是通过改进aco和lrcpp算法获得的变更方案。
[0127]
表4设计变更方案
[0128][0129]
从实验结果可以看出：(1)相比于改进的aco和lrcpp算法，ddqn-de算法能够同时获得多个非劣解。(2)ddqn-de算法获得的方案p1-p3各有优缺点，如方案p1的cpi值比p2、p3的cpi值小，即变更对产品综合性能影响更小；方案p2的变更经济成本优于p1和p3；方案p3的变更工期优于p1、p2。(3)在ddqn-de算法所得非劣解中，皆存在一个解支配改进aco和lrcpp算法得到的最优变更传播路径。例如，ddqn-de算法所得解p1支配改进aco的解p4，ddqn-de算法所得解p2支配lrcpp的解p5。综上，ddqn-de算法在求解变更方案方面优于改进aco和lrcpp算法，它可以提供多个优秀的变更方案供设计者进行选择。
[0130]
因此，本发明采用上述结构的融合强化学习和差分进化的产品变更路径多目标优选方法，当产品零件发生变更时，可以精准地找到一个变更成本、变更工期、产品综合性能影响较小的变更方案，解决现有方法中收敛速度慢、易于局部收敛等问题。
[0131]
最后应说明的是：以上实施例仅用以说明本发明的技术方案而非对其进行限制，尽管参照较佳实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对本发明的技术方案进行修改或者等同替换，而这些修改或者等同替换亦不能使修改后的技术方案脱离本发明技术方案的精神和范围。

技术特征：
1.融合强化学习和差分进化的产品变更路径多目标优选方法，其特征在于，包括以下步骤：s1、建立复杂产品网络模型，表明设计变更在产品网络模型中的传播过程；s2、建立设计变更传播路径的多目标优化模型；s3、利用双深度q-网络帮助种群在不同阶段选择适合的进化策略，建立强化学习引导的差分进化算法即ddqn-de算法，进行多目标优化模型的求解。2.根据权利要求1所述的融合强化学习和差分进化的产品变更路径多目标优选方法，其特征在于，所述步骤s1中复杂产品网络模型建立过程包括如下步骤：s1-1、根据复杂产品的组成，将其分解为部件的集合，将每个部件进一步分解为零件的集合，最终获得产品零件集合；s1-2、根据区间直觉模糊集理论从节点之间的功能关系、节点间的物理结构关系、用户参与程度以及产品的可持续性和适应性方面计算零件之间的关联强度值；s1-3、根据关联强度值和零件集合，建立问题的复杂产品网络模型。3.根据权利要求2所述的融合强化学习和差分进化的产品变更路径多目标优选方法，其特征在于：所述步骤s1-2中关联强度值具体公式如下：其中，表示关联强度值，和h
s
分别表示两个节点之间的物理结构相关强度及其权重，和h
f
分别表示两个节点之间的功能相关强度及其权重，和h
cs
分别表示设计节点时用户的参与程度及其权重，和h
a
分别表示产品的可持续性和适应性及其权重。4.根据权利要求1所述的融合强化学习和差分进化的产品变更路径多目标优选方法，其特征在于，所述步骤s2中设计变更传播路径的多目标优化模型建立过程包括如下步骤：s2-1、根据步骤s1中建立的复杂产品网络模型，求出每个产品零件的变更传播指数、加权聚集系数以及pagerank评分，根据产品设计变更数据库获取变更传播概率，对变更传播指数、加权聚集系数、pagerank评分和变更传播概率进行加权求和量化产品设计变更传播强度，从而间接描述产品零件变更对产品综合性能的影响程度；s2-2、根据产品设计任务数据库，获得产品零件的变更工期和成本；s2-3、对产品设计变更传播强度、变更成本和变更工期进行加权求和处理，构建多目标优化模型。5.根据权利要求4所述的融合强化学习和差分进化的产品变更路径多目标优选方法，其特征在于：所述步骤s2-1中变更传播指数k
i
的计算公式为式中代表节点v
i
的出度，即节点v
i
变更影响到的其它节点的个数；代表节点v
i
的入度，即变更会影响到节点v
i
的其它节点的个数；加权聚集系数的计算公式为
式中，d
i
表示节点v
i
的度，w
ij
、w
jh
和w
hi
分别表示节点v
i
、v
j
和v
h
之间的三边权重；w
max
是产品网络中最大的连边权重值；pagerank评分即节点v
i
的重要性pr
i
计算公式为式中，节点v
j
是节点v
i
的下游节点，ds
i
是节点v
i
的下游节点集合，q∈(0,1)是阻尼因子，表示用户在任何时候向下访问的概率，n是节点总数；变更传播概率p
ij
的计算公式为式中，p(v
i
)和p(v
j
)分别为节点v
i
和v
j
发生变更的概率，p(v
i
∩v
j
)为两个节点同时发生变更的概率；当v
j
和v
i
之间无连接边时，p
ij
＝p
ji
＝0。6.根据权利要求1所述的融合强化学习和差分进化的产品变更路径多目标优选方法，其特征在于，所述步骤s3中多目标优化模型的求解包括如下步骤：s3-1、初始化相关参数，包括传统de算法所需参数、ddqn网络所需参数，同时初始化种群中个体的位置，并根据初始种群评估强化学习的初始状态；s3-2、在每次算法迭代过程中，使用ε贪心策略自主选择合适的强化学习动作，并根据选择的差分进化策略更新种群；s3-3、当算法迭代次数大于阈值时，ddqn-de算法依据当前动作的奖励值和种群下一时刻状态等信息动态更新主q-网络，并以一定的频率更新目标q-网络；s3-4、重复执行步骤s3-1至s3-3，直到算法运行结束，输出产品设计变更方案。

技术总结
本发明公开了融合强化学习和差分进化的产品变更路径多目标优选方法，包括以下步骤：建立复杂产品网络模型，表明设计变更在产品网络模型中的传播过程；建立设计变更传播路径的多目标优化模型；利用双深度Q-网络(Double Deep Q-Network，DDQN)帮助种群在不同阶段选择适合的进化策略，建立强化学习引导的差分进化算法(Differential evolution，DE)即DDQN-DE算法，进行多目标优化模型的求解。本发明采用上述的产品变更路径多目标优选方法，当产品零件发生变更时，可以精准地找到一个变更成本、变更工期、产品综合性能影响较小的变更方案，解决现有方法中收敛速度慢、易于局部收敛等问题。等问题。等问题。

技术研发人员：宋贤芳张勇杨扬彭超郑瑞钊孙晓燕
受保护的技术使用者：中国矿业大学
技术研发日：2023.04.11
技术公布日：2023/7/22

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

上一篇：一种微纳米HMX微尺度连续流分步结晶制备方法和系统 下一篇：程序编译方法、装置、电子设备及可读存储介质与流程

融合强化学习和差分进化的产品变更路径多目标优选方法

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

融合强化学习和差分进化的产品变更路径多目标优选方法

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表