一种基于云端的生产排程复合式调度方法与流程

未命名 09-15 阅读：78 评论：0

1.本发明属于数据处理方法，特别涉及一种基于云端的生产排程复合式调度方法。

背景技术：

2.在高度竞争的市场下，准时交货成了质量考量的关键因素，一套好的排程系统，可以提升产能与减少机器闲置，并减少在制品库存，进而降低生产成本，提高产品利润。
3.生产排程是在考虑能力和设备的前提下，在物料数量一定的情况下，安排各生产任务的生产顺序，优化生产顺序，优化选择生产设备，使得减少等待时间，平衡各机器和工人的生产负荷从而优化产能，提高生产效率，也就是将生产任务分配至生产资源的过程。生产排程，通常分为流程式生产和零工式生产。流程式生产：通过一条生产线将原料制成成品，物料是均匀的、连续地按一定工艺顺序运动的。零工式生产：将一群具有相同功能的机器设备摆在一起；每个产品均有特定的顺序，并再指定机器依序进行加工。
4.在实际工厂中，大多采用零工式生产，工程师大多根据已有的经验，或者根据生产状况采取某些基本的调度规则，例如，先进先出法，即先到达的订单产品优先加工处理，以决定各种制造过程所产生的优先级问题。
5.由于零工式生产的排程问题复杂，导致难以求出最佳的排程组合。例如，申请号为201811550211.7的中国专利，公开了一种离散制造协同生产计划排程方法，其将生产工艺按一定的顺序排列为有序数组，并通过计算传递矩阵进行判断，通过循环检查工序的资源满足情况，直到聚拢后，接着计算资源使用率，再次循环检查总工时最小且平均资源利用率最大的资源分配方法，最后将分布式的结果归约。该方案，实际过程中，计算过程复杂，需要拓展为并行方法，在多核、众核和计算机集群上实现分布式或者并行计算。
6.如果将具体的加工任务的分配的计算，替换为机器的调度规则的选择，从而统筹每台机器的整个作业流程，将大大降低计算的复杂度。同时，如果将生产排程的计算布设于云端，将免去工厂对于计算机集群的布设，节省了硬件的成本，也能充分利用云端计算的即时性，减少生产排程的反应延迟时间。因此，有必要建立一种基于云端的生产排程复合式调度方法。

技术实现要素：

7.鉴于上述现有技术的不足之处，本发明的目的在于提供一种基于云端的生产排程复合式调度方法。
8.为了达到上述目的，本发明采取了以下的技术方案。
9.一种基于云端的生产排程复合式调度方法，采用的系统包括：机器、边缘设备和配设有强化学习神经网络的云端平台；包括以下步骤：步骤s1，云端平台，接收订单加工信息，将订单加工信息拆分成作业，将作业拆分成加工任务，然后从订单加工信息中提取订单特征信息并将其输送至强化学习神经网络的输入层；
步骤s2，强化学习神经网络的排程：强化学习神经网络，若是第一次向前传播，则在云端平台接收订单加工信息后，进行初始化状态的计算，为每台机器分配随机或预设的调度规则，最后云端平台并将作业、加工任务和调度规则传输至对应的边缘设备；否则，强化学习神经网络的输入层，接收订单特征信息和边缘设备反馈的系统特征信息，整合所有边缘设备的排程，创建记录各机器使用率的状态转化q值表，q值表中的q值为各台机器的利用率；强化学习神经网络的输出层，输出经过隐藏层计算的调度规则，最后云端平台并将作业、加工任务和调度规则传输至对应的边缘设备；步骤s3，边缘设备的排程：各个边缘设备，根据被指派的调度规则与所有作业在该机器的加工信息加以排列所有加工任务，得到机器处理加工任务的加工顺序；加工信息，包括加工时间、预计抵达机器时间；步骤s4，边缘设备，监视机器，将排程结果以及新的系统特征信息作为回馈信息回传给云端平台；步骤s5，强化学习神经网络，根据新的系统特征信息更新神经元输出值和q值表；步骤s6，云端平台整合不同作业之间排程，检查每台机器的每个加工任务的结束时间是否大于作业在不同机器上的下一个加工任务的开始时间；如果是，则进行修正，推迟下一个加工任务的开始时间，直到每个作业在不同机器的加工时间无重叠；然后，计算新的系统特征信息，并作为下一笔订单的加工信息中的系统特征信息，输入神经网络的输入层。
10.进一步，步骤s1中，每组作业完成订单中单一功能的环节且每组作业均以固定的顺序执行加工任务；每个加工任务为一台机器单次所能完成的加工工作；所述订单特征信息，包括：机器数量m；作业数量j；总加工时间w=∑j∑mp
jm
，p
jm
为第j笔作业在第m个机器的加工时间；最大加工时间max
j,m
p
jm
；最小加工时间min
j,m
p
jm
。
11.进一步，步骤s2中，所述系统特征信息，为上一笔订单排程的系统状态，包括：作业平均完工时间f=（∑
jcj
）/j,其中cj为第j笔作业的完工时间；作业总完工时间c
max
=max
jcj
；作业的平均等候加工时间d=（∑j∑
mdjm
）/j,其中d
jm
为第j笔作业在第m个机器的等候加工时间；各机器使用率{μm}={μ1,μ2,μ3,...μm,...μm},其中第m台机器的使用率μm=（f
m-im）/fm,其中fm为第m个机器的完工时间；im为第m个机器的闲置时间；各机器在制品数量{om}；om=（∑jk
jm
）/fm,其中k
jm
为第j笔作业在第m个机器的完工时间。
12.进一步，步骤s2中，强化学习神经网络的输入层，设置有用以接收订单特征信息的有5个神经元以及用以接收系统特征信息的有3+2m个神经元，m为机器数量；强化学习神经网络的输出层，有m组神经元，其中，每组神经元对应一个机器；每组神经元中，设置有对应7个调度规则的7个神经元；输出层输出每一个边缘设备所控制机器所使用的调度规则；所述调度规则包括：调度规则1，先进先出法：到达时间越早的加工任务，越优先处理；调度规则2，最短加工时间法：加工时间越短的加工任务，越优先处理；调度规则3，最长加工时间法：加工时间越长的加工任务，越优先处理；调度规则4，最短后续加工时间法：后续加工时间越短的加工任务，越优先处理；调度规则5，最长后续加工时间法：后续加工时间越长的加工任务，越优先处理；调度规则6，下一个机器加工时间最短：加工任务在下一个机器所需的加工时间越
短，越优先处理；调度规则7，下一个机器加工时间最长：加工任务在下一个机器所需的加工时间越长，越优先处理。
13.进一步，，步骤s2中，强化学习神经网络的隐藏层，根据ε-贪心算法，决定是否采取最大q值对应的调度规则：若是，则选择拥有最大q值的调度规则；反之则随机指派。
14.进一步，步骤s2中，q值表，第一列表示转换前的状态，第一行表示转换后的状态，记录的利用率μ
jab
表示第j台机器从状态a转换为状态b后的利用率q值；状态，包括作业数量j,作业总完工时间c
max
；将作业总完工时间c
max
分为五类：[0,0.5w]，[0.5w,0.7w]，[0.7w,0.9w]和[0.9w,1.0w]，其中w是总加工时间；将机器使用率μm分为为五类：[0,0.3]，[0.3,0.5]，[0.5,0.7]和[0.7,1.00]。
[0015]
进一步，步骤s3中，而若发生加工任务的时间重叠时，则依序采用调度规则5最长后续加工时间法、调度规则2最短加工时间法、随机指派加工顺序的方法进行修正，直到比较出加工任务的时间不重叠的先后顺序，最后得到机器处理加工任务的加工顺序。
[0016]
进一步，步骤s5中，令系统原始状态是s，qm为在第m组的7个神经元中通过ε-贪心算法所选出的q值，在此时云端平台指派相对应的调度规则给该机器，而在进行后续排程后即可得到新的状态s'，则q[s,s']=(q1,q2,
…
,qm)，其中m∈{1,2,
…
,m}，而q[s,s']中的元素更新公式如下：qm'=[qm+(μ'
m-μm)/μm]+γ*maxaq[s',a];其中，γ为学习率，[qm+(μ'
m-μm)/μm]为反馈函数，μm为第m台机器的利用率，maxaq[s',a]为选取在状态s’下目前最佳配置准则。
[0017]
进一步，还包括：步骤s7，神经网络的反向传播：云端平台，根据更新后的神经元输出值qm和q值表中的qm'，计算损失函数：e[(qm'-qm)2]，并以反向传播的方式更新隐藏层的权重；最后，返回到步骤s2，直到最大迭代数t。
[0018]
本发明，具有以下优点：1.云端计算和边缘计算相互结合：云端计算的资源可提供快速实时的信息以协助与维持工厂现场的生产顺畅，达到自动化生产与流程决策。边缘计算，减少决策反应延迟时间、省电、提升资料安全性，并相较于云端计算具有位置感知能力。结合云端计算与边缘计算的工厂架构，可将反应时间从900毫秒减至169毫秒。
[0019]
2.复合式调度，基于多种调度规则，相对于单一的调度规则，适用性更广，且实现了一个较优解的目的，订单的总完成时间少。另外，本方案着眼于机器的调度规则的选择，而非每个具体的任务的起始时间和结束时间的选择，从而统筹所有机器的加工策略，减少了计算量，具有更大的灵活性。
[0020]
3.强化学习模型的构建：本方案采用基于神经网络的深度学习，进行训练后，将传统排程调度转换为智能排程调度。有别于监督学习的一次性的问题，本方案采用ε-贪心策略并进行反馈，主动适应环境并得到下一个观察，通过不断循环以上过程，最终可以得到实现目标的最优策略，具有显著的收敛效果。传统的强化学习模型，为通过神经网络进行单一决策。本方案，通过申请网络进行多项决策。将信息丢入神经网络的输入层后，通过隐藏层中权重的计算，得到7
×
m个行为值，由于本方案使用了7个常用的调度规则，因此神经网络中，输出层具有7
×
m个神经元，其被分成m组。每组神经元中的每个神经元代表着该机器的
其中一个候选调度规则，而每7个神经元成一组，每组会决定一部机器所被指派使用的调度规则。
附图说明
[0021]
图1是本发明的架构和流程图。
具体实施方式
[0022]
下面结合附图，对本发明作进一步详细说明。
[0023]
强化学习:是机器学习的范式和方法论之一，用于描述和解决智能体在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题；不同于监督学习和非监督学习，强化学习不要求预先给定任何数据，而是通过接收环境对动作的奖励（反馈）获得学习信息并更新模型参数。强化学习被应用到实际问题时，学习者对于外界环境是未知的，所以学习者必须通过探索来获取相关的外界环境知识，因此在选择何种行动策略时，不可避免地会遇到强化学习的难点之一，即探索与利用的平衡：过分探索会影响强化学习的收敛速度，而过分利用会使强化学习容易陷入局部最优解，ε-贪心策略是常见的解决此问题的手段。
[0024]
申请号为201110255530.7的中国发明专利，公开了基于神经网络的机器人强化学习初始化方法，其通过利用神经元输出值xi对状态si可获得的最大累积回报进行初始化，继续在复杂环境中探索，在当前状态s
t
下选择一个动作a
t
并执行，环境状态更新为新的状态s’t
，并接收立即回报r
t
，最后更新表项q(s
t
，a
t
)值。本方案对于强化学习神经网络未描述到的部分，可以参考此专利。
[0025]
一种基于云端的生产排程复合式调度方法，采用的架构包括：机器：工厂中的处理不同加工任务的设备；每部机器均受对应的边缘设备监视和控制；边缘设备：控制机器，根据云端平台分配的调度规则来排定受控机器处理工作的加工顺序；监视机器，将修正强化学习神经网络所需的新的系统特征信息作为回馈信息回传给云端平台；云端平台：配设有强化学习神经网络，接收订单加工信息，输入强化学习神经网络，为每台机器分配一个调度规则并传输到控制该机器的边缘设备；并基于边缘设备的回馈信息，调整神经网络；强化学习神经网络，包括输入层、隐藏层和输出层；其输出层输出每一个边缘设备所控制机器所使用的调度规则；所述调度规则包括：调度规则1，先进先出法：到达时间越早的加工任务，越优先处理；调度规则2，最短加工时间法：加工时间越短的加工任务，越优先处理；调度规则3，最长加工时间法：加工时间越长的加工任务，越优先处理；调度规则4，最短后续加工时间法：后续加工时间越短的加工任务，越优先处理；调度规则5，最长后续加工时间法：后续加工时间越长的加工任务，越优先处理；调度规则6，下一个机器加工时间最短：加工任务在下一个机器所需的加工时间越短，越优先处理；
调度规则7，下一个机器加工时间最长：加工任务在下一个机器所需的加工时间越长，越优先处理。
[0026]
强化学习神经网络，不直接求解所有作业的加工顺序，而是决定每台机器需使用的调度规则，计算简单，更易于实现。
[0027]
强化学习神经网络，初始设定如下：每个加工任务，只能在每台机器上运加工一次；每台机器，一次只能对一个工作进行加工；每个加工任务，在每台机器上的加工顺序不尽相同；每个加工任务的加工时间，会因为机器的不同而变化；每个加工任务的的处理时间，包括设置时间和机器的加工时间；令每笔订单开始加工时间为零；令机器加工时间为连续不中断。
[0028]
一种基于云端的生产排程复合式调度方法，图1是本发明的架构和流程图，如图1所示，包括以下步骤：步骤s1，云端平台，接收订单加工信息，将订单加工信息拆分成作业，将作业拆分成加工任务，然后从订单加工信息中提取订单特征信息并将其输送至强化学习神经网络的输入层。
[0029]
每组作业完成订单中单一功能的环节且每组作业均以固定的顺序执行加工任务；每个加工任务为一台机器单次所能完成的加工工作。本方案，适用于零工式生产，将一群具有相同功能的机器设备摆在一起，用以完成一个作业；每个产品均有特定的顺序，并在指定机器依序进行加工。
[0030]
所述订单特征信息，包括：机器数量m；作业数量j；总加工时间w=∑j∑mp
jm
；p
jm
为第j笔作业在第m个机器的加工时间；最大加工时间max
j,m
p
jm
；最小加工时间min
j,m
p
jm
。
[0031]
步骤s2，强化学习神经网络的排程：强化学习神经网络，若是第一次向前传播，则在云端平台接收订单加工信息后，进行初始化状态的计算，即为每台机器分配随机或预设的调度规则，最后云端平台并将作业、加工任务和调度规则传输至对应的边缘设备；否则，强化学习神经网络的输入层，接收订单特征信息和边缘设备反馈的系统特征信息，整合所有边缘设备的排程，创建记录各机器使用率的状态转化q值表，q值为各台机器的利用率；强化学习神经网络的输出层，输出经过隐藏层计算的调度规则，最后云端平台并将作业、加工任务和调度规则传输至对应的边缘设备。
[0032]
所述系统特征信息，为上一笔订单排程的系统状态，包括：作业平均完工时间f=（∑
jcj
）/j；其中cj为第j笔作业的完工时间；作业总完工时间c
max
=max
jcj
；作业的平均等候加工时间d=（∑j∑
mdjm
）/j；其中d
jm
为第j笔作业在第m个机器的等
候加工时间；各机器使用率{μm}={μ1,μ2,μ3,...μm,...μm}；其中第m台机器的使用率μm=（f
m-im）/fm；其中fm为第m个机器的完工时间；im为第m个机器的闲置时间；各机器在制品数量{om}；om=（∑jk
jm
）/fm；其中k
jm
为第j笔作业在第m个机器的完工时间。
[0033]
强化学习神经网络的输入层，设置有用以接收订单特征信息的有5个神经元以及用以接收系统特征信息的有3+2m个神经元，m为机器数量。订单特征信息，有5个数值；系统特征信息，有3+2m个数值，强化学习神经网络的输入层的神经元的个数与所需处理的信息数值的个数相同。
[0034]
强化学习神经网络的输出层，有m组神经元，其中，每组神经元对应一个机器。本方案调度规则有7个，因此，每组神经元中，有7个神经元，对应7个调度规则。本方案，不同组别的神经元输出的调度规则，可能相同，也可能不同，这与典型的深度强化学习方法仅会输出一个行为结果有所不同。
[0035]
强化学习神经网络的隐藏层，根据ε-贪心策略，决定是否采取最大q值对应的调度规则：若是，则选择拥有最大q值的调度规则；反之则随机指派。
[0036]
有别于传统的深度强化学习，为选取最大q值相对应采取的行动，增加排程解的多样性，在本方案采用ε-贪心策略进行指派。ε-贪心策略的不同之处在于，在初期训练模型时有ε机率随机选择一种调度规则，而随着训练模型的循环增大，则ε递减。ε-贪心策略是强化学习的一种常见策略，其表示在智能体做决策时，有一个很小的正数ε＜1的概率随机选择未知的一个动作，剩下1-ε的概率选择已有的动作中的价值最大的动作，其为公知常识，不再赘述。
[0037]
q学习算法是强化学习中的一种，是一种关于策略的选择方式。实际上，强化学习的核心和训练目标就是选择一个合适的策略，使得在每个迭代结束时得到的反馈之和最大。q学习的思想是：q(s,a)=在状态s下，采取动作a后，未来将得到的奖励值之和。
[0038]
本方案，借鉴了q学习算法，将q(s,a)替换为记录各机器使用率的状态转化q值表，该表中，第一列表示转换前的状态，第一行表示转换后的状态，记录的利用率μ
jab
表示第j台机器从状态a转换为状态b后的利用率q值。q值表为记录到目前为止发现的所有状态转换的最佳输出行为的结果，其目的为建立行为准则方法，即分配调度规则的方法。
[0039]
表1、记录各机器使用率的状态转化q值表
[0040]
表1中的正文内容的第二行第一列，（μ
121
,μ
221
,μ
321
,...μ
m21
,...μ
m21
）表示从状态2转到状态1，第1个机器到第m个机器的利用率q值。
[0041]
状态，包括作业数量j,作业总完工时间c
max
；但由于作业总完工时间c
max
、机器使用率μm的值域较广，将使得状态数量过多，导致模型训练效果无法在短时间呈现。
[0042]
为了减少状态总数，本方案将作业总完工时间c
max
分为五类：[0,0.5w]，[0.5w,0.7w]，[0.7w,0.9w]和[0.9w,1.0w]，其中w是总加工时间；将机器使用率μm分为为五类：[0,0.3]，[0.3,0.5]，[0.5,0.7]和[0.7,1.00]。
[0043]
步骤s3，边缘设备的排程：各个边缘设备，根据被指派的调度规则与所有作业在该机器的加工信息加以排列所有加工任务，从而得到机器处理加工任务的加工顺序；加工信息，包括加工时间、预计抵达机器时间。
[0044]
由于，并非根据调度规则就可以确定所有机器的排程，而若发生加工任务的时间重叠时，例如，抵达机器时，该机器正处于上一个加工任务时，则依序采用调度规则5最长后续加工时间法、调度规则2最短加工时间法、随机指派加工顺序的方法进行修正，直到比较出加工任务的时间不重叠的先后顺序，最后得到机器处理加工任务的加工顺序。
[0045]
步骤s4，边缘设备，监视机器，将排程结果以及新的系统特征信息作为回馈信息回传给云端平台。
[0046]
步骤s5，强化学习神经网络，根据新的系统特征信息更新神经元输出值和q值表；新的系统特征值取代旧的系统特征值；q值表记录状态间变化。
[0047]
q值表为记录状态转换过程的动态表格，当有新的状态产生时，q值表要增加行、列，并初始化所有新增的表格为零矢量；假设系统原始状态是s，qm为在第m组的7个神经元中通过ε-贪心策略所选出的q值，在此时云端平台指派相对应的调度规则给该机器，而在进行后续排程后即可得到新的状态s'，则q[s,s']=(q1,q2,
…
,qm)，其中m∈{1,2,
…
,m}，而q[s,s']中的元素更新公式如下：qm'=[qm+(μ'
m-μm)/μm]+γ*maxaq[s',a];其中，γ为学习率，[qm+(μ'
m-μm)/μm]为反馈函数，μm为第m台机器的利用率，maxaq[s',a]为选取在状态s’下目前最佳配置准则。
[0048]
q值表设置的目的为，在训练模型时，以q值表纪录，能提高机器使用率的调度规则
的配置准则，提升机器的利用率，从而减少总完工时间。
[0049]
步骤s6，云端平台整合不同作业之间排程，检查每台机器的每个加工任务的结束时间是否大于作业在不同机器上的下一个加工任务的开始时间；如果是，则进行修正，推迟下一个加工任务的开始时间，直到每个作业在不同机器的加工时间无重叠；然后，计算新的系统特征信息，包括作业平均完工时间f、作业总完工时间c
max
、作业的平均等候加工时间d、各机器使用率{μm}、各机器在制品数量{om}；并作为下一笔订单的加工信息中的系统特征信息，输入神经网络的输入层。
[0050]
通过边缘设备的整合排程和云端平台的整合排程，使得每一台机器与每一个作业的加工任务的加工时间均无重叠。
[0051]
步骤s7，神经网络的反向传播：云端平台，根据更新后的神经元输出值qm和q值表中的qm'，计算损失函数：e[(qm'-qm)2]，并以反向传播的方式更新隐藏层的权重；最后，返回到步骤s2，直到最大迭代数t，以完成一个排程模型训练。
[0052]
反向传播，指的是计算神经网络参数梯度的方法。反向传播依据微积分中的链式法则，沿着从输出层到输入层的顺序，依次计算并存储目标函数有关神经网络各层的中间变量以及参数的梯度。通过计算损失函数并反向传播的方式更新隐藏层的权重，为本领域的公知手段，不再赘述。例如，在申请号202110078808.1的中国专利文本《一种基于深度学习多权重损失函数的数据均衡方法》记载：在训练过程中，利用多维权重损失函数进行误差计算，获得预测与真实标签的误差损失，并通过神经网络模型中的反向传播机制进行参数更新，直至网络模型收敛，最终达到网络训练的目的。
[0053]
下面，通过标准案例库，对本方案进行验证。本方案采用的标准案例库fisher and thompson中编号ft06作为实验数据。将实验数据分为训练集t
train
和测试集t
test
。训练集t
train
用来训练模型，获取最佳参数。测试集t
test
用来评估模型的有效性。本方案采用的训练目标为：订单的总完工时间的最小化。
[0054]
首先对订单进行拆分，拆分的内容，形成表2。
[0055]
表2、客户订单的拆分表
[0056][0057]
表2中，每一行均表示对应作用的加工顺序，括号外的数字为机器编号，括号中的数字为该机器的加工时间。因此，在作业1中，其加工顺序依次为：编号1的机器、编号2的机器、编号3的机器，并且依序加工的所需的单位时间为：6、10和8。
[0058]
然后通过训练集t
train
获取最佳参数。本方案所需要确定的参数包括：1，参数ni，为神经网络参数，表示神经网络中隐藏神经元的数量。
[0059]
2，参数ε，为ε-贪心策略参数，随着训练模型的循环增大，则ε递减。
[0060]
3，参数γ，为更新q值表的学习率。训练模型时，每次只对一个参数进行变动，其
余参数设为初始值，在重复5次试验后进行95%信心水平的单向方差分析，设定临界p值为0.05：如果实际的p值比临界p值低，则说明结果显著，并挑选出最佳的参数，反之，则说明结果不显著，将参数设定为初始值。然后将训练迭代次数设定为2000次，进行训练，得到表3。
[0061]
表3、训练模型时的参数表格
[0062][0063]
然后，用测试集t
test
评估模型的有效性，使用的模型采用表2中的最佳参数。将本方案的模型与随机规则模型、单一规则模型进行订单总完工时间的比较，得到表3，采用的实验数据案例分别为ta06、ta07、ta08和ta09，机器数量为15台，作业数量为15个。所述随机规则模型，为随机指派各机器的加工顺序；所述单一规则模型，为调度规则1（先进先出法）、调度规则2（最短加工时间法）、调度规则3（最长加工时间法）、调度规则4（最短后续加工时间法）、调度规则5（最长后续加工时间法）、调度规则6（下一个机器加工时间最短）、调度规则7（下一个机器加工时间最长）中的只选取一个调度规则适用于所有机器进行排程。
[0064]
表4、本方案的模型与随机规则模型、单一规则模型的订单总完工时间的比较表格
[0065][0066]
从表4中可以看出，比较各模型的订单总完工时间，本方案的模型，均优于随机规则模型、单一规则模型，从而证明本方案的可行性。
[0067]
可以理解的是，对本领域普通技术人员来说，可以根据本发明的技术方案及其发明构思加以等同替换或改变，而所有这些改变或替换都应属于本发明所附的权利要求的保护范围。

技术特征：
1.一种基于云端的生产排程复合式调度方法，其特征在于，采用的系统包括：机器、边缘设备和配设有强化学习神经网络的云端平台；包括以下步骤：步骤s1，云端平台，接收订单加工信息，将订单加工信息拆分成作业，将作业拆分成加工任务，然后从订单加工信息中提取订单特征信息并将其输送至强化学习神经网络的输入层；步骤s2，强化学习神经网络的排程：强化学习神经网络，若是第一次向前传播，则在云端平台接收订单加工信息后，进行初始化状态的计算，为每台机器分配随机或预设的调度规则，最后云端平台并将作业、加工任务和调度规则传输至对应的边缘设备；否则，强化学习神经网络的输入层，接收订单特征信息和边缘设备反馈的系统特征信息，整合所有边缘设备的排程，创建记录各机器使用率的状态转化q值表，q值表中的q值为各台机器的利用率；强化学习神经网络的输出层，输出经过隐藏层计算的调度规则，最后云端平台并将作业、加工任务和调度规则传输至对应的边缘设备；步骤s3，边缘设备的排程：各个边缘设备，根据被指派的调度规则与所有作业在该机器的加工信息加以排列所有加工任务，得到机器处理加工任务的加工顺序；加工信息，包括加工时间、预计抵达机器时间；步骤s4，边缘设备，监视机器，将排程结果以及新的系统特征信息作为回馈信息回传给云端平台；步骤s5，强化学习神经网络，根据新的系统特征信息更新神经元输出值和q值表；步骤s6，云端平台整合不同作业之间排程，检查每台机器的每个加工任务的结束时间是否大于作业在不同机器上的下一个加工任务的开始时间；如果是，则进行修正，推迟下一个加工任务的开始时间，直到每个作业在不同机器的加工时间无重叠；然后，计算新的系统特征信息，并作为下一笔订单的加工信息中的系统特征信息，输入神经网络的输入层。2.根据权利要求1所述的一种基于云端的生产排程复合式调度方法，其特征在于，步骤s1中，每组作业完成订单中单一功能的环节且每组作业均以固定的顺序执行加工任务；每个加工任务为一台机器单次所能完成的加工工作；所述订单特征信息，包括：机器数量m；作业数量j；总加工时间w=∑
j
∑
m
p
jm
，p
jm
为第j笔作业在第m个机器的加工时间；最大加工时间max
j,m
p
jm
；最小加工时间min
j,m
p
jm
。3.根据权利要求2所述的一种基于云端的生产排程复合式调度方法，其特征在于，步骤s2中，所述系统特征信息，为上一笔订单排程的系统状态，包括：作业平均完工时间f=（∑
j
c
j
）/j,其中c
j
为第j笔作业的完工时间；作业总完工时间c
max
=max
j
c
j
；作业的平均等候加工时间d=（∑
j
∑
m
d
jm
）/j,其中d
jm
为第j笔作业在第m个机器的等候加工时间；各机器使用率{μ
m
}={μ1,μ2,μ3,...μ
m
,...μ
m
},其中第m台机器的使用率μ
m
=（f
m-i
m
）/f
m
,其中f
m
为第m个机器的完工时间；i
m
为第m个机器的闲置时间；各机器在制品数量{o
m
}；o
m
=（∑
j
k
jm
）/f
m
,其中k
jm
为第j笔作业在第m个机器的完工时间。4.根据权利要求3所述的一种基于云端的生产排程复合式调度方法，其特征在于，步骤s2中，强化学习神经网络的输入层，设置有用以接收订单特征信息的有5个神经元以及用以接收系统特征信息的有3+2m个神经元，m为机器数量；强化学习神经网络的输出层，有m组神经元，其中，每组神经元对应一个机器；每组神经元中，设置有对应7个调度规则的7个神经
元；输出层输出每一个边缘设备所控制机器所使用的调度规则；所述调度规则包括：调度规则1，先进先出法：到达时间越早的加工任务，越优先处理；调度规则2，最短加工时间法：加工时间越短的加工任务，越优先处理；调度规则3，最长加工时间法：加工时间越长的加工任务，越优先处理；调度规则4，最短后续加工时间法：后续加工时间越短的加工任务，越优先处理；调度规则5，最长后续加工时间法：后续加工时间越长的加工任务，越优先处理；调度规则6，下一个机器加工时间最短：加工任务在下一个机器所需的加工时间越短，越优先处理；调度规则7，下一个机器加工时间最长：加工任务在下一个机器所需的加工时间越长，越优先处理。5.根据权利要求4所述的一种基于云端的生产排程复合式调度方法，其特征在于，步骤s2中，强化学习神经网络的隐藏层，根据ε-贪心算法，决定是否采取最大q值对应的调度规则：若是，则选择拥有最大q值的调度规则；反之则随机指派。6.根据权利要求5所述的一种基于云端的生产排程复合式调度方法，其特征在于，步骤s2中，q值表，第一列表示转换前的状态，第一行表示转换后的状态，记录的利用率μ
jab
表示第j台机器从状态a转换为状态b后的利用率q值；状态，包括作业数量j,作业总完工时间c
max
；将作业总完工时间c
max
分为五类：[0,0.5w]，[0.5w,0.7w]，[0.7w,0.9w]和[0.9w,1.0w]，其中w是总加工时间；将机器使用率μ
m
分为为五类：[0,0.3]，[0.3,0.5]，[0.5,0.7]和[0.7,1.00]。7.根据权利要求6所述的一种基于云端的生产排程复合式调度方法，其特征在于，步骤s3中，而若发生加工任务的时间重叠时，则依序采用调度规则5最长后续加工时间法、调度规则2最短加工时间法、随机指派加工顺序的方法进行修正，直到比较出加工任务的时间不重叠的先后顺序，最后得到机器处理加工任务的加工顺序。8.根据权利要求6所述的一种基于云端的生产排程复合式调度方法，其特征在于，步骤s5中，令系统原始状态是s，q
m
为在第m组的7个神经元中通过ε-贪心算法所选出的q值，在此时云端平台指派相对应的调度规则给该机器，而在进行后续排程后即可得到新的状态s'，则q[s,s']=(q1,q2,
…
,q
m
)，其中m∈{1,2,
…
,m}，而q[s,s']中的元素更新公式如下：q
m
'=[q
m
+(μ'
m-μ
m
)/μ
m
]+γ*max
a
q[s',a];其中，γ为学习率，[q
m
+(μ'
m-μ
m
)/μ
m
]为反馈函数，μ
m
为第m台机器的利用率，max
a
q[s',a]为选取在状态s’下目前最佳配置准则。9.根据权利要求8所述的一种基于云端的生产排程复合式调度方法，其特征在于，还包括：步骤s7，神经网络的反向传播：云端平台，根据更新后的神经元输出值q
m
和q值表中的q
m
'，计算损失函数：e[(q
m
'-q
m
)2]，并以反向传播的方式更新隐藏层的权重；最后，返回到步骤s2，直到最大迭代数t。

技术总结
本发明公开了一种基于云端的生产排程复合式调度方法，属于数据处理方法，包括以下步骤：步骤S1，云端平台，接收订单加工信息，然后从订单加工信息中提取订单特征信息并将其输送至强化学习神经网络的输入层；步骤S2，强化学习神经网络的排程；步骤S3，边缘设备的排程；步骤S4，边缘设备，将排程结果以及新的系统特征信息作为回馈信息回传给云端平台；步骤S5，强化学习神经网络，根据新的系统特征信息更新神经元输出值和Q值表；步骤S6，云端平台整合不同作业之间排程。同作业之间排程。同作业之间排程。

技术研发人员：应春红王克飞徐超
受保护的技术使用者：蒲惠智造科技股份有限公司
技术研发日：2023.06.18
技术公布日：2023/9/13

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

上一篇：一种菲涅尔透镜石英玻璃棒导光集光系统及方法与流程 下一篇：一种林业用土壤充分均匀修复设备的制作方法

一种基于云端的生产排程复合式调度方法与流程

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

一种基于云端的生产排程复合式调度方法与流程

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表