一种基于深度Q网络的微细电火花加工的方法及装置

未命名 10-19 阅读：106 评论：0

一种基于深度q网络的微细电火花加工的方法及装置
技术领域
1.本发明主要涉及电火花加工领域，尤其涉及一种基于深度q网络的微细电火花加工的方法及装置。

背景技术：

2.随着现代技术的飞速发展，微细电火花加工技术由于其有着较高的加工精度，因此被广泛应用于制造精密零件、微型机械。微细电火花加工技术目前正朝着智能化、自动化的方向前进。但由于微细电火花加工技术的加工过程非常复杂，工件与工具电极之间的间隙距离目前没有合适的传感器可以直接获得，而间隙距离的把控对于加工品质又极为重要，所以传统的电火花控制通过工作人员观察到的电火花状态，以及加工表面粗糙程度和加工精度要求，不断调整加工参数，使得加工过程平稳运行。
3.但是，大量依赖人工经验既不智能也不高效，主观变化大，不利于微细电火花加工技术的智能化。
4.微细电火花加工技术通过放电产生高温使得局部区域的导电材料被融化溅射，多次进行相同的操作以完成整个工件的加工。为了保证加工质量，这就需要伺服系统能够在融化材料的同时能够迅速跟进，然后进入下一次的融化过程。所以就需要伺服电机的运动速度能够在加工的过程中能够动态且准确的变化，现有技术中，有通过卷积神经网络推断加工时的电火花状态然后交由伺服系统进行控制，但是对于多变的工业生产环境来说适应性较差且基于图像而采用的卷积神经网络训练的模型过于庞大。

技术实现要素：

5.鉴于所述问题，提出了本技术以便提供克服所述问题或者至少部分地解决所述问题的一种基于深度q网络的微细电火花加工的方法及装置，包括：
6.一种基于深度q网络的微细电火花加工的方法，包括：
7.利用dqn神经网络的学习能力，通过样本数据建立电火花加工中执行动作与评定分数的对应关系；
8.获取当前待加工工件的执行动作集合；所述执行动作集合包括若干个待选执行动作；
9.通过所述对应关系，确定所述执行动作集合对应的评定分数集合；所述评定分数集合内的评定分数与所述执行动作集合内的待选执行动作一一对应；
10.将所述评定分数集合内最高评定分数设置为预测分数，所述最高评定分数对应的待选执行动作，设置为当前执行动作。
11.进一步地，所述利用dqn神经网络的学习能力，通过样本数据建立电火花加工中执行动作与评定分数的对应关系的步骤，包括：
12.获取样本工件加工时的加工状态；
13.对所述加工状态下的执行动作进行评分，获取评定分数；
14.通过所述dqn神经网络建立所述评定分数与所述执行动作的对应关系。
15.进一步地，获取样本工件加工时的加工状态的步骤，包括：
16.获取所述样本工件的动作空间，所述动作空间包括可执行的全部动作；
17.获取所述样本工件的状态空间，所述状态空间包括电位差、有效放电数和拉弧次数。
18.进一步地，对所述加工状态下的执行动作进行评分，获取评定分数的步骤，包括：
19.获取奖励函数，所述奖励函数所包含的输入参数与状态空间有相同的要素；
20.通过所述奖励函数计算所述状态空间内每个要素的要素分数；
21.将所有所述要素的所述要素分数相加计算所述执行动作的评定分数。
22.进一步地，通过所述dqn神经网络建立所述评定分数与所述执行动作的对应关系的步骤，包括：
23.通过所述dqn神经网络预测当前状态下所有待选执行动作的预测分数；
24.将所述预测分数最高的所述待选执行动作设为执行动作并执行；
25.通过所述奖励函数获取所述执行动作的评定分数并进行评估；
26.将评估结果储存在所述预测模型的经验池；
27.通过所述经验池建立所述评定分数与所述执行动作的对应关系。
28.进一步地，还包括：
29.随机抽取所述动作空间中的执行动作；
30.通过所述dqn神经网络预测所述执行动作的评定分数并生成预测分数；
31.执行所述执行动作，通过所述奖励函数获取所述执行动作的评定分数并进行评估；
32.将评估结果储存在所述预测模型的经验池；
33.通过所述经验池建立所述评定分数与所述执行动作的对应关系。
34.进一步地，还包括，将所述评估结果以储存；其中，所述为t时刻的状态、a为t时刻动作、r为t时刻分数、为t+1时刻的状态。
35.一种基于深度q网络的微细电火花加工的装置，所述基于深度q网络的微细电火花加工的装置实现上述任一项所述的基于深度q网络的微细电火花加工的方法的步骤，包括：
36.建立模块，用于利用dqn神经网络的学习能力，通过样本数据建立电火花加工中执行动作与评定分数的对应关系；
37.获取模块，用于获取当前待加工工件的执行动作集合；所述执行动作集合包括若干个待选执行动作；
38.评分模块，用于通过所述对应关系，确定所述执行动作集合对应的评定分数集合；所述评定分数集合内的评定分数与所述执行动作集合内的待选执行动作一一对应；
39.确定模块，用于将所述评定分数集合内最高评定分数设置为预测分数，所述最高评定分数对应的待选执行动作，设置为当前执行动作。
40.一种电子设备，包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现上述任一项所述的基于深度q网络的微细电火花加工的方法的步骤。
41.一种计算机可读存储介质，所述计算机可读存储介质上存储计算机程序，所述计
算机程序被处理器执行时实现上述任一项所述的基于深度q网络的微细电火花加工的方法的步骤。
42.本技术具有以下优点：
43.在本技术的实施例中，针对于现有技术中对于细微电火花加工无法适应多变的应用场景进行智能加工的缺点，本技术提供了一种基于深度q网络的微细电火花加工的方法，包括：利用dqn神经网络的学习能力，通过样本数据建立电火花加工中执行动作与评定分数的对应关系；获取当前待加工工件的执行动作集合；所述执行动作集合包括若干个待选执行动作；通过所述对应关系，确定所述执行动作集合对应的评定分数集合；所述评定分数集合内的评定分数与所述执行动作集合内的待选执行动作一一对应；将所述评定分数集合内最高评定分数设置为预测分数，所述最高评定分数对应的待选执行动作，设置为当前执行动作。通过dqn神经网络的学习能力，能快速适应当前场景的加工环境，以进行细微电火花加工操作，提高加工效率，并且该模型更轻量。
附图说明
44.为了更清楚地说明本技术的技术方案，下面将对本技术的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。
45.图1是本技术一实施例提供的一种基于深度q网络的微细电火花加工的方法的步骤流程图；
46.图2是本技术一实施例提供的一种基于深度q网络的微细电火花加工的装置的模块结构示意图；
47.图3是本发明一实施例提供的一种计算机设备的结构示意图。
具体实施方式
48.为使本技术的所述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本技术作进一步详细的说明。显然，所描述的实施例是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
49.发明人通过分析现有技术发现：通过深度q网络的强化学习能力应用在细微电火花加工中，可以快速适应当前工作场景，完成精细操作，并且该模型更轻量。
50.参照图1，示出了本技术一实施例提供的一种基于深度q网络的微细电火花加工的方法；
51.所述方法包括：
52.s110、利用dqn神经网络的学习能力，通过样本数据建立电火花加工中执行动作与评定分数的对应关系；
53.s120、获取当前待加工工件的执行动作集合；所述执行动作集合包括若干个待选执行动作；
54.s130、通过所述对应关系，确定所述执行动作集合对应的评定分数集合；所述评定
分数集合内的评定分数与所述执行动作集合内的待选执行动作一一对应；
55.s140、将所述评定分数集合内最高评定分数设置为预测分数，所述最高评定分数对应的待选执行动作，设置为当前执行动作。
56.在本技术的实施例中，针对于现有技术中对于细微电火花加工无法适应多变的应用场景进行智能加工的缺点，本技术提供了一种基于深度q网络的微细电火花加工的方法，包括：利用dqn神经网络的学习能力，通过样本数据建立电火花加工中执行动作与评定分数的对应关系；获取当前待加工工件的执行动作集合；所述执行动作集合包括若干个待选执行动作；通过所述对应关系，确定所述执行动作集合对应的评定分数集合；所述评定分数集合内的评定分数与所述执行动作集合内的待选执行动作一一对应；将所述评定分数集合内最高评定分数设置为预测分数，所述最高评定分数对应的待选执行动作，设置为当前执行动作。通过dqn神经网络的学习能力，能快速适应当前场景的加工环境，以进行细微电火花加工操作，并且该模型更轻量。
57.所述评定分数为一个执行动作执行完毕之后获取的分数，所述预测分数为未执行动作在当下状态下，预测该动作在执行完毕之后会得到的分数，当训练完成之后，所述评定分数与所述预测分数之间的差值应趋近于0，通过dqn神经网络获取当前状态下所有可执行动作的预测分数，选取预测分数最高的动作执行，可以得到评定分数最高的执行动作，即最优执行动作。
58.下面，将对本示例性实施例中一种基于深度q网络的微细电火花加工的方法及装置作进一步地说明。
59.如上述步骤s110所述，利用dqn神经网络的学习能力，通过样本数据建立电火花加工中执行动作与评定分数的对应关系。
60.需要说明的是，所述评定分数为当前状态下动作执行之后，对工件各个状态进行打分，总分即为评定分数，利用dqn神经网络，分析细微电火花加工中样本数据执行的动作与动作执行完毕之后获得的分数之间的规律，通过dqn神经网络的自学习、自适应特性找到执行的动作与动作执行完毕之后获得的评定分数之间映射规律。
61.在本发明一实施例中，可以结合下列描述进一步说明步骤s110所述“利用dqn神经网络的学习能力，通过样本数据建立电火花加工中执行动作与评定分数的对应关系”的具体过程。
62.如下列步骤所述，获取样本工件加工时的加工状态。
63.需要说明的是，所述加工参数可以为人为规定的，也可以为加工装置所设置的传感器所上传的数据。
64.在本发明一实施例中，可以结合下列描述进一步说明所述“获取样本工件加工时的加工状态”的具体过程。
65.如下列步骤所述，获取所述样本工件的动作空间，所述动作空间包括可执行的全部动作；
66.所述动作空间(a
space
)包含了伺服控制中可能的全部动作，如“前进”，“后退”，“不动作”。
67.如下列步骤所述，获取所述样本工件的状态空间，所述状态空间包括电位差、有效放电数和拉弧次数；
68.所述状态空间包括了加工系统配置的部分传感器数据，例如电位差、有效放电数和拉弧次数(v
t
，nd，n
arc
)。
69.如下列步骤所述，对所述加工状态下的执行动作进行评分，获取评定分数。
70.在本发明一实施例中，可以结合下列描述进一步说明所述“对所述加工状态下的执行动作进行评分，获取评定分数”的具体过程。
71.如下列步骤所述，获取奖励函数，所述奖励函数所包含的输入参数与状态空间有相同的要素。
72.如下列步骤所述，通过所述奖励函数计算所述状态空间内每个要素的要素分数；
73.如下列步骤所述，将所述要素分数相加计算所述执行动作的评定分数。
74.需要说明的是，所述奖励函数为人为设定，用于后验评估采取某个动作后的分数其中为包括了当前状态的向量，其中，的要素与状态空间的要素相同。每一个周期通过传感器对状态空间包含的状态进行采样，然后通过奖励函数计算这个周期获得的分数，奖励函数计算机制如下：如果电位差介于上下阈值之间则获得一个较高的正分数，反之则获得一个绝对值较高的负分数，然后根据有效放电数乘以一个较小的正分数得到一个累积分数，根据拉弧次数乘以一个绝对值较小的负分数得到一个累积分数，最后将所有状态评估的分数相加则为该执行动作执行完毕之后得到的总分数，即为评定分数。
75.如下列步骤所述，通过所述dqn神经网络建立所述评分与所述执行动作的对应关系。
76.在本发明一实施例中，可以结合下列描述进一步说明所述“通过所述dqn神经网络建立所述评定分数与所述执行动作的对应关系”的具体过程。
77.如下列步骤所述，通过所述dqn神经网络预测当前状态下所有待选执行动作的预测分数；
78.如下列步骤所述，将所述预测分数最高的所述待选执行动作设为执行动作并执行；
79.如下列步骤所述，通过所述奖励函数获取所述执行动作的评定分数并进行评估；
80.如下列步骤所述，将评估结果储存在所述预测模型的经验池；
81.如下列步骤所述，通过所述经验池建立所述评定分数与所述执行动作的对应关系。
82.如下列步骤所述，随机抽取所述动作空间中的执行动作；
83.如下列步骤所述，通过所述dqn神经网络预测所述动作的评定分数并生成预测分数；
84.如下列步骤所述，执行所述执行动作，通过所述奖励函数获取所述执行动作的评定分数并进行评估；
85.如下列步骤所述，将评估结果储存在所述预测模型的经验池；
86.如下列步骤所述，通过所述经验池建立所述评定分数与所述执行动作的对应关系。
87.如下列步骤所述，将所述评估结果以储存，其中，所述为t时刻的状态、a为t时刻动作、r为t时刻分数、为t+1时刻的状态。
88.需要说明的是，dqn神经网络用于先验的评估在不同状态下执行不同动作时可能的最终的分数。但是由于dqn神经网络前期“经验”累积不足，所以前期主要依靠“探索”来获取“经验”。
89.设置初始探索概率为100％，随着探索的不断进行，dqn神经网络不断学习完善，探索率逐渐下降到接近0，但是不会等于0。当进入“探索”状态的时候，会随机在动作空间抽取其中一个动作，dqn神经网络进行预测，之后由奖励函数进行评估，判断分数误差值是否低于预设值，并将结果储存到经验池中，以完善对应关系的建立。非“探索”状态的时候会在dqn神经网络中计算评估当前状态下分别采取动作空间的所有动作时分别的评分可能为多少，最后选取评分最高的动作通过奖励函数进行评估，判断分数误差值是否低于预设值，并将结果储存到经验池中，以完善对应关系的建立。
90.无论是“探索”产生的动作还是dqn神经网络推算出的动作，在动作完成后都会通过奖励函数来评估这次动作的分数，并且以作为“一条经验”储存在经验池中用以训练dqn网络。根据贝尔曼方程：t时刻状态执行动作a
t
最终能得到的分数等于t时刻的分数r加上t+1时刻执行a
t+1
动作最终能得到的最大分数乘以折扣因子。所以dqn网络将作为输入，网络输出为在状态下执行动作空间中各个动作分别可能得到的最终得分。训练网络时将“一条经验”分为输入输出两个部分来拟合q函数，输入部分为输出部分为通过均方损失误差损失函数让网络来拟合q函数。学习次数足够多的时候q函数被网络完善，这时贝尔曼方程的q函数由神经网络替代也能保证等式两边基本相等。完成训练，建立所述评定分数与所述执行动作的对应关系。
91.如上述步骤s120所述，获取当前待加工工件的执行动作集合；所述执行动作集合包括若干个待选执行动作。
92.需要说明的是，若干个所述待选执行动作包含有对应于所述当前待加工工件当前状态下可能进行的所有执行动作，也可以通过人为进行设定待选执行动作。
93.如上述步骤s130所述，通过所述对应关系，确定所述执行动作集合对应的评定分数集合；所述评定分数集合内的评定分数与所述执行动作集合内的待选执行动作一一对应。
94.需要说明的是，微细电火花加工系统生成的路径条目数量庞大，需要考虑下一步运动的路径，更需要能够前瞻性地考虑未来几步的路径，并对未来的路径进行优化。通过获取执行动作对应的评定分数，可以准确直观地获取获得高分的执行动作进行执行，使细微电火花加工更精确且有效率。
95.如上述步骤s140所述，将所述评定分数集合内最高评定分数设置为预测分数，所述最高评定分数对应的待选执行动作，设置为当前执行动作。
96.在一具体实现中，由于微细电火花加工的精度要求较高，这就对伺服控制有很高的实时性要求。本实施例中，微细电火花加工系统采用基于xenomai+linux双内核的ubuntu系统。基于qt5的图形化交互软件在linux原生内核上运行，对实时性要求较高的伺服控制程序则运行在实时内核xenomai中。这样才能保证伺服控制的时候能够快速响应，提高加工精度。
97.为了能够加工不同材料的工件，在后端设有一个数据库用于存储不同材料的加工数据。本实施例中，微细电火花加工系统采用的数据库为mysql。在进行加工的时候要确定加工材质，然后从mysql数据库中选择训练好的神经网络用于伺服控制。若mysql数据库中没有相应训练好的神经网络则进入学习模式，边学习边加工，加工完成后将网络模型储存于mysql数据库中。
98.对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。
99.参照图2，示出了本技术一实施例提供的一种优化数据库日志批量写入的装置；
100.具体包括：
101.建立模块210，用于利用dqn神经网络的学习能力，通过样本数据建立电火花加工中执行动作与评定分数的对应关系；
102.获取模块220，用于获取当前待加工工件的执行动作集合；所述执行动作集合包括若干个待选执行动作；
103.评分模块230，用于通过所述对应关系，确定所述执行动作集合对应的评定分数集合；所述评定分数集合内的评定分数与所述执行动作集合内的待选执行动作一一对应；
104.确定模块240，用于将所述评定分数集合内最高评定分数设置为预测分数，所述最高评定分数对应的待选执行动作，设置为当前执行动作。
105.在本发明一实施例中，建立模块210，包括：
106.样本获取子模块，用于获取样本工件加工时的加工状态；
107.样本评定分数评定子模块，用于对所述加工状态下的执行动作进行评分，获取评定分数；
108.对应关系建立子模块，用于通过所述dqn神经网络建立所述评定分数与所述执行动作的对应关系。
109.在本发明一实施例中，样本获取子模块，包括：
110.动作空间获取子模块，用于获取所述样本工件的动作空间，所述动作空间包括可执行的全部动作；
111.状态空间获取子模块，用于获取所述样本工件的状态空间，所述状态空间包括电位差、有效放电数和拉弧次数。
112.在本发明一实施例中，样本评定分数评定子模块，包括：
113.奖励函数获取子模块，用于获取奖励函数，所述奖励函数包含与所述状态空间相同的要素；
114.要素分数计算子模块，用于通过所述奖励函数计算所述状态空间内每个要素的要素分数；
115.评定分数获取子模块，用于将所述要素分数相加计算所述执行动作的评定分数。
116.在本发明一实施例中，对应关系建立子模块，包括：
117.所有动作分数预测子模块，用于通过所述dqn神经网络预测当前状态下所有待选执行动作的预测分数；
118.预测动作执行子模块，用于将所述预测分数最高的所述待选执行动作设为执行动作并执行
119.评估子模块，用于通过所述奖励函数获取所述执行动作的评定分数并进行评估；
120.经验池完善子模块，用于将评估结果储存在所述预测模型的经验池；
121.对应关系完善子模块，用于通过所述经验池建立所述评定分数与所述执行动作的对应关系。
122.在本发明一实施例中，对应关系建立子模块，还包括：
123.随机子模块，用于随机抽取所述动作空间中的执行动作；
124.动作分数预测子模块，用于通过所述dqn神经网络预测所述执行动作的评定分数并生成预测分数；
125.评估子模块，用于执行所述执行动作，通过所述奖励函数获取所述执行动作的评定分数并进行评估；
126.评估子模块，用于将评估结果储存在所述预测模型的经验池；
127.对应关系完善子模块，用于通过所述经验池建立所述评定分数与所述执行动作的对应关系。
128.在本发明一实施例中，还包括：储存子模块，用于将所述评估结果以储存，其中所述为t时刻的状态、a为t时刻动作、r为t时刻分数、为t+1时刻的状态。
129.参照图3，示出了本发明的一种基于深度q网络的微细电火花加工的方法的计算机设备，具体可以包括如下：
130.上述计算机设备12以通用计算设备的形式表现，计算机设备12的组件可以包括但不限于：一个或者多个处理器或者处理单元16，系统存储器28，连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
131.总线18表示几类总线18结构中的一种或多种，包括存储器总线18或者存储器控制器，外围总线18，图形加速端口，处理器或者使用多种总线18结构中的任意总线18结构的局域总线18。举例来说，这些体系结构包括但不限于工业标准体系结构(isa)总线18，微通道体系结构(mac)总线18，增强型isa总线18、音视频电子标准协会(vesa)局域总线18以及外围组件互连(pci)总线18。
132.计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。
133.系统存储器28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(ram)30和/或高速缓存存储器32。计算机设备12可以进一步包括其他移动/不可移动的、易失性/非易失性计算机体统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质(通常称为“硬盘驱动器”)。尽管图3中未示出，可以提供用于对可移动非易失性磁盘(如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如cd-rom，dvd-rom或者其他光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质界面与总线18相连。存储器可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块42，这些程序模块42被配置以执行本发明各实施例的功能。
134.具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在例如存储器中，这样的程序模块42包括——但不限于——操作系统、一个或者多个应用程序、其他程序模块42以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模
块42通常执行本发明所描述的实施例中的功能和/或方法。
135.计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24、摄像头等)通信，还可与一个或者多个使得医护人员能与该计算机设备12交互的设备通信，和/或与使得该计算机设备12能与一个或多个其他计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(i/o)界面22进行。并且，计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(lan))，广域网(wan)和/或公共网络(例如因特网)通信。如图所示，网络适配器20通过总线18与计算机设备12的其他模块通信。应当明白，尽管图3中未示出，可以结合计算机设备12使用其他硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元16、外部磁盘驱动阵列、raid系统、磁带驱动器以及数据备份存储系统34等。
136.处理单元16通过运行存储在系统存储器28中的程序，从而执行各种功能应用以及数据处理，例如实现本发明实施例所提供的一种优化数据库日志批量写入的方法。
137.也即，上述处理单元16执行上述程序时实现：利用dqn神经网络的学习能力，通过样本数据建立电火花加工中执行动作与评定分数的对应关系；
138.获取当前待加工工件的执行动作集合；所述执行动作集合包括若干个待选执行动作；
139.通过所述对应关系，确定所述执行动作集合对应的评定分数集合；所述评定分数集合内的评定分数与所述执行动作集合内的待选执行动作一一对应；
140.将所述评定分数集合内最高评定分数设置为预测分数，所述最高评定分数对应的待选执行动作，设置为当前执行动作。
141.在本发明实施例中，本发明还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本技术所有实施例提供的一种基于深度q网络的微细电火花加工的方法：
142.也即，给程序被处理器执行时实现：利用dqn神经网络的学习能力，通过样本数据建立电火花加工中执行动作与评定分数的对应关系；
143.获取当前待加工工件的执行动作集合；所述执行动作集合包括若干个待选执行动作；
144.通过所述对应关系，确定所述执行动作集合对应的评定分数集合；所述评定分数集合内的评定分数与所述执行动作集合内的待选执行动作一一对应；
145.将所述评定分数集合内最高评定分数设置为预测分数，所述最高评定分数对应的待选执行动作，设置为当前执行动作。
146.可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机克顿信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦可编程只读存储器(epom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
147.计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
148.可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，上述程序设计语言包括面向对象的程序设计语言——诸如java、smalltalk、c++，还包括常规的过程式程序设计语言——诸如“c”语言或类似的程序设计语言。程序代码可以完全地在医护人员计算机上执行、部分地在医护人员计算机上执行、作为一个独立的软件包执行、部分在医护人员计算机上部分在远程计算机上执行或者完全在远程计算机或者服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(lan)或广域网(wan)——连接到医护人员计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。
149.尽管已描述了本技术实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本技术实施例范围的所有变更和修改。
150.最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
151.以上对本技术所提供的一种基于深度q网络的微细电火花加工的方法，进行了详细介绍，本文中应用了具体个例对本技术的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本技术的方法及其核心思想；同时，对于本领域的一般技术人员，依据本技术的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本技术的限制。

技术特征：
1.一种基于深度q网络的微细电火花加工的方法，其特征在于，包括：利用dqn神经网络的学习能力，通过样本数据建立电火花加工中执行动作与评定分数的对应关系；获取当前待加工工件的执行动作集合；所述执行动作集合包括若干个待选执行动作；通过所述对应关系，确定所述执行动作集合对应的评定分数集合；所述评定分数集合内的评定分数与所述执行动作集合内的待选执行动作一一对应；将所述评定分数集合内最高评定分数设置为预测分数，所述最高评定分数对应的待选执行动作，设置为当前执行动作。2.根据权利要求1所述的方法，其特征在于，所述利用dqn神经网络的学习能力，通过样本数据建立电火花加工中执行动作与评定分数的对应关系的步骤，包括：获取样本工件加工时的加工状态；对所述加工状态下的执行动作进行评分，获取评定分数；通过所述dqn神经网络建立所述评定分数与所述执行动作的对应关系。3.根据权利要求2所述的方法，其特征在于，获取样本工件加工时的加工状态的步骤，包括：获取所述样本工件的动作空间，所述动作空间包括可执行的全部动作；获取所述样本工件的状态空间，所述状态空间包括电位差、有效放电数和拉弧次数。4.根据权利要求3所述的方法，其特征在于，对所述加工状态下的执行动作进行评分，获取评定分数的步骤，包括：获取奖励函数，所述奖励函数所包含的输入参数与状态空间有相同的要素；通过所述奖励函数计算所述状态空间内每个要素的要素分数；将所述要素分数相加计算所述执行动作的评定分数。5.根据权利要求4所述的方法，其特征在于，通过所述dqn神经网络建立所述评定分数与所述执行动作的对应关系的步骤，包括：通过所述dqn神经网络预测当前状态下所有待选执行动作的预测分数；将所述预测分数最高的所述待选执行动作设为执行动作并执行；通过所述奖励函数获取所述执行动作的评定分数并进行评估；将评估结果储存在所述预测模型的经验池；通过所述经验池建立所述评定分数与所述执行动作的对应关系。6.根据权利要求5所述的方法，其特征在于，还包括：随机抽取所述动作空间中的执行动作；通过所述dqn神经网络预测所述执行动作的评定分数并生成预测分数；执行所述执行动作，通过所述奖励函数获取所述执行动作的评定分数并进行评估；将评估结果储存在所述预测模型的经验池；通过所述经验池建立所述评定分数与所述执行动作的对应关系。7.根据权利要求6所述的方法，其特征在于，还包括，将所述评估结果以储存；其中，所述为t时刻的状态、a为t时刻动作、r为t时刻分数、为t+1时刻的状态。8.一种基于深度q网络的微细电火花加工的装置，其特征在于，所述基于深度q网络的
微细电火花加工的装置实现如权利要求1至7中任一项所述的基于深度q网络的微细电火花加工的方法的步骤，包括：建立模块，用于利用dqn神经网络的学习能力，通过样本数据建立电火花加工中执行动作与评定分数的对应关系；获取模块，用于获取当前待加工工件的执行动作集合；所述执行动作集合包括若干个待选执行动作；评分模块，用于通过所述对应关系，确定所述执行动作集合对应的评定分数集合；所述评定分数集合内的评定分数与所述执行动作集合内的待选执行动作一一对应；确定模块，用于将所述评定分数集合内最高评定分数设置为预测分数，所述最高评定分数对应的待选执行动作，设置为当前执行动作。9.一种电子设备，其特征在于，包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1-7中任一项所述的基于深度q网络的微细电火花加工的方法的步骤。10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的基于深度q网络的微细电火花加工的方法的步骤。

技术总结
本发明提供了一种基于深度Q网络的微细电火花加工的方法，包括：利用DQN神经网络的学习能力，通过样本数据建立电火花加工中执行动作与评定分数的对应关系；获取当前待加工工件的执行动作集合；所述执行动作集合包括若干个待选执行动作；通过所述对应关系，确定所述执行动作集合对应的评定分数集合；所述评定分数集合内的评定分数与所述执行动作集合内的待选执行动作一一对应；将所述评定分数集合内最高评定分数设置为预测分数，所述最高评定分数对应的待选执行动作，设置为当前执行动作。通过DQN神经网络的学习能力，能快速适应当前场景的加工环境，以迅速进行细微电火花加工操作，提升加工效率，并且该模型更轻量。并且该模型更轻量。并且该模型更轻量。

技术研发人员：郭程李浩罗龙辉赵春洋徐斌
受保护的技术使用者：深圳大学
技术研发日：2023.05.17
技术公布日：2023/9/23

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

上一篇：一种用于电源快速安装的供电装置的制作方法 下一篇：通用验证组件、平台、交互方法、电子设备及存储介质与流程

一种基于深度Q网络的微细电火花加工的方法及装置

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

一种基于深度Q网络的微细电火花加工的方法及装置

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表