一种基于强化学习的理想轮廓生成算法、装置及存储介质的制作方法

未命名 07-23 阅读：71 评论：0

1.本发明涉及轮廓生成领域，特别是涉及基于强化学习的理想轮廓生成算法领域。

背景技术：

2.在工业生产中，产品时常出现边界开裂、毛刺、变形等现象，目前通常的处理方式是拟合轮廓，然后与标准模板对应轮廓比对，找出缺陷并生成连续的轮廓线。
3.但此类传统计算方法存在以下缺点：
4.1、无法解决由拍照角度带来的图像处理问题，在两种不同的角度下，轮廓仅仅是趋势相似，这个相似用普通的比对无法描述。

技术实现要素：

5.基于此，本发明的目的在于，提供一种基于强化学习的理想轮廓生成算法、装置及存储介质，其具有提高匹配度准确度，减少了人力的投入，提高了生成标准图像模板的效率的优点。
6.本技术是通过如下技术方案实现的，一方面本技术提供一种基于强化学习的理想轮廓生成算法，其包括：
7.获取正常产品的图像，对该图像进行轮廓标注，得到第一标注图像；
8.通过遗传算法，对所述第一标注图像进行数据增强，获得一组标准模板图像，其中，所述标准模板图像包括所述第一标注图像以及多个第二标注图像，所述第二标注图像与所述第一标注图像中的轮廓具有角度偏转；
9.获取待检测图像，对所述待检测图像进行轮廓数据标注，并与所述标准模板图像进行一一匹配；
10.若匹配成功，则将匹配成功的所述标准模板图像中的轮廓数据作为所述待标注图像的理想轮廓数据。
11.进一步地，若匹配不成功，则还包括如下步骤：
12.通过hed网络对标注后的所述待检测图像进行特征提取，得到hed轮廓数据，将所述hed轮廓数据打散为点列数据；
13.将所述点列数据输入至drl模型，使用强化学习对轮廓趋势线按时序评估，得到所述待检测图像的理想轮廓数据。
14.进一步地，通过遗传算法，对所述第一标注图像进行数据增强，获得一组标准模板图像，具体包括：
15.对所述第一标注图像固定x坐标，搜索x的定义域[x0,xl]；
[0016]
在x方向做划分：利用数学分析工具寻找到所有的不连续点x1,x2,...xm，构建出分段连续区间[x0,x1],[x1,x2],...,[xm-1,xm]；
[0017]
在每个分段连续区间内，根据所述第一标注图像中标注的轮廓，采取以下方式生成插入点：
[0018]
若实际轮廓(x，y)符合多项式公式，在每个区间邻域内取多个实际轮廓数据，根据公式
[0019]yn
＝anxn+a
n-1
x
n-1
+...+a0[0020]
得到yi,(i＝0...k)，此时插入点坐标为其中：
[0021][0022]
其中k＝0，1，.....；
[0023]
若实际轮廓(x,y)所在的曲线光滑，此时x方向基函数定义为：
[0024][0025]
构建插值式：
[0026][0027]
其中f是原函数；k＝0，1，.....；
[0028]
获取在不同条件下对应的产品的图像数据，形成一组标准模板图像。
[0029]
进一步地，获得一组标准模板图像后，还包括：
[0030]
通过遗传算法，将所述标准模板图像的轮廓拆分为多段，每两张所述标准模板图像使用部分断进行交叉运算。
[0031]
进一步地，通过遗传算法，将所述标准模板图像的轮廓拆分为多段，每两张所述标准模板图像使用部分断进行交叉运算后，还包括：
[0032]
在多段轮廓上进行反等运算，生成对应变形状态的产品仿真图像数据。
[0033]
进一步地，将所述点列数据输入至drl模型，使用强化学习对轮廓趋势线按时序评估，得到所述待检测图像的理想轮廓数据后，还包括：
[0034]
将所述hed轮廓数据与所述真实理想轮廓进行求差运算，得出所述待检测图像的缺陷形状、长度、面积等矩向量。
[0035]
进一步地，所述drl模型使用dqn算法，由神经网络与q-learning结合得到。
[0036]
另一方面，本技术还提供一种生成理想轮廓的装置，包括：
[0037]
第一标注图像获取模块：获取正常产品的图像，对该图像进行轮廓标注，得到第一标注图像；
[0038]
标准模板拟合模块：通过遗传算法，对所述第一标注图像进行数据增强，获得一组标准模板图像，其中，所述标准模板图像包括所述第一标注图像以及多个第二标注图像，所述第二标注图像与所述第一标注图像中的轮廓具有角度偏转；
[0039]
图像轮廓匹配模块：获取待检测图像，对所述待检测图像进行轮廓数据标注，并与所述标准模板图像进行一一匹配；
[0040]
理想轮廓生成模块：若匹配成功，则将匹配成功的所述标准模板图像作为所述待标注图像的理想轮廓数据。
[0041]
另一方面，本技术还提供一种计算机设备，其特征在于，包括：
[0042]
至少一个存储器以及至少一个处理器；
[0043]
所述存储器，用于存储一个或多个程序；
[0044]
当所述一个或多个程序被所述至少一个处理器执行，使得所述至少一个处理器实现上述任一项所述的一种基于强化学习的理想轮廓生成算法的步骤。
[0045]
另一方面，本技术还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现上述任一项所述的一种基于强化学习的理想轮廓生成算法的步骤。
[0046]
本技术通过将遗传算法运用到图像数据的扩充上，能够在只需要少量正常产品的第一标注图像的情况下，通过遗传算法的模拟仿真对数据进行扩充，等效于对产品在镜头下的偏移进行模拟，然后获得不同偏移量下对应的第二标注图像，使得进行产品检测时能够有一组完备的标准图像模板进行匹配，提高匹配度准确度，同时由于是通过算法进行仿真得到的数据，减少了人力的投入，提高了生成标准图像模板的效率。
[0047]
此外通过遗传算法对将所述标准模板图像的轮廓拆分为多段，每两张所述标准模板图像使用部分断进行交叉运算来预防图像欠拟合的问题，通过在多段轮廓上进行反等运算，生成对应变形状态的产品仿真图像数据来解决图像过拟合的问题，通过建立drl模型，并选取使用dqn算法、神经网络与q-learning，了对存在缺陷的产品实现了理想轮廓的生成，最终通过差分运算，得到一个region区域，计算该区域的缺陷形状、长度、面积等矩向量。
[0048]
为了更好地理解和实施，下面结合附图详细说明本发明。
附图说明
[0049]
图1为本技术实施例提供的一种基于强化学习的理想轮廓生成算法的流程图；
[0050]
图2为本技术实施例根据的一种实现强化学习的理想轮廓生成算法的装置的结构框图；
[0051]
图3为本技术实施例根据的一种计算机设备的结构框图。
[0052]
附图标记：400：一种实现强化学习的理想轮廓生成算法的装置；401：第一标注图像获取模块；402：标准模板图像拟合模块；403：图像轮廓匹配模块；404：理想轮廓生成模块；405：检测图像变换模块；406：理想轮廓拟合模块；
[0053]
910：处理器；920：存储器。
具体实施方式
[0054]
为使本技术的目的、技术方案和优点更加清楚，下面将结合附图对本技术实施例方式作进一步地详细描述。
[0055]
应当明确，所描述的实施例仅仅是本技术实施例一部分实施例，而不是全部的实施例。基于本技术实施例中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本技术实施例保护的范围。
[0056]
在本技术实施例使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本技术实施例。在本技术实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术
语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
[0057]
下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本技术相一致的所有实施方式。相反，它们仅是如所附权利要求书中所详述的、本技术的一些方面相一致的装置和方法的例子。在本技术的描述中，需要理解的是，术语“第一”、“第二”、“第三”等仅用于区别类似的对象，而不必用于描述特定的顺序或先后次序，也不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本技术中的具体含义。
[0058]
此外，在本技术的描述中，除非另有说明，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，a和/或b，可以表示：单独存在a，同时存在a和b，单独存在b这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
[0059]
在工业生产中，产品时常出现边界开裂、毛刺、变形等现象，目前通常的处理方式是拟合轮廓，然后与标准模板对应轮廓比对，找出缺陷并生成连续的轮廓线。
[0060]
但此类传统计算方法存在以下缺点：
[0061]
1、无法解决由拍照角度带来的图像处理问题，在两种不同的角度下，轮廓仅仅是趋势相似，这个相似用普通的比对无法描述；
[0062]
2、在一定的变化区域内，需要多个模板叠加才能计算出少部分拟合。
[0063]
3、拟合精度不够，常常欠拟合。
[0064]
基于上述问题，本技术提出一种基于强化学习的理想轮廓生成算法，在一个实施例中，如图1所示，该方法包括如下步骤：
[0065]
s10：获取正常产品的图像，对该图像进行轮廓标注，得到第一标注图像。
[0066]
正常产品为待检测产品中确定产品不存在边界开裂、毛刺、变形等现象的产品。其正常图像为产品水平摆设的前提下，镜头正对产品拍摄获得的图像，以此图像进行轮廓标注得到的图像为第一标注图像。
[0067]
s20：通过遗传算法，对第一标注图像进行数据增强，获得一组标准模板图像，其中，标准模板图像包括第一标注图像以及多个第二标注图像，第二标注图像与第一标注图像中的轮廓具有角度偏转。
[0068]
遗传算法(genetic algorithm，ga)是根据大自然中生物体进化规律而设计提出的。是模拟达尔文生物进化论的自然选择和遗传学机理的生物进化过程的计算模型，是一种通过模拟自然进化过程搜索最优解的方法。该算法通过数学的方式,利用计算机仿真运算,将问题的求解过程转换成类似生物进化中的染色体基因的交叉、变异等过程。
[0069]
在本技术中，通过遗传算法对图像数据进行增强，模拟正常产品进行偏转得到的各个角度下的第二标注图像，从而以少量的正常产品的第一标注图像作为样本，仿真模拟得到更多的第二标注图像，达到以少样本模型获取到足够的训练数据量的目的，一方面避免了由于样本数量不足的问题，另一方面由于是仿真生成的样本数据，因此提高了样本的获取效率。
[0070]
s30：获取待检测图像，对待检测图像进行轮廓数据标注，并与标准模板图像进行一一匹配。
[0071]
轮廓数据标注是先对待检测图像进行拍摄，获取待检测图像的轮廓图，根据获得的轮廓图，对其边界进行数据点标记，并生成对应数据点的位置信息。
[0072]
将完成轮廓数据标记后待检测图像的轮廓图与s20中的标准模板图像进行一一匹配，避免因为拍摄角度和产品的摆放位置引起的误判现象，从而能够得到该待检测图像是否存在缺陷，并且因为标准模板图中存在有大量模拟仿真得到的不同偏转角度下的第二标注图像，提高了待检测图像的匹配准确率。
[0073]
s40：若匹配成功，则将匹配成功的标准模板图像作为待标注图像的理想轮廓数据。
[0074]
本技术通过将遗传算法运用到图像数据的扩充上，能够在只需要少量正常产品的第一标注图像的情况下，通过遗传算法的模拟仿真对数据进行扩充，等效于对产品在镜头下的偏移进行模拟，然后获得不同偏移量下对应的第二标注图像，使得进行产品检测时能够有一组完备的标准图像模板进行匹配，提高匹配度准确度，同时由于是通过算法进行仿真得到的数据，减少了人力的投入，提高了生成标准图像模板的效率。
[0075]
在另一个可选的实施例中，还提供了对存在缺陷的产品的轮廓处理算法，用于生成存在缺陷的产品的理想轮廓图，包括如下步骤：
[0076]
s41：若匹配不成功，通过hed网络对标注后的待检测图像进行特征提取，得到hed轮廓数据，将hed轮廓数据打散为点列数据；
[0077]
将点列数据输入至drl模型，使用强化学习对轮廓趋势线按时序评估，得到待检测图像的理想轮廓数据。
[0078]
在另一个可选的实施例中，drl模型使用dqn算法，由神经网络与q-learning结合得到。
[0079]
hed网络是一种多尺度多融合(multi-scale and multi-level feature learning)的网络结构，将内核的vgg16的每一组的最后一个卷积层的输出取出来，因为每一组得到的图像的长宽尺寸是不一样的，通过转置卷积(transposed convolution)/反卷积(deconv)对每一组得到的图像数据再做一遍运算，使得每个尺度(vgg16的每一组就是一个尺度)上得到图像，都是相同的大小了，其中vgg16代表的是深度为16的vgg模型。
[0080]
将一个数据(一个图)输入到网络(gnn)中，会得到一个输出数据(同样是图)，输出的图和输入的图相比，顶点、边、以及全局信息会发生改变。
[0081]
drl是将深度学习(dl)与强化学习(rl)结合，直接从高维原始数据学习控制策略。而dqn是drl的其中一种算法，它要做的就是将卷积神经网络(cnn)和q-learning结合起来，cnn的输入是原始图像数据(作为状态state)，输出则是每个动作action对应的价值评估value function(q值)。
[0082]
结合q-learning和策略梯度两种方法，分为actor network网络与critic network评估网络。
[0083]
输入input:3*4＝12个(xi,yi)向量。其中3是分解总层数，4是每一个特征层系数。
[0084]
actor network网络考虑8个坐标系方向用于(xi,yi)变换自由度，方向1：0-45度，方向2：45-90度，...,方向8：315-360度。故输入层后接一个8个节点的隐藏层。操作为普通的卷积运算，通道数扩充为2(为了将x,y坐标系的基元扩展出去),紧接后面一层为坐标修正层，防止运算值超出规定象限。再经过4个特征融合层(前一个点特征，当前点特征，标签后一个点特征，趋势线时间序列特征)，得到3*4＝12个(xi,yi)向量做为output。
[0085]
critic network网络：输入1为actor network网络输出3*4＝12个(xi,yi)向量，
输入2为未经actor network网络计算的原始数据input:3*4＝12个(xi,yi)向量。将input1与input2经过一个比较器层得到最后的评估结果。
[0086]
q-learning是根据强化学习算法中值迭代的算法，q即为q(s,a)，就是再某一个时刻的s状态下，采取a动作能够获得收益的期望，环境会根据智能体的动作反馈相应的奖励，所以通常将状态和行为构建成一张用于存储q值的q值表，根据q值来选取动作以获得较大收益。
[0087]
具体的，原始输入数据是一个区间段内点坐标(x,y)集合。
[0088]
构建数据域网络，选择尺度函数：
[0089][0090][0091]
其中为尺度函数
[0092]
选择基函数
[0093][0094][0095]
同理
[0096]
这样y方向数据为：
[0097][0098]
其中|c0，c1，c2，c3是特征层系数，为基函数。
[0099]
每一层有4个参数|c0，c1，c2，c3，共3个特征层，每一层的分辨率是1,2,4。再次转化到空间域，使用基函数重建，重建特征层也为3个。
[0100]
定义损失函数，由于仅涉及到值的比较，故采用mse
[0101][0102]
dqn的拟合目标为最优贝尔曼方程，其数学表达式为
[0103][0104]
其中r
t
为在状态s
t
做出选择动作a
t
后，系统返回的奖励，γ为回报的折扣率，为状态st下的期望值。
[0105]
当数据点已经计算完成为(x,y),随后开始计算下一点(x1，y1)，这里取两个策略方向，一个向前，一个向后。如果单从本身的轮廓数据来分析，无法知道哪些点偏离了理想轮廓，这时候需要导入标注数据。标注数据与实际轮廓数据存在许多异构性，如：频段相似的区间，有的直径(自变量x区间长度)大，有的直径小，故选择一个合适的映射函数，本技术的做法是获取x所在区间的频域段，再获取每个标注轮廓频域段，从这些标注数据频域段中取出分割开的频域段数据，然后将实际的数据区间映射到分割开的数据区间，这些区间存在前后多个，根据一个奖励函数评估最优的预测数据x
next
,同样，y方向根据x值也需要计算出
一个奖励函数。定义dqn的拟合的奖励函数为：
[0106][0107]
其中r
t
为在状态s
t
做出选择动作a
t
后，系统返回的奖励，γ为回报的折扣率，为状态st下的期望值。
[0108]
定义一个action选取矩阵，选取矩阵的构建以实际轮廓为依据，如数据小区间内数据只有len1个，对应标注数据有len2个，则构建一个len1*len2的评估矩阵。每构建完成一个实际数据，统计每个标注数据对应区间段内的mse，损失最小则计算目标参数|c0，c1，c2，c3。
[0109]
在实际的检测中，会产生轮廓拓扑形变，这里定义两个仿射矩阵，一个矩阵做缩放、旋转
[0110]
一个矩阵做平移[a
31 a
32
]
[0111]
将这两个矩阵作用到标注数据数据中生成理想轮廓数据，增强数据集，然后作用到实际轮廓，计算dqn的拟合目标。选取最优化矩阵参数。
[0112]
在另一个实施例中，通过遗传算法，对第一标注图像进行数据增强，获得一组标准模板图像，具体包括：
[0113]
对第一标注图像固定x坐标，搜索x的定义域[x0,xl]；
[0114]
在x方向做划分：利用数学分析工具寻找到所有的不连续点x1,x2,...xm，构建出分段连续区间[x0,x1],[x1,x2],...,[xm-1,xm]；
[0115]
使用传统的xld边缘查找，再将边缘打散为一个点列a1,a2,...,an。
[0116]
为了把每个点的特征扩充，并且不影响点的排布，定义以下规则：
[0117]
交叉操作：将(ai,aj)点整数部分或小数部分分别调换；
[0118]
变异操作：为了不使数据超出轮廓区间，只将ai与aj点的(x,y)点坐标的x,y小数部分分解成二进制形式，然后将0,1对换，如00000变异成10000等.
[0119]
选择操作：在构建点附近是否有相关的轮廓线片段，如果有就选中，否则不选中；
[0120]
计算适应度：选择出a01,a02,...,a0n，如果存在另一个边缘序列a11,a12,...,a1n，计算两个边缘序列的距离(利用点至最近线段距离，然后将n个计算结果相加)，如果距离在规定的值域内，则这个点列a01,a02,...,a0n是适应的。
[0121]
在每个分段连续区间内，根据第一标注图像中标注的轮廓，采取以下方式生成插入点：
[0122]
若实际轮廓(x，y)符合多项式公式，在每个区间邻域内取多个实际轮廓数据，根据多项式公式
[0123]yn
＝anxn+a
n-1
x
n-1
+...+a0[0124]
得到yi,(i＝0...k)，此时插入点坐标为其中
[0125][0126]
其中，k＝0，1，.....，
[0127]
若实际轮廓(x,y)所在的曲线光滑，此时x方向基函数定义为：
[0128][0129]
其中xk为x轴的坐标变量，k＝0，1，.....；
[0130]
构建插值式：
[0131][0132]
其中f是原函数；
[0133]
获取在不同条件下对应的产品的图像数据，形成一组标准模板图像。
[0134]
在另一个实施例中，通过遗传算法，将标准模板图像的轮廓拆分为多段，每两张标准模板图像使用部分断进行交叉运算，用于解决欠拟合的问题。
[0135]
在另一个实施例中，通过遗传算法，将标准模板图像的轮廓拆分为多段，每两张标准模板图像使用部分断进行交叉运算后，还包括：
[0136]
在多段轮廓上进行反等运算，生成对应变形状态的产品仿真图像数据。
[0137]
欠拟合是指模型拟合程度不高，数据距离拟合曲线较远，或指模型没有很好地捕捉到数据特征，不能够很好地拟合数据。
[0138]
在本技术中，工业产品制程上的问题，会导致外壳有轻微差别，并且在成像阶段，拍照角度或产品轻微滑动，导致成像的轮廓会有变形现象，由于这些现象都是随机的，数据集不可能收集齐全，故用现场的部分图像去做训练集，做出的模型会有欠拟合问题。使用交叉运算后，从各个方向、趋势上对数据进行扩充，解决欠拟合问题。
[0139]
过拟合(overfitting，或称拟合过度)是指过于紧密或精确地匹配特定数据集，以致于无法良好地拟合其他数据或预测未来的观察结果的现象。
[0140]
在另一个实施例中，将点列数据输入至drl模型，使用强化学习对轮廓趋势线按时序评估，得到待检测图像的理想轮廓数据后，还包括：
[0141]
将hed轮廓数据与真实理想轮廓进行求差运算，得出待检测图像的缺陷形状、长度、面积等矩向量。
[0142]
网络的时序构建：在小区间内，第t次的取值与前一次的取值相关，即：
[0143]
x
t
＝*x
t
[0144]
其中a为相关系数，x
t
为x坐标变量。
[0145]
a主要用用于适配区间，因为同一个轮廓每一个对应标注区间长度都可能不一样，故使用这个变化的参数来平稳序列。这样网络层就多一层自回归ar层。
[0146]
如果有多个标注数据，找到对应的各个区域，计算平均数。
[0147][0148]
模型推理完成后，输出一系列的理想轮廓点，按照各个区间内的对应顺序，将这些点连结起来，就得到一个xld数据，将xld闭合，得到region区域，region区域为真实理想轮廓。
[0149]
将hed轮廓数据与真实理想轮廓进行求差运算，从而计算出非正常产品的缺陷形状、长度、面积等矩向量。
[0150]
本技术通过将遗传算法运用到图像数据的扩充上，能够在只需要少量正常产品的第一标注图像的情况下，通过遗传算法的模拟仿真对数据进行扩充，等效于对产品在镜头下的偏移进行模拟，然后获得不同偏移量下对应的第二标注图像，使得进行产品检测时能够有一组完备的标准图像模板进行匹配，提高匹配度准确度，同时由于是通过算法进行仿真得到的数据，减少了人力的投入，提高了生成标准图像模板的效率。
[0151]
此外通过遗传算法对将所述标准模板图像的轮廓拆分为多段，每两张所述标准模板图像使用部分断进行交叉运算来预防图像欠拟合的问题，通过在多段轮廓上进行反等运算，生成对应变形状态的产品仿真图像数据来解决图像过拟合的问题，通过建立drl模型，并选取使用dqn算法、神经网络与q-learning，了对存在缺陷的产品实现了理想轮廓的生成，最终通过差分运算，得到一个region区域，计算该区域的缺陷形状、长度、面积等矩向量。
[0152]
结合图2，本发明还提供一种实现强化学习的理想轮廓生成算法的装置400，包括：
[0153]
第一标注图像获取模块401：获取正常产品的图像，对该图像进行轮廓标注，得到第一标注图像；
[0154]
标准模板图像拟合模块402：通过遗传算法，对第一标注图像进行数据增强，获得一组标准模板图像，其中，标准模板图像包括第一标注图像以及多个第二标注图像，第二标注图像与第一标注图像中的轮廓具有角度偏转；
[0155]
图像轮廓匹配模块403：获取待检测图像，对待检测图像进行轮廓数据标注，并与标准模板图像进行一一匹配；
[0156]
理想轮廓生成模块404：若匹配成功，则将匹配成功的标准模板图像作为待标注图像的理想轮廓数据。
[0157]
在一可选的实施例中，一种实现强化学习的理想轮廓生成算法的装置400还包括：
[0158]
检测图像变换模块405：用于若匹配不成功，通过hed网络对标注后的待检测图像进行特征提取，得到hed轮廓数据，将hed轮廓数据打散为点列数据。
[0159]
理想轮廓拟合模块406：用于将点列数据输入至drl模型，使用强化学习对轮廓趋势线按时序评估，得到待检测图像的理想轮廓数据。
[0160]
在一个可选的实施例中，标准图像拟合模块402包括遗传算法增强单元：用于对所述第一标注图像固定x坐标，搜索x的定义域[x0,xl]；
[0161]
在x方向做划分：利用数学分析工具寻找到所有的不连续点x1,x2,...xm，构建出分段连续区间[x0,x1],[x1,x2],...,[xm-1,xm]。
[0162]
在每个分段连续区间内，根据所述第一标注图像中标注的轮廓，采取以下方式生成插入点。
[0163]
若实际轮廓(x，y)符合多项式公式，在每个区间邻域内取多个实际轮廓数据，根据公式
[0164]yn
＝anxn+a
n-1
x
n-1
+...+a0[0165]
得到yi,(i＝0...k)，此时插入点坐标为其中
[0166][0167]
其中k为，
[0168]
若实际轮廓(x,y)所在的曲线光滑，此时x方向基函数定义为：
[0169][0170]
其中f是原函数；
[0171]
获取在不同条件下对应的产品的图像数据，形成一组标准模板图像。
[0172]
在一个可选的实施例中，标准图像拟合模块402还包括欠拟合预防单元：用于通过遗传算法，将所述标准模板图像的轮廓拆分为多段，每两张所述标准模板图像使用部分断进行交叉运算。
[0173]
在一个可选的实施例中，标准图像拟合模块402还包括过拟合预防单元：用于在多段轮廓上进行反等运算，生成对应变形状态的产品仿真图像数据。
[0174]
在一可选的实施例中，一种实现强化学习的理想轮廓生成算法的装置400还包括：
[0175]
缺陷参数计算模块407：用于将hed轮廓数据与真实理想轮廓进行求差运算，得出待检测图像的缺陷形状、长度、面积等矩向量。
[0176]
如图3所示，图3是本技术实施例根据一示例性实施例示出的一种计算机设备的结构框图。所述计算机设备包括处理器910和存储器920。该主控芯片中处理器910的数量可以是一个或者多个，图3中以一个处理器910为例。该主控芯片中存储器920的数量可以是一个或者多个，图3中以一个存储器920为例。
[0177]
存储器920作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本技术实施例任意实施例所述的一种基于强化学习的理想轮廓生成算法程序，以及本技术实施例任意实施例所述的一种基于强化学习的理想轮廓生成算法对应的程序指令/模块。存储器920可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据设备的使用所创建的数据等。此外，存储器920可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器920可进一步包括相对于处理器910远程设置的存储器，这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
[0178]
处理器910通过运行存储在存储器920中的软件程序、指令以及模块，从而执行设备的各种功能应用以及数据处理，即实现上述任一实施例所记载的一种基于强化学习的理想轮廓生成算法。
[0179]
本技术实施例还提供了一种计算机可读存储介质，其上储存有计算机程序，该计算机程序被处理器执行时实现上述任意一个实施例所述的一种基于强化学习的理想轮廓生成算法。
[0180]
本发明可采用在一个或多个其中包含有程序代码的存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。计算机可读储存介质包括永久性和非永久性、可移动和非可移动媒体，可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其它数据。计算机的存储介质的例子包括但不限于：相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其它类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其它内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其它光学存储、磁盒式磁带、磁带磁磁盘存储或其它磁性存储设备或任何其它非传输介质，可用于存储可以被计算设备访问的信息。
[0181]
以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，则本发明也意图包含这些改动和变形。
[0182]
以上实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，则本发明也意图包含这些改动和变形。

技术特征：
1.一种基于强化学习的理想轮廓生成算法，其特征在于，包括：获取正常产品的图像，对该图像进行轮廓标注，得到第一标注图像；通过遗传算法，对所述第一标注图像进行数据增强，获得一组标准模板图像，其中，所述标准模板图像包括所述第一标注图像以及多个第二标注图像，所述第二标注图像与所述第一标注图像中的轮廓具有角度偏转；获取待检测图像，对所述待检测图像进行轮廓数据标注，并与所述标准模板图像进行一一匹配；若匹配成功，则将匹配成功的所述标准模板图像中的轮廓数据作为所述待标注图像的理想轮廓数据。2.根据权利要求1所述的一种基于强化学习的理想轮廓生成算法，其特征在于，若匹配不成功，则还包括如下步骤：通过hed网络对标注后的所述待检测图像进行特征提取，得到hed轮廓数据，将所述hed轮廓数据打散为点列数据；将所述点列数据输入至drl模型，使用强化学习对轮廓趋势线按时序评估，得到所述待检测图像的理想轮廓数据。3.根据权利要求1所述的一种基于强化学习的理想轮廓生成算法，其特征在于，通过遗传算法，对所述第一标注图像进行数据增强，获得一组标准模板图像，具体包括：对所述第一标注图像固定x坐标，搜索x的定义域[x0,xl]；在x方向做划分：利用数学分析工具寻找到所有的不连续点x1,x2,...xm，构建出分段连续区间[x0,x1],[x1,x2],...,[xm-1,xm]；在每个分段连续区间内，根据所述第一标注图像中标注的轮廓，采取以下方式生成插入点：若实际轮廓(x，y)符合多项式公式，在每个区间邻域内取多个实际轮廓数据，根据公式y
n
＝a
n
x
n
+a
n-1
x
n-1
+...+a0得到yi,(i＝0...k)，此时插入点坐标为其中：其中k＝0，1，.....；若实际轮廓(x,y)所在的曲线光滑，此时x方向基函数定义为：构建插值式：其中f是原函数；k＝0，1，.....；获取在不同条件下对应的产品的图像数据，形成一组标准模板图像。
4.根据权利要求3所述的一种基于强化学习的理想轮廓生成算法，其特征在于，获得一组标准模板图像后，还包括：通过遗传算法，将所述标准模板图像的轮廓拆分为多段，每两张所述标准模板图像使用部分断进行交叉运算。5.根据权利要求4所述的一种基于强化学习的理想轮廓生成算法，其特征在于，通过遗传算法，将所述标准模板图像的轮廓拆分为多段，每两张所述标准模板图像使用部分断进行交叉运算后，还包括：在多段轮廓上进行反等运算，生成对应变形状态的产品仿真图像数据。6.根据权利要求2所述的一种基于强化学习的理想轮廓生成算法，其特征在于，将所述点列数据输入至drl模型，使用强化学习对轮廓趋势线按时序评估，得到所述待检测图像的理想轮廓数据后，还包括：将所述hed轮廓数据与所述真实理想轮廓进行求差运算，得出所述待检测图像的缺陷形状、长度、面积等矩向量。7.根据权利要求6所述的一种基于强化学习的理想轮廓生成算法，其特征在于，所述drl模型使用dqn算法，由神经网络与q-learning结合得到。8.一种生成理想轮廓的装置，其特征在于，包括：第一标注图像获取模块：获取正常产品的图像，对该图像进行轮廓标注，得到第一标注图像；标准模板拟合模块：通过遗传算法，对所述第一标注图像进行数据增强，获得一组标准模板图像，其中，所述标准模板图像包括所述第一标注图像以及多个第二标注图像，所述第二标注图像与所述第一标注图像中的轮廓具有角度偏转；图像轮廓匹配模块：获取待检测图像，对所述待检测图像进行轮廓数据标注，并与所述标准模板图像进行一一匹配；理想轮廓生成模块：若匹配成功，则将匹配成功的所述标准模板图像作为所述待标注图像的理想轮廓数据。9.一种计算机设备，其特征在于，包括：至少一个存储器以及至少一个处理器；所述存储器，用于存储一个或多个程序；当所述一个或多个程序被所述至少一个处理器执行，使得所述至少一个处理器实现如权利要求1至7任一项所述的一种基于强化学习的理想轮廓生成算法的步骤。10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的一种基于强化学习的理想轮廓生成算法的步骤。

技术总结
本发明涉及一种基于强化学习的理想轮廓生成算法、装置及存储介质。本发明所述的一种基于强化学习的理想轮廓生成算法包括：获取正常产品的图像，对该图像进行轮廓标注，得到第一标注图像；通过遗传算法，对所述第一标注图像进行数据增强，获得一组标准模板图像，其中，所述标准模板图像包括所述第一标注图像以及多个第二标注图像，所述第二标注图像与所述第一标注图像中的轮廓具有角度偏转；获取待检测图像，对所述待检测图像进行轮廓数据标注，并与所述标准模板图像进行一一匹配；若匹配成功，则将匹配成功的所述标准模板图像中的轮廓数据作为所述待标注图像的理想轮廓数据。本发明具有提高匹配度准确度，提高了生成标准图像模板的效率的优点。模板的效率的优点。模板的效率的优点。

技术研发人员：肖圣端张权王刚赵哲吕炎州袁亿新
受保护的技术使用者：广州市易鸿智能装备有限公司
技术研发日：2023.03.10
技术公布日：2023/7/22

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

一种基于强化学习的理想轮廓生成算法、装置及存储介质的制作方法

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

一种基于强化学习的理想轮廓生成算法、装置及存储介质的制作方法

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表