基于深度学习的小样本不平衡晶圆数据的缺陷分类方法

未命名 07-12 阅读：192 评论：0

1.本发明涉及半导体缺陷识别领域，尤其是涉及一种基于深度学习的小样本不平衡晶圆数据的缺陷分类方法。

背景技术：

2.半导体行业是现代电子信息社会高速发展的重要支撑。晶圆是制造半导体器件的基础性原材料，是指制作硅半导体电路所用的硅晶片，其原始材料是硅。晶圆图数据集通常是小样本不平衡的，即数据集中无缺陷的晶圆图以及不同缺陷的晶圆图的样本数量差异很大，部分缺陷样本数量很少，这主要是由于晶圆图不同缺陷的成因不同。而大部分机器学习的算法是基于数据集中各个类别的样本数基本平衡的假设上设计出来的。因此对于大多数的机器学习算法，在晶圆数据集的训练上往往存在着一些问题，因为缺陷样本的个数过于稀少，即使机器学习算法对少数类进行了错误的分类，对总体准确率的影响很微小。然而在实际应用的数据集分类问题中，少数类缺陷的分类准确率是尤为关键的，对少数类缺陷样本的错误分类远比对多数类正常样本的错误分类所产生的后果更为严重。

技术实现要素：

3.本发明的目的就是为了提供一种基于深度学习的小样本不平衡晶圆数据的缺陷分类方法，准确的分辨出晶圆图的缺陷种类。
4.本发明的目的可以通过以下技术方案来实现：
5.一种基于深度学习的小样本不平衡晶圆数据的缺陷分类方法，包括以下步骤：
6.步骤1)获取原始晶圆数据并进行预处理与降采样，所述原始晶圆数据包括有标记数据和未标记数据；
7.步骤2)对预处理后的晶圆数据集中的有标记数据划分深度学习网络的训练集和测试集；
8.步骤3)搭建深度学习网络并基于训练集和未标记数据进行训练，在测试集上进行分类准确率验证，得到半监督学习分类器；
9.步骤4)使用半监督学习分类器为晶圆数据集中的未标记数据生成伪标签，将伪标签数据与原训练集合并获得新的训练数据集，基于新的训练数据集重新训练深度学习网络，并在测试集上进行分类准确率验证，采用重新训练完成的深度学习网络进行缺陷分类。
10.所述原始晶圆数据中的有标记数据通过人工对芯片上的每一个晶颗粒体开展针测收集得到。
11.所述步骤1)包括以下步骤：
12.步骤11)对原始晶圆数据进行图像大小调整；
13.步骤12)对调整图像大小后的数据中的正常样本进行降采样。
14.所述降采样方法具体为：
15.按预配置的数量不断减少晶圆数据集中正常样本的数量，使用包含不同数量的正
常样本的数据集训练深度学习网络并进行缺陷分类，根据缺陷分类的准确率确定最终使用的晶圆数据集中正常样本的数量。
16.所述深度学习网络以残差网络resnet50为网络骨架构建，使用simclr自监督学习方法结合训练集以及未标记数据进行训练。
17.所述simclr自监督学习方法对深度学习网络进行训练包括以下步骤：
18.a)数据增强：对输入图像进行多样化的数据增强操作，生成一组新的图像；
19.b)特征提取器：使用一个深度卷积神经网络作为特征提取器，提取图像的特征表示；
20.c)对比损失：对特征向量进行标准化处理后，计算余弦相似度，从而利用对比损失函数，将同一图像的不同视角的特征向量进行比较，使得同一图像的特征向量更加接近，而不同图像的特征向量更加远离；
21.d)反向传播：将对比损失函数的反向传播误差作为梯度更新特征提取器的参数；
22.e)微调：利用学习到的特征向量进行微调，训练一个线性分类器或者卷积神经网络，完成具体的视觉任务。
23.所述数据增强操作包括随机裁剪、随机颜色扰动、随机旋转。
24.所述步骤4)包括以下步骤：
25.步骤4-1)伪标签生成：利用训练完成的半监督学习分类器，对未标记数据进行预测，并将预测结果作为伪标签加入训练集；
26.步骤4-2)重新训练模型：使用带有伪标签的训练集重新训练深度学习网络；
27.步骤4-3)重复步骤4-1)和步骤4-2)，并在测试集上进行分类准确率验证，直到满足停止训练的条件；
28.步骤4-4)输出：输出重新训练完成的深度学习网络，用于对晶圆数据进行缺陷分类检测。
29.所述步骤4-2)使用ldam-loss损失函数训练深度学习网络，其中，ldam-loss表达式如下：
[0030][0031][0032]
其中，l
ldam
为损失函数，zy是标签为y的样本x经过模型后得到的第y类的输出值，δy是取决于标签分布的边距，n为样本数，常数c为超参数，k是类别数量。
[0033]
所述停止训练的条件为达到预配置的最大迭代次数或测试集的分类准确率不再提升。
[0034]
与现有技术相比，本发明具有以下有益效果：
[0035]
(1)本发明使用simclr自监督学习方法提升半监督学习分类网络的性能，以降低深度学习网络的损失，提高分类准确率。
[0036]
(2)本发明使用半监督学习网络生成伪标签，改变晶圆数据集的样本分布，以提升对不平衡小样本的分类性能。
[0037]
(3)本发明使用优化损失函数ldam-loss降低了少数类样本的分类难度，提升了缺陷分类的准确率。
附图说明
[0038]
图1为本发明的方法流程图。
具体实施方式
[0039]
下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。
[0040]
本实施例提供一种基于深度学习的小样本不平衡晶圆数据的缺陷分类方法，如图1所示，包括以下步骤：
[0041]
步骤1)获取原始晶圆数据并进行预处理与降采样。
[0042]
本实施例中，原始晶圆数据包括有标记数据和未标记数据，有标记数据通过人工对芯片上的每一个晶颗粒体开展针测收集得到。
[0043]
步骤11)对原始晶圆数据进行图像大小调整；
[0044]
步骤12)对调整图像大小后的数据中的正常样本进行降采样：按预配置的数量不断减少晶圆数据集中正常样本的数量，使用包含不同数量的正常样本的数据集训练深度学习网络并进行缺陷分类，根据缺陷分类的准确率确定最终使用的晶圆数据集中正常样本的数量。
[0045]
步骤2)对预处理后的晶圆数据集中的有标记数据划分深度学习网络的训练集和测试集。
[0046]
小样本不平衡的数据集中包含大量的正常数据样本和极少量的不同缺陷数据样本，将数据集中的样本合并后打乱顺序，得到训练集和测试集，可以使得训练集和测试集中均包含不同的缺陷数据样本。
[0047]
步骤3)搭建深度学习网络并基于训练集和未标记数据进行训练，在测试集上进行分类准确率验证，得到半监督学习分类器。
[0048]
本实施例中，深度学习网络以残差网络resnet50为网络骨架构建，使用simclr自监督学习方法结合训练集以及未标记数据进行训练，用以降低深度学习网络的损失，提高分类准确率。深度学习网络架构如表1所示。
[0049]
表1
[0050]
[0051][0052]
simclr自监督学习方法对深度学习网络进行训练包括以下步骤：
[0053]
a)数据增强：对输入图像进行多样化的数据增强操作，如随机裁剪、随机颜色扰动、随机旋转等，生成一组新的图像；
[0054]
b)特征提取器：使用一个深度卷积神经网络作为特征提取器，提取图像的特征表示；
[0055]
c)对比损失：对特征向量进行标准化处理后，计算余弦相似度，从而利用对比损失函数，将同一图像的不同视角的特征向量进行比较，使得同一图像的特征向量更加接近，而不同图像的特征向量更加远离；
[0056]
d)反向传播：将对比损失函数的反向传播误差作为梯度更新特征提取器的参数；
[0057]
e)微调：利用学习到的特征向量进行微调，训练一个线性分类器或者卷积神经网络，完成具体的视觉任务。
[0058]
步骤4)使用半监督学习分类器为晶圆数据集中的未标记数据生成伪标签，即pseudo-label方法，将伪标签数据与原训练集合并获得新的训练数据集，基于新的训练数据集重新训练深度学习网络，并在测试集上进行分类准确率验证，采用重新训练完成的深度学习网络进行缺陷分类。
[0059]
步骤4-1)伪标签生成：利用训练完成的半监督学习分类器，对未标记数据进行预测，并将预测结果作为伪标签加入训练集。
[0060]
本步骤中，在得到伪标签数据后，可以使用置信度阈值筛选出高质量的伪标签数据，并仅将高质量的数据加入训练集参与训练。
[0061]
步骤4-2)重新训练模型：使用带有伪标签的训练集重新训练深度学习网络。
[0062]
本步骤使用ldam-loss损失函数训练深度学习网络，降低少数类缺陷样本的分类难度，提升缺陷分类的准确率。ldam-loss表达式如下：
[0063][0064]
[0065]
其中，l
ldam
为损失函数，zy是标签为y的样本x经过模型后得到的第y类的输出值，δy是取决于标签分布的边距，n为样本数，常数c为超参数，k是类别数量。
[0066]
步骤4-3)重复步骤4-1)和步骤4-2)，并在测试集上进行分类准确率验证，直到满足停止训练的条件(达到预配置的最大迭代次数或测试集的分类准确率不再提升)。
[0067]
步骤4-4)输出：输出重新训练完成的深度学习网络，用于对晶圆数据进行缺陷分类检测。
[0068]
以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员无需创造性劳动就可以根据本发明的构思做出诸多修改和变化。因此，凡本技术领域中技术人员依据本发明的构思在现有技术的基础上通过逻辑分析、推理、或者有限的实验可以得到的技术方案，皆应在权利要求书所确定的保护范围内。

技术特征：
1.一种基于深度学习的小样本不平衡晶圆数据的缺陷分类方法，其特征在于，包括以下步骤：步骤1)获取原始晶圆数据并进行预处理与降采样，所述原始晶圆数据包括有标记数据和未标记数据；步骤2)对预处理后的晶圆数据集中的有标记数据划分深度学习网络的训练集和测试集；步骤3)搭建深度学习网络并基于训练集和未标记数据进行训练，在测试集上进行分类准确率验证，得到半监督学习分类器；步骤4)使用半监督学习分类器为晶圆数据集中的未标记数据生成伪标签，将伪标签数据与原训练集合并获得新的训练数据集，基于新的训练数据集重新训练深度学习网络，并在测试集上进行分类准确率验证，采用重新训练完成的深度学习网络进行缺陷分类。2.根据权利要求1所述的一种基于深度学习的小样本不平衡晶圆数据的缺陷分类方法，其特征在于，所述原始晶圆数据中的有标记数据通过人工对芯片上的每一个晶颗粒体开展针测收集得到。3.根据权利要求1所述的一种基于深度学习的小样本不平衡晶圆数据的缺陷分类方法，其特征在于，所述步骤1)包括以下步骤：步骤11)对原始晶圆数据进行图像大小调整；步骤12)对调整图像大小后的数据中的正常样本进行降采样。4.根据权利要求1或3所述的一种基于深度学习的小样本不平衡晶圆数据的缺陷分类方法，其特征在于，所述降采样方法具体为：按预配置的数量不断减少晶圆数据集中正常样本的数量，使用包含不同数量的正常样本的数据集训练深度学习网络并进行缺陷分类，根据缺陷分类的准确率确定最终使用的晶圆数据集中正常样本的数量。5.根据权利要求1所述的一种基于深度学习的小样本不平衡晶圆数据的缺陷分类方法，其特征在于，所述深度学习网络以残差网络resnet50为网络骨架构建，使用simclr自监督学习方法结合训练集以及未标记数据进行训练。6.根据权利要求5所述的一种基于深度学习的小样本不平衡晶圆数据的缺陷分类方法，其特征在于，所述simclr自监督学习方法对深度学习网络进行训练包括以下步骤：a)数据增强：对输入图像进行多样化的数据增强操作，生成一组新的图像；b)特征提取器：使用一个深度卷积神经网络作为特征提取器，提取图像的特征表示；c)对比损失：对特征向量进行标准化处理后，计算余弦相似度，从而利用对比损失函数，将同一图像的不同视角的特征向量进行比较，使得同一图像的特征向量更加接近，而不同图像的特征向量更加远离；d)反向传播：将对比损失函数的反向传播误差作为梯度更新特征提取器的参数；e)微调：利用学习到的特征向量进行微调，训练一个线性分类器或者卷积神经网络，完成具体的视觉任务。7.根据权利要求6所述的一种基于深度学习的小样本不平衡晶圆数据的缺陷分类方法，其特征在于，所述数据增强操作包括随机裁剪、随机颜色扰动、随机旋转。8.根据权利要求1所述的一种基于深度学习的小样本不平衡晶圆数据的缺陷分类方
法，其特征在于，所述步骤4)包括以下步骤：步骤4-1)伪标签生成：利用训练完成的半监督学习分类器，对未标记数据进行预测，并将预测结果作为伪标签加入训练集；步骤4-2)重新训练模型：使用带有伪标签的训练集重新训练深度学习网络；步骤4-3)重复步骤4-1)和步骤4-2)，并在测试集上进行分类准确率验证，直到满足停止训练的条件；步骤4-4)输出：输出重新训练完成的深度学习网络，用于对晶圆数据进行缺陷分类检测。9.根据权利要求8所述的一种基于深度学习的小样本不平衡晶圆数据的缺陷分类方法，其特征在于，所述步骤4-2)使用ldam-loss损失函数训练深度学习网络，其中，ldam-loss表达式如下：loss表达式如下：其中，l
ldam
为损失函数，z
y
是标签为y的样本x经过模型后得到的第y类的输出值，δy是取决于标签分布的边距，n为样本数，常数c为超参数，k是类别数量。10.根据权利要求8所述的一种基于深度学习的小样本不平衡晶圆数据的缺陷分类方法，其特征在于，所述停止训练的条件为达到预配置的最大迭代次数或测试集的分类准确率不再提升。

技术总结
本发明涉及一种基于深度学习的小样本不平衡晶圆数据的缺陷分类方法，包括以下步骤：获取原始晶圆数据并进行预处理与降采样；对预处理后的晶圆数据集中的有标记数据划分深度学习网络的训练集和测试集；搭建深度学习网络并基于训练集和未标记数据进行训练，在测试集上进行分类准确率验证，得到半监督学习分类器；使用半监督学习分类器为晶圆数据集中的未标记数据生成伪标签，将伪标签数据与原训练集合并获得新的训练数据集，基于新的训练数据集重新训练深度学习网络，并在测试集上进行分类准确率验证，采用重新训练完成的深度学习网络进行缺陷分类。与现有技术相比，本发明具有分类准确性高等优点。类准确性高等优点。类准确性高等优点。

技术研发人员：李莉黄建川许佳
受保护的技术使用者：同济大学
技术研发日：2023.03.20
技术公布日：2023/7/7

版权声明

本文仅代表作者观点，不代表航空之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

飞行汽车 https://www.autovtol.com/

上一篇：一种电池箱振动试验装置及振动试验方法与流程 下一篇：一种简化SIPPHONE定制GUI的方法及装置与流程

基于深度学习的小样本不平衡晶圆数据的缺陷分类方法

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

基于深度学习的小样本不平衡晶圆数据的缺陷分类方法

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表