一种印刷质量监测大数据智能处理系统的制作方法
未命名
07-13
阅读:109
评论:0
1.本发明涉及数据处理技术领域,具体涉及一种印刷质量监测大数据智能处理系统。
背景技术:
2.药品包装涉及到产品安全的问题,因此包装质量要求非常严格。例如药检码、药品品牌生产商、产品的主治功能、不良反应等字体必须印刷清晰、印刷位置显眼、封装完整无破损、包装材质要求防水耐高温等。当前药品印刷质量监测一般采用标准模型对比、定义产品特征、两者混合判决三种方法,现有印刷质量检测方法已经相当成熟。
3.印刷过程中缺陷类型各式各样,对生产过程中缺陷数据的记录和收集是必不可少的,只有不断更新缺陷库才能获取更完善的特征库、更高质量的产品模板,以及通过对缺陷数据的分析处理,及时优化生产设备和工艺参数、修复故障等。但是在收集印刷缺陷的同时,还需要对生产线上各个工艺参数、设备状态进行获取、存储,才能结合具体缺陷进行相关分析,分析结果的可信度是建立在大量数据集验证之上的,但是随着时间的累积,缺陷数据越来越复杂,难以调取或集中分析某些相似设备、材料、工艺参数下,可能产生的缺陷类型,或者同一缺陷类型不同参数下的形成原因,造成生产设备的维修、工艺流程的优化工作比较低效,因此高效管理、处理历史缺陷数据以及其对应的多维设备、工艺数据对于生产企业而言是必不可少的。
技术实现要素:
4.本发明提供一种印刷质量监测大数据智能处理系统,以解决现有的问题。
5.本发明的一种印刷质量监测大数据智能处理系统采用如下技术方案:本发明提供了一种印刷质量监测大数据智能处理系统,所述系统包括:观测样本数据获取模块,获取所有观测样本数据;干预距离获取模块,根据时间属性的差异获得任意两个观测样本数据的干预因子,根据干预因子对观测样本数据的所有属性的差异进行干预,获得任意两个观测样本数据的干预距离;可疑离散点及层级获取模块,根据所有观测样本数据的平均干预距离的突变性,获得所有可疑离散点;获得每个可疑离散点的所有层级;最优聚簇数量获取模块,获得任意两个可疑离散点在匹配层级数范围中的任意一个匹配层级数时的所有组合方式;根据每种组合方式中未匹配的所有层级包含的观测样本数据的数量设置惩罚性,根据每种组合方式中所有对层级的匹配结果和惩罚项,计算每种组合方式的未匹配程度;将匹配层级数的所有种组合方式的未匹配程度中最小的未匹配程度记为匹配层级数的未匹配程度;将任意两个可疑离散点在匹配层级数范围内最小的未匹配程度对应的匹配层级数,记为任意两个可疑离散点的最优层级数;获得所有可疑离散点中每两个可疑离散点的最优层级数,将所有最优层级数中的众数作为最优聚簇数量;
软分类分析模块,根据最优聚类簇数量和所有观测样本数据的干预距离对所有观测样本数据进行聚类,获得若干个聚簇的聚簇中心,将所有聚簇的聚簇中心作为高斯混合模型的初始参数,获得软分类结果,根据软分类结果对缺陷产品进行工艺参数分析。
6.进一步地,所述根据时间属性的差异获得任意两个观测样本数据的干预因子,包括的具体步骤如下:干预因子的计算公式为:式中,表示第个观测样本数据和第个观测样本数据的干预因子,表示第个观测样本数据的时间属性,表示第个观测样本数据的时间属性,t表示生产企业流水线的执行周期,表示取绝对值。
7.进一步地,所述获得任意两个观测样本数据的干预距离,包括的具体步骤如下:根据干预因子对观测样本数据的所有属性的差异进行干预,获得任意两个观测样本数据的干预距离,干预距离的计算公式为:式中,表示第个观测样本数据和第个观测样本数据的干预距离,表示第个观测样本数据和第个观测样本数据的干预因子,n表示观测样本数据的属性数量,表示第个观测样本数据的第个属性,表示第个观测样本数据的第个属性,表示取最大值。
8.进一步地,所述获得所有可疑离散点,包括的具体步骤如下:对于任意一个观测样本数据,计算该观测样本数据与其他所有观测样本数据的干预距离,进而获得该观测样本数据与其他所有观测样本数据的干预距离的平均值,记为该观测样本数据的平均干预距离;得到所有观测样本数据的平均干预距离,将所有观测样本数据按照平均干预距离由大到小进行排序,生成手肘图,获取手肘图的最大拐点,将最大拐点之前的所有观测样本数据记为疑似离散点。
9.进一步地,所述获得每个可疑离散点的所有层级,包括的具体步骤如下:对于任意一个可疑离散点,将该可疑离散点与所有不属于可疑离散点的观测样本数据的干预距离组成的集合,记为该可疑离散点的干预距离集合,利用层次聚类法对该可疑离散点的干预距离集合进行层次聚类,获得该可疑离散点的所有层级,将该可疑离散点的每个层级的所有干预距离对应的所有观测样本数据,记为该可疑离散点的每个层级包含的所有观测样本数据;获得所有可疑离散点的所有层级,以及所有层级包含的所有观测样本数据。
10.进一步地,所述获得任意两个可疑离散点在匹配层级数范围中的任意一个匹配层
级数时的所有组合方式,包括的具体步骤如下:对于任意两个可疑离散点,将层级数量较小的可疑离散点记为可疑离散点a,将层级数量较大的可疑离散点记为可疑离散点b,将记为匹配层级数范围,将匹配层级数范围中的所有整数作为匹配层级数,其中,表示可疑离散点a的层级数量;对于任意一个匹配层级数r,将可疑离散点a的所有层级中的r个层级和可疑离散点b的所有层级中的r个层级进行两两组合,可能的组合方式共有种;每种组合方式组合中包括r对两两组合的层级,其中一个层级属于可疑离散点a,另一个层级属于可疑离散点b。
11.进一步地,所述计算每种组合方式的未匹配程度,包括的具体步骤如下:每种组合方式的未匹配程度的计算公式为:式中,表示可疑离散点a和可疑离散点b在匹配层级数r时的第i种组合方式的未匹配程度,表示匹配层级数r时的第i种组合方式中的第j对层级中属于可疑离散点a的层级包含的观测样本数据的数量,表示匹配层级数r时的第i种组合方式中的第j对层级中属于可疑离散点b的层级包含的观测样本数据的数量,表示匹配层级数r时的第i种组合方式中的第j对层级中属于可疑离散点a的层级,表示匹配层级数r时的第i种组合方式中的第j对层级中属于可疑离散点b的层级,表示层级和层级匹配的观测样本数据的数量,表示匹配层级数r时的第i种组合方式中可疑离散点a的没有被选择的所有层级包含的观测样本数据的数量,表示匹配层级数r时的第i种组合方式中可疑离散点b的没有被选择的所有层级包含的观测样本数据的数量,表示匹配层级数r时的第i种组合方式的惩罚项。
12.本发明的技术方案的有益效果是:当前利用高斯混合模型对多维度数据进行聚类时,存在初始参数获取难度较大的问题,且在对多维度数据进行聚类时,常规对多维度数据进行降维的可信度会随着维度增加而降低,因此,本发明对观测样本数据的属性差异程度化,计算距离,统一衡量多维度数据差异的量纲,结合生产需求和期望,通过时间属性的差异获得干预因子,根据干预因子对距离进行调整,获得干预距离,使时间属性相近即时序上相邻的观测样本数据在后续聚类过程中归属在同一聚簇中;针对利用现有算法对多维度数据进行聚类时,存在对离散点较为敏感和依赖人工阈值的问题,本发明通过所有观测样本数据与其他所有观测样本数据的平均干预距离的突变性筛选可疑离散点,并通过对可疑离散点的干预距离集合进行分层聚类和匹配,计算每个匹配层级数的每种组合方式的未匹配程度,获得使所有可疑离散点的干预距离集合的层级匹配一致性最高的最优聚类簇数量,将最优聚类簇数量作为k-means算法的最优超参数k,将干预距离作为k-means算法中的距
离,得到多个聚簇的聚簇中心,将所有聚簇的聚簇中心作为高斯混合模型的初始参数,获取软分类结果,实现在不依赖任何主观阈值的情况下,获取更准确的高斯混合模型的初始输入参数,使多维度数据聚类结果更为准确,提高了企业历史印刷质量数据利用率,为后续对缺陷形成因素进行相关分析提供便利和帮助。
附图说明
13.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
14.图1为本发明的一种印刷质量监测大数据智能处理系统的系统框图。
具体实施方式
15.为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种印刷质量监测大数据智能处理系统,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。
16.除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
17.下面结合附图具体的说明本发明所提供的一种印刷质量监测大数据智能处理系统的具体方案。
18.请参阅图1,其示出了本发明一个实施例提供的一种印刷质量监测大数据智能处理系统,该系统包括以下模块:观测样本数据获取模块101,用于根据企业药盒印刷缺陷的历史数据获得观测样本数据。
19.印刷过程包括印前控制、印刷控制、印后控制,无论是油墨印刷、覆膜、模切、粘盒等每一个单独的工艺流程,均存在不同程度的多种类型缺陷。在每个工艺流程中利用多传感器获取设备工艺参数,根据设备工艺参数识别缺陷,并生成生产监测日志,例如:利用图形传感器获取缺陷图样,利用温度传感器、湿度传感器、振动传感器、电流传感器等获取温度、湿度、振动频率、电流等设备工艺参数。
20.将所有生产监测日志存储在企业的服务器中,对于任意一个工艺流程,从企业的存储服务器中调取该工艺流程的所有生产监测日志中发生缺陷的生产监测日志,生产监测日志包括时间、缺陷类型、缺陷图样、各项设备参数、各工艺参数等,将每一条生产监测日志记为一条观测样本数据,观测样本数据为多维度数据,将观测样本数据的每个维度数据记为观测样本数据的属性。
21.干预距离获取模块102,用于根据时间属性的差异获得任意两个观测样本数据的干预因子,根据干预因子获得任意两个观测样本数据的干预距离。
22.需要说明的是,对企业的生产监测日志进行聚类,可以为后续对缺陷形成因素进
行相关分析提供便利和帮助,高斯混合模型是业界广泛使用的聚类算法,该方法使用高斯分布作为参数模型,并使用了期望最大算法进行训练,由于其可以将数据分解为若干服从高斯概率密度函数的分模型,因此即使对于多维度数据也具有较好的分类效果。高斯混合模型原本是一个生成模型,在高斯分布的假设之上输出符合高斯分布的样本数据,类似于在高斯分布的假设之上的预测过程,即高斯混合模型已知,输出样本。若样本已知,反过来利用高斯混合模型对样本进行聚类时,是逆过程,即样本已知,模型未知,那么逆过程的初始参数需要估测获取,高斯混合模型聚类与k-means聚类相似,但后者是只估计聚簇中心使周围点向其硬聚类,前者则会计算每个数据到簇中心的概率值,估计聚簇中心和协方差,属于软聚类。因此现有采用k-means算法获取参考类簇中心,作为高斯混合模型的初始参数,经过高斯混合模型不断迭代更新模型参数(均值、协方差、混合系数)直至满足最大期望,然后计算每个样本在哪个分模型中具有其最大后验概率,才能获取准确的分类结果。那么k-means算法k值、以及聚类中心的获取直接决定了高斯混合模型聚类初始参数的准确性,对最终聚类结果也具有重要影响。
23.1.根据时间属性的差异获得任意两个观测样本数据的干预因子。
24.需要说明的是,对多维度数据进行聚类之前,需要先对多维度数据进行降维,常规聚类算法的核心单位是数据之间的欧式距离,多维度数据之间的差异则利用欧式范数表示,但数据的维度越多的情况下,利用欧式范数衡量数据之间差异的准确度越低,因此,本实施例利用均方误差的思想对两个多维度数据点之间的差异进行降维。
25.进一步需要说明的是,缺陷产品是由于单个印刷工艺中印刷设备运行出现异常(例如抖动、电压不稳等)、或工艺参数设置欠佳(湿度、温度过高或过低)导致的,在同一或连续的批量印刷中这些参数设置相同或更为接近,那么时序相近的缺陷很可能存在一定共性问题,简单来说就是同一参数设置下,若出现两个缺陷产品,那么短时间内多个参数一致,只需要找异常参数即可,类似于控制变量分析。因此在对缺陷数据进行聚类时,期望是时序局部相近的缺陷产品,尽可能归类在相同的聚簇以便进行共性分析,那么在对多维度数据之间差异计算均方误差时,需要单独提出时序差异并提高局部时序相近的影响权重。
26.在本实施例中,根据任意两个观测样本数据的时间属性差异设置干预因子,干预因子的计算公式为:式中,表示第个观测样本数据和第个观测样本数据的干预因子,表示第个观测样本数据的时间属性,表示第个观测样本数据的时间属性,t表示生产企业流水线的执行周期,表示取绝对值。
27.2.根据干预因子获得任意两个观测样本数据的干预距离。
28.根据干预因子对观测样本数据的所有属性的差异进行干预,获得任意两个观测样本数据的干预距离,干预距离的计算公式为:
式中,表示第个观测样本数据和第个观测样本数据的干预距离,表示第个观测样本数据和第个观测样本数据的干预因子,n表示观测样本数据的属性数量,表示第个观测样本数据的第个属性,表示第个观测样本数据的第个属性,表示第个观测样本数据和第个观测样本数据的第个属性的差值,表示取最大值。
29.将两个观测样本数据的第个属性的差异程度化,程度化的目的是统一衡量多维度数据差异的量纲;第个观测样本数据和第个观测样本数据的时间属性差异越小,则干预因子越小;通过时间属性的差异获得干预因子,根据干预因子对两个观测样本数据的属性的差值进行调整,使时间属性相近即时序上相邻的观测样本数据的干预减小,即干预距离越小;也既是对于同一个执行周期内出现的多个观测样本数据,通过干预因子将观测样本数据的距离减小,引导其尽可能在后续聚类过程中归属在同一聚簇中,而当两个观测样本数据的时间属相差异较大,即两个观测样本数据在时序上相隔超过一个执行周期时,则干预因子等于1,此时,干预因子不会发挥干预作用。
30.本步骤的目的在于优化后续聚类时,多维度数据之间的差异度量值,利用均方误差同属性进行比对,并程度化统一差异量纲,相较于传统欧式范数度量多维度数据差异的方法,差异度量结果更为准确,并根据此前所述逻辑对聚类过程进行了监督,使局部时序相近的数据,尽可能划分在相同聚簇中,以实现本技术对缺陷记录数据的期望处理结果。
31.可疑离散点及层级获取模块103,用于根据所有观测样本数据的平均干预距离,获得所有可疑离散点,对每个可疑离散点的干预距离集合进行聚类,获得每个可疑离散点的所有层级。
32.需要说明的是,k-means唯一核心参数即k个初始聚类中心的获取,现有手肘法、轮廓系数法等获取一维数据的k值,基本均以最明显的拐点处k值进行判断,本质上大同小异。但是多维度数据无论如何避不开降维过程,因此必然由于误差产生较多离散点,而离散点又会导致出现很多失真的伪聚簇,在常规手肘法获取k值时,仅是通过评价聚类结果中各个聚簇从变化剧烈到稳定不再变化的节点作为最优k,但当数据量较大、维度复杂的多维度数据而言,离散点数量较多,那么该拐点很多情况下并不清晰,且离散点对k的迭代更为敏感、聚类结果波动更加剧烈,难以达到稳定状态,k值很难准确估计,因此有学者提出在多维度数据聚类中应用isodata算法,其思想为:当属于某个类别的样本数过少时把这个类别去除,当属于某个类别的样本数过多、分散程度较大时把这个类别分为两个子类别,通过不断的分裂合并,更新分类结果获取较优的k值。但其却需要设定较多主观阈值,例如聚簇结果方差阈值、不同聚簇中心之间最小距离阈值等。太过依赖阈值显然准确度并不高。因此,本实施例通过标记部分可疑离散点,使其不参与聚簇过程,避免其对聚类过程带来的干扰,并将可疑离散点作为最优k的获取途径,即赋予可以离散点“观察者”的身份,进行假设推导。
33.1.根据所有观测样本数据的平均干预距离,获得所有可疑离散点。
34.在本实施例中,对于任意一个观测样本数据,计算该观测样本数据与其他所有观测样本数据的干预距离,进而获得该观测样本数据与其他所有观测样本数据的干预距离的平均值,记为该观测样本数据的平均干预距离;平均干预距离越大的观测样本数据,越偏离所有的聚簇。
35.得到所有观测样本数据的平均干预距离,将所有观测样本数据按照平均干预距离由大到小进行排序,生成手肘图,获取手肘图的最大拐点,将最大拐点之前的所有观测样本数据记为疑似离散点。
36.获取手肘图的最大拐点为公知技术,此处不再进行赘述。
37.2.对每个可疑离散点的干预距离集合进行聚类,获得每个可疑离散点的所有层级。
38.需要说明的是,多维度数据总要经过降维,因此聚类结果中,或者说按任意聚类规则均会由于降维的误差影响产生一定数量的离散数据,但为了能保证离散数据可以稳定发挥作用,在前置操作中,可以在样本数据集中主动输入一批各项参数均偏离正常值异常数据。然后所有离散数据,对其他所有数据均距离较远,但假设其他数据中存在数个不确定的聚簇,离散数据与其他数据点的差异必然会分为数个层级。
39.在本实施例中,对于任意一个可疑离散点,将该可疑离散点与所有不属于可疑离散点的观测样本数据的干预距离组成的集合,记为该可疑离散点的干预距离集合,利用层次聚类法对该可疑离散点的干预距离集合进行层次聚类,获得该可疑离散点的所有层级,将该可疑离散点的每个层级的所有干预距离对应的所有观测样本数据,记为该可疑离散点的每个层级包含的所有观测样本数据;获得所有可疑离散点的所有层级,以及所有层级包含的所有观测样本数据。
40.最优聚簇数量获取模块104,用于根据任意两个可疑离散点的所有层级的匹配情况,获得任意两个可疑离散点的最优层级数,进而根据每两个可疑离散点的最优层级数,获得最优聚簇数量。
41.需要说明的是,对于所有可疑离散点而言,当所有可疑离散点的层级之间存在一致性,则存在一致性的层级数最高时,那么此时的层级数即是假设真实度最高的聚簇数量,也即是k-means算法的最优的超参数k,因此,需要对比所有可疑离散点的干预距离集合的层次聚类的结果,获取最优超参数k。
42.在本实施例中,对于任意两个可疑离散点,将层级数量较小的可疑离散点记为可疑离散点a,将层级数量较大的可疑离散点记为可疑离散点b,将之间的所有整数作为匹配层级数,其中,表示可疑离散点a的层级数量。
43.对于任意一个匹配层级数r,将可疑离散点a的所有层级中的r个层级和可疑离散点b的所有层级中的r个层级进行两两组合,可能的组合方式共有,其中,表示可疑离散点a的层级数量,表示可疑离散点b的层级数量,,,,表示阶乘。
44.对于每种组合方式,将组合方式中两两组合的第j对层级记为,其中,表示第j对层级中属于可疑离散点a的层级,表示第j对层级中属于可疑离散点b的层级。
45.计算每种组合方式的未匹配程度,计算公式为:式中,表示可疑离散点a和可疑离散点b在匹配层级数r时的第i种组合方式的未匹配程度,表示匹配层级数r时的第i种组合方式中的第j对层级中属于可疑离散点a的层级包含的观测样本数据的数量,表示匹配层级数r时的第i种组合方式中的第j对层级中属于可疑离散点b的层级包含的观测样本数据的数量,表示匹配层级数r时的第i种组合方式中的第j对层级中属于可疑离散点a的层级,表示匹配层级数r时的第i种组合方式中的第j对层级中属于可疑离散点b的层级,表示层级和层级匹配的观测样本数据的数量,表示匹配层级数r时的第i种组合方式中可疑离散点a的没有被选择的所有层级包含的观测样本数据的数量,表示匹配层级数r时的第i种组合方式中可疑离散点b的没有被选择的所有层级包含的观测样本数据的数量。
46.表示匹配层级数r时的第i种组合方式中的第j对层级中属于可疑离散点a的层级和属于可疑离散点b的层级中没有匹配的观测样本数据的总数量,该值越小,则两个可疑离散点的层级之间的匹配结果越好,那么代表匹配层级数r时两个可疑离散点的分层结果之间一致性越高;同时,为了避免匹配层级数r陷入局部最优,即匹配层级数r越小时,进行匹配的层级数量越少,则越可能出现层级匹配结果越好即一致性越高的情况,导致匹配层级数r收敛过早,因此增加惩罚项,即当匹配层级数r时,两个可疑离散点之间剩余未匹配的观测样本数据总量,即当最小达到收敛时,还必须保证剩余未匹配的观测样本数据的总量尽可能少。
47.计算所有种组合方式的未匹配程度,将匹配层级数r的所有种组合方式的未匹配程度中最小的未匹配程度记为匹配层级数r的未匹配程度;将可疑离散点a和可疑离散点b在范围内的所有匹配层级数的未匹配程度中最小的未匹配程度对应的匹配层级数,记为可疑离散点a和可疑离散点b的最优层级数;获得所有可疑离散点中每两个可疑离散点的最优层级数,将所有最优层级数中的众数作为最优聚簇数量。
48.软分类分析模块105,用于根据最优聚类簇数量和所有观测样本数据的干预距离对所有观测样本数据进行聚类,获得若干个聚簇的聚簇中心,将所有聚簇的聚簇中心作为
高斯混合模型的初始参数,获得软分类结果。
49.将最优聚类簇数量作为k-means算法中的超参数k,将干预距离作为k-means算法中的距离,运行k-means算法对所有观测样本数据进行聚类,获取聚类结果,即k个聚簇;将每个聚簇中的所有观测样本数据在每个维度上的均值作为每个聚簇的聚簇中心,得到多个聚簇的聚簇中心。
50.将所有聚簇的聚簇中心作为高斯混合模型的初始参数,通过高斯混合模型对所有观测样本数据进行迭代运算,计算每个观测样本数据在每个高斯分模型中的最大后验概率,获取软分类结果,即若干个类别。
51.本实施例旨在获取高斯混合模型的初始参数,为后续对缺陷形成因素进行相关分析提供便利和帮助,k-means算法和通过高斯混合模型进行软分类均为公知技术,此处不再进行赘述。
52.将每个类别的观测样本数据单独存放在一个服务器中,当企业针对缺陷产品进行工艺参数分析时,直接调取同一服务器中的观测样本数据进行分析即可,同一服务器中,多个观测样本数据的大部分参数均一致,那么出现两种不同异常缺陷的原因必然在不一致的参数当中,再结合相同缺陷的参数对比,即可粗糙获取不同缺陷的形成原因。
53.通过对观测样本数据进行软分类,并将每个类别的观测样本数据存储在单独的服务器中,每个服务器中存储的观测样本数据必然在某些方面存在一定共性,则对任意分析需求、工艺优化需求、质检需求进行分析时,直接调取同一服务器中的观测样本数据进行分析,极大程度提高了分析便利性和数据利用率。
54.本发明的系统包括观测样本数据获取模块、干预距离获取模块、可疑离散点及层级获取模块、最优聚簇数量获取模块和软分类分析模块。当前利用高斯混合模型对多维度数据进行聚类时,存在初始参数获取难度较大的问题,且在对多维度数据进行聚类时,常规对多维度数据进行降维的可信度会随着维度增加而降低,因此,本发明对观测样本数据的属性差异程度化,计算距离,统一衡量多维度数据差异的量纲,结合生产需求和期望,通过时间属性的差异获得干预因子,根据干预因子对距离进行调整,获得干预距离,使时间属性相近即时序上相邻的观测样本数据在后续聚类过程中归属在同一聚簇中;针对利用现有算法对多维度数据进行聚类时,存在对离散点较为敏感和依赖人工阈值的问题,本发明通过所有观测样本数据与其他所有观测样本数据的平均干预距离的突变性筛选可疑离散点,并通过对可疑离散点的干预距离集合进行分层聚类和匹配,计算每个匹配层级数的每种组合方式的未匹配程度,获得使所有可疑离散点的干预距离集合的层级匹配一致性最高的最优聚类簇数量,将最优聚类簇数量作为k-means算法的最优超参数k,将干预距离作为k-means算法中的距离,得到多个聚簇的聚簇中心,将所有聚簇的聚簇中心作为高斯混合模型的初始参数,获取软分类结果,实现在不依赖任何主观阈值的情况下,获取更准确的高斯混合模型的初始输入参数,使多维度数据聚类结果更为准确,提高了企业历史印刷质量数据利用率,为后续对缺陷形成因素进行相关分析提供便利和帮助。
55.以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
技术特征:
1.一种印刷质量监测大数据智能处理系统,其特征在于,所述系统包括:观测样本数据获取模块,获取所有观测样本数据;干预距离获取模块,根据时间属性的差异获得任意两个观测样本数据的干预因子,根据干预因子对观测样本数据的所有属性的差异进行干预,获得任意两个观测样本数据的干预距离;可疑离散点及层级获取模块,根据所有观测样本数据的平均干预距离的突变性,获得所有可疑离散点;获得每个可疑离散点的所有层级;最优聚簇数量获取模块,获得任意两个可疑离散点在匹配层级数范围中的任意一个匹配层级数时的所有组合方式;根据每种组合方式中未匹配的所有层级包含的观测样本数据的数量设置惩罚性,根据每种组合方式中所有对层级的匹配结果和惩罚项,计算每种组合方式的未匹配程度;将匹配层级数的所有种组合方式的未匹配程度中最小的未匹配程度记为匹配层级数的未匹配程度;将任意两个可疑离散点在匹配层级数范围内最小的未匹配程度对应的匹配层级数,记为任意两个可疑离散点的最优层级数;获得所有可疑离散点中每两个可疑离散点的最优层级数,将所有最优层级数中的众数作为最优聚簇数量;软分类分析模块,根据最优聚类簇数量和所有观测样本数据的干预距离对所有观测样本数据进行聚类,获得若干个聚簇的聚簇中心,将所有聚簇的聚簇中心作为高斯混合模型的初始参数,获得软分类结果,根据软分类结果对缺陷产品进行工艺参数分析。2.根据权利要求1所述的一种印刷质量监测大数据智能处理系统,其特征在于,所述根据时间属性的差异获得任意两个观测样本数据的干预因子,包括的具体步骤如下:干预因子的计算公式为:式中,表示第个观测样本数据和第个观测样本数据的干预因子,表示第个观测样本数据的时间属性,表示第个观测样本数据的时间属性,t表示生产企业流水线的执行周期,表示取绝对值。3.根据权利要求1所述的一种印刷质量监测大数据智能处理系统,其特征在于,所述获得任意两个观测样本数据的干预距离,包括的具体步骤如下:根据干预因子对观测样本数据的所有属性的差异进行干预,获得任意两个观测样本数据的干预距离,干预距离的计算公式为:式中,表示第个观测样本数据和第个观测样本数据的干预距离,表示第个观测样本数据和第个观测样本数据的干预因子,n表示观测样本数据的属性数量,表示第个观测样本数据的第个属性,表示第个观测样本数据的第个属性,
表示取最大值。4.根据权利要求1所述的一种印刷质量监测大数据智能处理系统,其特征在于,所述获得所有可疑离散点,包括的具体步骤如下:对于任意一个观测样本数据,计算该观测样本数据与其他所有观测样本数据的干预距离,进而获得该观测样本数据与其他所有观测样本数据的干预距离的平均值,记为该观测样本数据的平均干预距离;得到所有观测样本数据的平均干预距离,将所有观测样本数据按照平均干预距离由大到小进行排序,生成手肘图,获取手肘图的最大拐点,将最大拐点之前的所有观测样本数据记为疑似离散点。5.根据权利要求1所述的一种印刷质量监测大数据智能处理系统,其特征在于,所述获得每个可疑离散点的所有层级,包括的具体步骤如下:对于任意一个可疑离散点,将该可疑离散点与所有不属于可疑离散点的观测样本数据的干预距离组成的集合,记为该可疑离散点的干预距离集合,利用层次聚类法对该可疑离散点的干预距离集合进行层次聚类,获得该可疑离散点的所有层级,将该可疑离散点的每个层级的所有干预距离对应的所有观测样本数据,记为该可疑离散点的每个层级包含的所有观测样本数据;获得所有可疑离散点的所有层级,以及所有层级包含的所有观测样本数据。6.根据权利要求1所述的一种印刷质量监测大数据智能处理系统,其特征在于,所述获得任意两个可疑离散点在匹配层级数范围中的任意一个匹配层级数时的所有组合方式,包括的具体步骤如下:对于任意两个可疑离散点,将层级数量较小的可疑离散点记为可疑离散点a,将层级数量较大的可疑离散点记为可疑离散点b,将记为匹配层级数范围,将匹配层级数范围中的所有整数作为匹配层级数,其中,表示可疑离散点a的层级数量;对于任意一个匹配层级数r,将可疑离散点a的所有层级中的r个层级和可疑离散点b的所有层级中的r个层级进行两两组合,可能的组合方式共有种;每种组合方式组合中包括r对两两组合的层级,其中一个层级属于可疑离散点a,另一个层级属于可疑离散点b。7.根据权利要求1所述的一种印刷质量监测大数据智能处理系统,其特征在于,所述计算每种组合方式的未匹配程度,包括的具体步骤如下:每种组合方式的未匹配程度的计算公式为:式中,表示可疑离散点a和可疑离散点b在匹配层级数r时的第i种组合方式的未匹配程度,表示匹配层级数r时的第i种组合方式中的第j对层级中属于可疑离散点a的层级包含的观测样本数据的数量,表示匹配层级数r时的第i种组合方式中的第j对层级中属于可疑离散点b的层级包含的观测样本数据的数量,
表示匹配层级数r时的第i种组合方式中的第j对层级中属于可疑离散点a的层级,表示匹配层级数r时的第i种组合方式中的第j对层级中属于可疑离散点b的层级,表示层级和层级匹配的观测样本数据的数量,表示匹配层级数r时的第i种组合方式中可疑离散点a的没有被选择的所有层级包含的观测样本数据的数量,表示匹配层级数r时的第i种组合方式中可疑离散点b的没有被选择的所有层级包含的观测样本数据的数量,表示匹配层级数r时的第i种组合方式的惩罚项。
技术总结
本发明涉及数据处理技术领域,具体涉及一种印刷质量监测大数据智能处理系统,包括:根据干预因子获得任意两个观测样本数据的干预距离;获得每个可疑离散点的所有层级;获得任意两个可疑离散点在匹配层级数范围中的任意一个匹配层级数时的所有组合方式;根据每种组合方式中所有对层级的匹配结果和惩罚项,计算每种组合方式的未匹配程度;获得每两个可疑离散点的最优层级数,根据最优聚类簇数量和干预距离对所有观测样本数据进行聚类,获得若干个聚簇的聚簇中心,将所有聚簇的聚簇中心作为高斯混合模型的初始参数,获得软分类结果。本发明获取更准确的初始输入参数,使多维度数据聚类结果更准确,提高了企业历史印刷质量数据利用率。用率。用率。
技术研发人员:张永财
受保护的技术使用者:佛山市力天包装印刷有限公司
技术研发日:2023.05.26
技术公布日:2023/7/12
版权声明
本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
飞行汽车 https://www.autovtol.com/
上一篇:一种沥青公路养护设备的制作方法 下一篇:一种汽车后备箱置物架的制作方法
