材料性能预测模型的构建方法、材料性能预测方法和系统

未命名 08-13 阅读:126 评论:0


1.本发明属于材料科学技术领域,具体涉及一种材料性能预测模型的构建方法、材料性能预测方法和系统。


背景技术:

2.新材料的开发是材料科学的重要任务。而对于各种复合材料的开发,对配方进行改进并测试各种配方下材料的性能是一项重要的工作。然而,现有的材料配方优化大多采用试错法,在复合材料的配方中组分较多的情况下,这个改进的过程需要设置较多的实验组,进行大量的材料制备、测试和数据处理工作,工作量较大且成本较高,这大大限制了相关材料的开发工作。
3.目前,机器学习的发展使得该技术已经应用于各技术领域,能够实现对各种任务的预测。为了解决材料开发过程中的效率和成本问题,在材料性能的机器学习预测方面,也已经有相关的研究。例如,中国发明专利申请“cn202010415084.0一种基于深度学习的材料性能预测方法”提供了一种利用深度学习模型预测材料性能的方法。
4.然而,材料性能预测模型的训练需要使用较多的训练数据,这意味着在模型训练阶段构建训练集时,也需要大量的材料制备、测试和数据处理工作,这不利于材料性能预测模型的应用。因而,如何在构建训练集的过程中,选择小样本量的能够包含更多信息的样本实验组,从而兼顾模型训练过程中合理的工作量和较高的模型性能,这是本领域亟需解决的问题。


技术实现要素:

5.针对现有技术的问题,本发明提供一种材料性能预测模型的构建方法、材料性能预测方法和系统,目的在于实现建模过程中利用小样本量构建高预测性能模型的目的。
6.一种材料性能预测模型的构建方法,包括如下步骤:
7.步骤1,采集已标记的样本集;构建未标记样本空间;
8.步骤2,基于已标记的样本集构建若干个训练集;
9.步骤3,利用若干个训练集训练机器学习模型,得到若干个预测模型;
10.步骤4,采用若干个预测模型对未标记样本空间内的样本进行预测,对于每一个未标记样本获得若干预测值,根据预测值的不确定度选择下一轮需要标记的样本;
11.步骤5,标记步骤4选择的样本,并将标记后的样本加入已标记的样本集;将步骤4选择的样本剔除未标记样本空间;
12.步骤6,重复步骤2至步骤5若干次,直到步骤3得到的至少一个预测模型的预测性能符合要求,选择预测性能符合要求的预测模型作为最终的材料性能预测模型a。
13.优选的,所述样本是特定实验组制备得到的烧蚀材料,所述预测模型的输出为烧蚀材料的性能数据。
14.优选的,步骤1中,初始的已标记的样本集中,样本采用均匀设计的方式进行实验
组的设计。
15.优选的,步骤2中,构建若干个训练集的方法是对所述已标记的样本集进行若干次有放回的随机抽样。
16.优选的,步骤4中,预测值的不确定度根据标准差进行判断,选择预测值的标准差最大的若干个样本作为所述下一轮需要标记的样本。
17.优选的,还包括:
18.步骤7,对已标记的样本集进行虚拟样本生成,扩充所述已标记的样本集,采用扩充后的已标记的样本集训练机器学习模型,得到材料性能预测模型b。
19.优选的,所述虚拟样本生成的方法为整体趋势扩散方法。
20.优选的,所述虚拟样本生成的数量为150个。
21.优选的,所述机器学习模型的算法为自适应提升、极限提升、随机森林或梯度提升决策树。
22.本发明还包括一种材料性能预测方法,包括如下步骤:
23.步骤a,输入材料的实验组;
24.步骤b,采用权利要利要求1-7任一项所述的材料性能预测模型的构建方法得到的材料性能预测模型a或材料性能预测模型b对所述材料的实验组进行计算,得到按照该实验组制备所得材料的性能的预测结果。
25.本发明还提供一种材料性能预测系统,包括:
26.输入模块,用于输入材料的配方;
27.计算模块,用于采用上述材料性能预测模型的构建方法得到的材料性能预测模型a或材料性能预测模型b对所述材料的配方进行计算,得到材料性能的预测结果;
28.输出模块,用于输出所述预测结果。
29.本发明还包括一种计算机可读存储介质,其上存储有:用于实现上述材料性能预测模型的构建方法,或上述材料性能预测方法的计算机程序。
30.本发明中,所述“实验组”是指由材料的若干参数构成的实验条件的集合,所述参数可以是材料的配方、合成工艺参数等。
31.本发明针对材料开发相关实验受限于工作量和成本使得数据样本量较小的问题,提供了一种基于主动学习采样增加标记样本,进而在小样本量前提下获得高性能预测模型的方法。本发明方法能够有效兼顾模型训练过程中合理的工作量和较高的模型性能。
32.在优选方案中,本发明还利用虚拟样本生成的方法扩充训练数据,进一步提高模型的预测性能。
33.因而,本发明具有很好的应用前景。
34.显然,根据本发明的上述内容,按照本领域的普通技术知识和惯用手段,在不脱离本发明上述基本技术思想前提下,还可以做出其它多种形式的修改、替换或变更。
35.以下通过实施例形式的具体实施方式,对本发明的上述内容再作进一步的详细说明。但不应将此理解为本发明上述主题的范围仅限于以下的实例。凡基于本发明上述内容所实现的技术均属于本发明的范围。
附图说明
36.图1为实施例1中主动学习的流程示意图;
37.图2为实验例1中基于初始的已标注的数据集建立的预测模型在验证集上的性能;
38.图3为实验例1中不同虚拟样本生成量下的gbdt性能。
具体实施方式
39.需要特别说明的是,实施例中未具体说明的数据采集、传输、储存和处理等步骤的算法,以及未具体说明的硬件结构、电路连接等均可通过现有技术已公开的内容实现。
40.实施例1烧蚀材料性能预测模型的构建方法
41.本实施例是针对烧蚀材料的预测模型的构建方法,具体如下:
42.一、实验案例
43.本实施例以组分为高温硫化固体硅橡胶、白炭黑、3mm短切碳纤维以及碳化硅等的材料为例,令样本在4mw/m2的氧乙炔烧蚀测试后的质量烧蚀率为预测模型的输出,三种填料(白炭黑、3mm短切碳纤维以及碳化硅)的用量为输入。质量烧蚀率的计算公式为:
[0044][0045]
其中,δm为烧蚀材料样品在烧蚀前的质量和烧蚀后剥离炭层的质量差,t为烧蚀的时间,本实验例中均为30s。
[0046]
二、方法流程
[0047]
本实验例包括如下步骤:
[0048]
步骤1,采集已标记的样本集;构建未标记样本空间;
[0049]
步骤2,基于已标记的样本集构建若干个训练集;
[0050]
步骤3,利用若干个训练集训练机器学习模型,得到若干个预测模型;
[0051]
步骤4,采用若干个预测模型对未标记样本空间内的样本进行预测,对于每一个未标记样本获得若干预测值,根据预测值的不确定度选择下一轮需要标记的样本;
[0052]
步骤5,标记步骤4选择的样本,并将标记后的样本加入已标记的样本集;将步骤4选择的样本剔除未标记样本空间;
[0053]
步骤6,重复步骤2至步骤5若干次,直到步骤3得到的至少一个预测模型的预测性能符合要求,选择预测性能符合要求的预测模型作为最终的材料性能预测模型a。
[0054]
步骤7,对已标记的样本集进行虚拟样本生成,扩充所述已标记的样本集,采用扩充后的已标记的样本集训练机器学习模型,得到材料性能预测模型b。
[0055]
具体的,已标记的样本集由系列实验组制成的烧蚀材料组成,这些烧蚀材料进行了上述质量烧蚀率的检测,该检测结果即为标记。
[0056]
已标记的样本集和未标记样本空间中,实验组的设计采用均匀设计。
[0057]
均匀设计是仅考虑实验变量在变量空间内的均匀分散性的实验组设计方法,基于其选择的数据点建立的回归方程可能具有较好的泛性,因此可能实现通过较少实验发现有效的目标。例如,对本实施例探讨的问题来说,探究三个变量、十个水平的问题时,全面实验需要进行103次,而均匀实验则可以考虑采用u
10
(103)的均匀设计表进行实验。其中,u表示“均匀表”;“10”代表10水平,即十组实验;“3”表示有3个因素,即3种变量。这样,仅通过10组
在样本空间中均匀分布的样本的研究就可能会达到预期的效果。
[0058]
在没有先验知识的条件下,均匀设计选择的样本可能最具代表性,因此,在实施例中先选用u
10
(103)的设计制备了构建预测模型的初始的已标记的样本集所需的样本。
[0059]
本实施例中,对未标记样本空间的构建如下:对二氧化硅、短切碳纤维以及碳化硅的用量(phr)分别在5-50、2-20以及2-20的范围里以2.5、1、1的步长进行划分,则形成6859个样本组成的样本空间,除去均匀设计的十组样本,还余6849个未标记样本。
[0060]
仅使用均匀设计建立的回归方程很可能不满足本实施例对于预测模型的要求,这是因为:不同已标注样本的数据点的存在对模型性能的影响不同,如果要尽可能少地开展实验来捕捉变量(二氧化硅、短切碳纤维以及碳化硅的用量)与结果(质量烧蚀率)间的关系,就应该选择对模型建立贡献尽可能大的数据点。因此,本实施例通过步骤2-步骤6的主动学习框架算法迭代选择新的“有意义”的实验组,该主动学习框架能更有效地实现利用尽可能少的实验工作建立起符合预测性能要求的预测模型,即得材料性能预测模型a。
[0061]
本实施例采用基于池的策略,其流程如图1所示:在开始时,使用少量已标记的样本(在本实施例中,即指均匀设计的样本)建立起特征与标签关系的初步的预测模型,然后基于该预测模型在未标记样本空间(样本池)中进行搜索,寻找到最可能优化模型的样本或样本集。这些被选中的样本交由人工标记(在本实施例中即为进行烧蚀材料的制备和检测实验,采集真实的质量烧蚀率数据),从未标记样本空间中移除的同时加入到已标记的样本集中,已标记的样本集得到更新后,重新训练预测模型,然后基于更新的预测模型在剩余的未标记样本空间中寻找贡献可能最大的样本。重复上述过程,直到得到满足需求的预测模型。
[0062]
如何在未标记样本空间中选到合适的样本是关键的步骤。本实施例采用未标记样本的不确定度进行选择。一个样本的不确定度越大,该样本可能就蕴含更多的信息。因此,利用不确定度采样,可以实现模型性能的迅速改善。
[0063]
基于不确定性的采样方法主要包括:在整个未标记样本空间中选择预测值不确定度(方差)最大者作为下一轮需要标记的样本。
[0064]
本实施例可选择任何现有的机器学习算法构建预测模型。例如:自适应提升(adaptive boosting,adaboost)、极限提升(extreme gradient boosting,xgboost)、随机森林(random forest,rf)或梯度提升决策树(gradientboosting decision tree,gbdt)。本实施例选择上述四种模型,令四种模型在验证集上的平均绝对百分比误差(mape)为评估指标,每一轮对各模型进行评估,性能最优者即被用于下一轮新样本的采集。各模型的主要参数的调节过程展示在下表,且后续每轮调参均遵循此方式。
[0065]
表1模型的超参数即调剂方式
[0066][0067]
步骤4中,采样(选择下一轮需要标记的样本)的具体方式为:在含n个样本的已标记的样本集中有放回的随机抽取n个样本,形成一个样本子集,基于这个样本子集,使用最优算法建立预测模型,并利用此预测模型对未标记样本空间的未标记样本进行赋值。该过程重复1000次,对于每个未标记样本,可以获得其1000次标记预测值的平均值μ及标准差σ。其中,σ最大的两个样本被选为下一轮人工标记的样本。
[0068]
步骤7中,可进一步进行虚拟样本生成。
[0069]
在很多时候,材料的制备和表征在时间等方面的成本太高以至于难以获取足够的样本数据。能用于训练的数据集可能仅包含50甚至30个以下的样本,这样的样本集被称为小数据集。因此,可能在主动学习结束后,真实样本的数目还是较小,需要采取措施进一步充分利用小数据集。虚拟样本生成是根据当前的小样本可能隐含的有效信息,生成大量的虚拟样本,借由这些样本的均值来改善模型的性能,是一种有效的利用小数据集的方式。因此采用虚拟样本生成的方式进一步提高本实施例的预测模型的性能。
[0070]
(1)样本特征和标签域的扩展
[0071]
为了获取数据在空间中可能的趋势,需要合理地对样本在空间中的分布进行预测,因此在虚拟样本生成之前首先对样本输入的范围进行一定的扩展。在本实施例中,主要采用整体趋势扩散方法,先计算得到小数据集(即步骤6之后最新的已标记的样本集)第p列特征x
p
的均值x
p-ave
,该均值又被记为cl,然后将该列的数据分为大于cl的部分和小于cl的部分;接着,选取两部分的极值,即所有数据的最大值x
max
和最小值x
min
分别作为该列特征向更高值和更低值扩展的中心;然后,求解两部分各自的平均数。最终,可以通过下列公式得到扩展后的上界(ub)和下界(lb):
[0072][0073][0074]
其中,x
max
和x
min
则分别为特征输入值的最大和最小值;和则分别为大于和小于平均值的样本占比;d
u-ave
和d
l-ave
分别为x
max
与大于cl的样本的均值之间的距离,以及x
min
与小于cl的样本的平均值之间的距离,nu和n
l
为分别指大于cl的样本数和小于cl的样本数。
[0075]
(2)虚拟样本的生成
[0076]
本案例中根据样本在空间里的分布情况实现数据生成虚拟样本。将某特征经扩展后总的取值范围划分为下扩展区域(下边界和实际最小值之间的区域)、真实数据区域和上扩展区域(实际最大值和上边界之间的区域),各自的跨度分别设为l1、l2以及l3,假设需要生成n个虚拟样本,则根据对总区域的占比,各区域生成样本数量为:
[0077]
n=n
l1
+n
l2
+n
l3
[0078][0079][0080][0081]
式中,n
l1
、n
l2
和n
l3
分别为l1、l2以及l3生成样本的数量。
[0082]
对每一个输入,在其扩展区域里采用均匀分布生成虚拟数据,在观测值区域里使用三角分布产生虚拟数据。具体而言,对于扩展区域,设一个取值在(0,1]的服从均匀分布的随机数r,则在上、下扩展区域上产生的虚拟数据的计算方式如下,分别重复n
l3
和n
l1
次:
[0083]
x
upper
=x
max
+r*l3
[0084]
x
lower
=x
min-r*l1
[0085]
式中,x
upper
为在l3区域生成的一个特征值,x
lower
为在l1区域生成的一个特征值。
[0086]
对于要在已知观测值范围内生成的虚拟数据,根据下式计算其取值:
[0087][0088]
式中,ub和lb为前文所述的扩展后的上边界(upper boundary)和下边界(lower boundary),cl为前文所提及的所有样本在特征的平均值。重复n
l2
次,获得在观测值范围内的虚拟样本的取值。
[0089]
将通过上述方法生成的虚拟数据和主动学习结束时的真实数据混合,形成混合数据集,利用混合数据集,重新训练模型,得到材料性能预测模型b,并在验证集上检验其性能。
[0090]
实施例2材料性能预测方法和系统
[0091]
本发明的方法包括如下步骤:
[0092]
步骤a,输入材料的配方(二氧化硅、短切碳纤维以及碳化硅的用量);
[0093]
步骤b,采用实施例1得到的材料性能预测模型a或材料性能预测模型b对所述材料的配方进行计算,得到材料性能(质量烧蚀率)的预测结果。
[0094]
用于实现上述方法的系统包括:
[0095]
输入模块,用于输入材料的配方;
[0096]
计算模块,用于采用材料性能预测模型a或材料性能预测模型b对所述材料的配方进行计算,得到材料性能的预测结果;
[0097]
输出模块,用于输出所述预测结果。
[0098]
下面通过实验对本发明的技术方案做进一步的说明。
[0099]
实验例1预测模型构建过程中模型性能的优化情况
[0100]
本实验例中,采用实施例1的方法进行预测模型的构建。
[0101]
具体实验条件及实验结果如下:
[0102]
一、实验原料
[0103]
表2实验原料及规格
[0104][0105]
二、样品的制备
[0106]
将称量好的乙烯基硅橡胶(100phr)、白炭黑、碳化硅按顺序加入到双辊开炼机混合15min。向混合体系中加入交联剂dcp(2phr),最后加入碳纤维并继续混合5min出片。将混合好的样品填入模具,转移至平板硫化机并在175℃、10mpa的条件下热压20min。随后将模具在常温、10mpa的压力下冷压5min取出。取出样品,置于室温12h。将压得的硅橡胶复合材
料板裁成厚度为10mm、直径为30mm的圆柱形样品留用。
[0107]
三、样品配方(注:每一个配方均为一个样本的实验组)
[0108]
表3均匀设计样本的配方
[0109][0110][0111]
表4验证集样本的配方
[0112][0113]
表5步骤4采样的配方
[0114][0115]
四、实验结果
[0116]
1、主动学习的实验结果
[0117]
经过参数优化,在均匀设计的初始已标记的数据集上,各模型性能的评估其结果如图2所示,在验证集上表现最好的是gbdt。
[0118]
以后的三轮步骤2-步骤6的实验,每一轮得到的预测模型的表现被罗列在下表中。可以观察到,尽管只进行了三轮主动学习,各模型在验证集上的mape已发生了较大幅度的降低。而且,gbdt的表现明显由于其它算法。
[0119]
表6各轮各模型在验证集上的mape
[0120][0121]
2、虚拟样本生成技术的实验结果
[0122]
gbdt经过三轮主动学习后,已在验证集上达到约4%的绝对百分比误差,一般来说,模型误差为10%及以下是较多文献中为虚拟样本的赋值的标准,因此本实验例使用gbdt进行虚拟样本生成。对生成虚拟样本数目为50、100、150、
……
、500的情况进行了探讨。继续用gbdt训练各自形成的混合数据集,经过参数优化后,各虚拟样本生成量下的gbdt在验证集上的mape如图3所示。可以看到,虚拟数据生成量为50和100时,gbdt的性能下降,但随着虚拟样本生成量的增加,gbdt的性能获得了改善,在引入150个虚拟样本时,mape的降幅最大,为15.85%。这表明在虚拟样本数量为150个时,能够最大程度地提升预测模型的性能。
[0123]
通过上述实施例和实验例可以看到,本发明利用均匀设计-主动学习采样-虚拟样本生成的框架,有策略地选择需要制备的样品,实现用较少的样本建立有效的材料性能预测模型,具有很好的应用前景。

技术特征:
1.一种材料性能预测模型的构建方法,其特征在于,包括如下步骤:步骤1,采集已标记的样本集;构建未标记样本空间;步骤2,基于已标记的样本集构建若干个训练集;步骤3,利用若干个训练集训练机器学习模型,得到若干个预测模型;步骤4,采用若干个预测模型对未标记样本空间内的样本进行预测,对于每一个未标记样本获得若干预测值,根据预测值的不确定度选择下一轮需要标记的样本;步骤5,标记步骤4选择的样本,并将标记后的样本加入已标记的样本集;将步骤4选择的样本剔除未标记样本空间;步骤6,重复步骤2至步骤5若干次,直到步骤3得到的至少一个预测模型的预测性能符合要求,选择预测性能符合要求的预测模型作为最终的材料性能预测模型a。2.按照权利要求1所述的材料性能预测模型的构建方法,其特征在于:所述样本是特定实验组制备得到的烧蚀材料,所述预测模型的输出为烧蚀材料的性能数据。3.按照权利要求1所述的材料性能预测模型的构建方法,其特征在于:步骤1中,初始的已标记的样本集中,样本采用均匀设计的方式进行实验组的设计;和/或,步骤2中,构建若干个训练集的方法是对所述已标记的样本集进行若干次有放回的随机抽样;和/或,步骤4中,预测值的不确定度根据标准差进行判断,选择预测值的标准差最大的若干个样本作为所述下一轮需要标记的样本。4.按照权利要求1所述的材料性能预测模型的构建方法,其特征在于,还包括:步骤7,对已标记的样本集进行虚拟样本生成,扩充所述已标记的样本集,采用扩充后的已标记的样本集训练机器学习模型,得到材料性能预测模型b。5.按照权利要求4所述的材料性能预测模型的构建方法,其特征在于:所述虚拟样本生成的方法为整体趋势扩散方法。6.按照权利要求4所述的材料性能预测模型的构建方法,其特征在于:所述虚拟样本生成的数量为150个。7.按照权利要求1所述的材料性能预测模型的构建方法,其特征在于:所述机器学习模型的算法为自适应提升、极限提升、随机森林或梯度提升决策树。8.一种材料性能预测方法,其特征在于,包括如下步骤:步骤a,输入材料的实验组;步骤b,采用权利要利要求1-7任一项所述的材料性能预测模型的构建方法得到的材料性能预测模型a或材料性能预测模型b对所述材料的实验组进行计算,得到按照该实验组制备所得材料的性能的预测结果。9.一种材料性能预测系统,其特征在于,包括:输入模块,用于输入材料的配方;计算模块,用于采用权利要利要求1-7任一项所述的材料性能预测模型的构建方法得到的材料性能预测模型a或材料性能预测模型b对所述材料的配方进行计算,得到材料性能的预测结果;输出模块,用于输出所述预测结果。10.一种计算机可读存储介质,其特征在于,其上存储有:用于实现权利要求1-7任一项
所述的材料性能预测模型的构建方法,或权利要求8所述的材料性能预测方法的计算机程序。

技术总结
本发明属于材料科学技术领域,具体涉及一种材料性能预测模型的构建方法、材料性能预测方法和系统。本发明包括如下步骤:采集已标记的样本集;构建未标记样本空间;基于已标记的样本集构建若干个训练集;利用若干个训练集训练机器学习模型,得到若干个预测模型;采用若干个预测模型对未标记样本空间内的样本进行预测,对于每一个未标记样本获得若干预测值,根据预测值的不确定度选择下一轮需要标记的样本;标记选择的样本,并将标记后的样本加入已标记的样本集;将选择的样本剔除未标记样本空间;重复上述操作直到得到的预测模型的预测性能符合要求。本发明实现了用较少的样本建立有效的材料性能预测模型的目的,具有很好的应用前景。用前景。用前景。


技术研发人员:邹华维 周楚翔 闫丽伟
受保护的技术使用者:四川大学
技术研发日:2023.05.15
技术公布日:2023/8/9
版权声明

本文仅代表作者观点,不代表航空之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

飞行汽车 https://www.autovtol.com/

分享:

扫一扫在手机阅读、分享本文

相关推荐